公開數據,多多益善

Total votes: 299

原文連結:http://opensource.com/business/15/2/open-crowdsourced-data

絕大多數的軟體會製造出數據,而絕大多數擁有數據的人正在研究,該如何公開這些數據來讓這社會更好,這個行動已經在工作現場、非營利組織、網路社群、公司和一般的你我之中萌芽。

Ushahidi的使用者也不是例外,我們花了很多心思來提供接近使用並且公開數據的方法。我們在寫外掛以及應用程式介面之時,同時也是「資訊權責論壇」的活躍份子,我們在衡量的是公開數據之利與弊之間的平衡。

Ushahidi是一個讓民眾能夠在開放原始碼、跨界合作與創新冒險中發揮影響力的國際組織。

不作惡

Usahidi同時也是一個群眾外包的平台,吸收自直接傳達、簡訊、推特和臉書等社群媒體和專業人士的資訊。她現在已經被廣泛的應用在眾多領域,從軍事衝突和傳染病、一直到公園還有幾個空位子。

對,觀察公園裡的板凳並不是甚麼危險的事,但許多Ushahidi的使用者紀錄的,是極段危險的環境。因此把資訊公開並不只像好朋友之間公開秘密,當你公開資訊時,同時也背負了一份責任-貢獻出你的能力,並且極力避免和數據相關的人受到傷害。這也是為甚麼,公開數據的人應該先進行包含人口、製圖人、相關團體和領導人的風險評估。而就算這些數據是良性的,是誰擁有這些數據的問題依然是個問題。

數據的種類

一個典型的Ushahidi範例有這些種類的數據:

直接傳達:

群眾外包的資訊透過簡訊和網頁表單來輸入,Ushahidi有規範一個一定的形式(標題、描述和目錄等),但同時也給予特別的使用者來自訂一些特殊功能。

間接傳達:

從群眾外包與應用程式介面,可以蒐取推特、臉書等其他的應用程式。

地理位置定位:

也就是將地名的經緯列在一個表中,他們可以使用Nominatim等地名辭典、手動被管理者輸入,或是為直接傳達者所輸入。

分類清單:

通常由管理者所輸入的報告分類。

多媒體:

報告者或管理者在報告中加入的影音檔等。

誰擁有這些數據?

所有權是一個不斷被提起的一個議題。如果這回是一個社群的人加入,而網站也從社群網站吸納了這些數據,那數據是誰的?舉例子來說,第三方數據(如推特訊息)是被限制以至於就算徵取了原作者的同意,將這份數據放到你的網站還是違法的。數據的所有權已經在開放數據和社群網站中被討論許多次,病程程牽扯到許多工作和甚至丟失數據的風險。與群眾外包取得一個共識,並且讓你公布出的數據都是被許可的,是一個很好的起點。

倫理的進程

風險也是一個一直被提出的問題,有許多關於隱私的考量(如意外地讓定位點和電話號碼被公開),報導衝突、暴力和恨意發言的群中可能會有安全的顧慮等。例子有如:防強姦庇護所位置被暴露、以及秘密行動的成員被曝光等。

人生並非總是非黑即白的,當灰色地帶出現時,我們常常開始討論進程:

道德進程:評估公開一些數據所帶來的風險,選擇那些數據應該被公開而那些不。平衡公開資料所會帶來的壞處與好處。如果你不確定,那摩寧可不要公開,但若你已經非常確認而風險非常的小,依然還是要再三謹慎思考,特別是以私人內容為來源的。

法律進程:

選擇要與誰公開,並且簽定保密合約等。你可能會想要分享已經在媒體之中的數據,但你也可以藉著法律為自己找一個有趣的法律上的特殊領域。在某些國家中,關於誹謗罪的內容也應被考慮。

實體的進程:

該在哪裡存放乾淨的數據,並且如何讓它被近用?現在有許多數據倉庫特別存放公益數據,例如人道主義資訊交流中心(Humanitarian Data Exchange),專精於災難相關的數據,以及例如datahub.io的網站。Ushahidi數據也能使用應用程式介面和CSV下載按鈕來公開,或是向有要求的個人公開。

作為一個危機定位者,我常常經歷這些道德進程。通常我會先靠人力調查,或是監督其他已經有基礎知識的人,讓他們除去一些明顯的個人可識別資訊以及一些可疑的資料點,然後請求當地人進行一些對外地人來說難以察覺的調查。(例如敘利亞的某家麵包店被視為危險的資訊,因為它被鎖定為轟炸的目標)

我在第一次篩檢時會特別注意到一些東西:

辨別報告和主題:

電話號碼、電子郵件、姓名、地址。

軍事資訊:行動、活動、裝備

未經證實的犯罪行為:暴力、貪汙等沒有被當地媒體報導的行為

煽動性的言詞

準確性:

這些報告是否是真的,或至少有外部資訊的佐證

這可能會因為語言不通、放置了密碼或是時間不足使的這項工作較為困難。這可以是一個很艱難的作業,但是如果你不進行這個動作,你就等於是在虧待這份數據,而這是一項很嚴重的事。

後設數據的整理

我也會從後設的角度來看這份數據,如誰需要這些數據?或是這份數據到底應該要多準確?

開放數據的本性便是開放,而它很難預料使用者會拿它們來做甚麼,但這其中依然有些規則可循:

 

學術:社群媒體與群體動力學的分析

組織的其他成員:為了經驗教訓報告、解釋、圖像或或是報告節奏(資訊來的頻率)等的分析

數據相關人士(與該數據有直接相關的人):

可以審查數據是否真確,並有可能會要求撤下數據。目前尚未有相關的案例,但遲早會有。

我也有被問了一些很有用的後設資料問題,如:

地理定位的精確性應該要有多少?較不精確是否可被接受,甚至更好?

是否每一件事都要回報?

多數部屬行動會有很多垃圾資訊(通常是尚未被證實的),而且畢竟越多的數據是需要越多時間來管理的。

集合的數據是否可以提供該人所需的數據?如,如果一個人只需要日期和地點,那你需要給他所有的資訊嗎?

你可能想要為數據佈署留一點時間,讓他的破壞力減少一些。當你釋放一個數據庫時,你也應該有一個讓數據退休的計劃,詳細規劃數據的那些數據要公開,並且擬定將它庫藏的計畫。

這是一個很快掃過一些關於群眾外包議題的文章。但回歸到基本,最重要的總是「不要傷害」的規則,並且保持對於意外風險的注意。請開放越多公益數據越好,但同時也要顧及

 

 

 

 

 

 

 

翻譯者: 
張尚文