開源的生物資訊數據平台受到學生駭客的幫助

Total votes: 376

原文連結:Open source bioinformatics data platform gets helps from student hackers

Bio4j被選為今年的Google Summer of Code 2014的一部份,而在Era7 Bioinformatics團隊經過幾個月的努力之後,這個在今夏所啟動的計畫最近取得了很大的成就。

在Era7 Bioinformatics,我們是一個專長於順序分析、知識管理、以及序列數據解析的生物資訊公司。我們的任務是幫助我們的顧客從他們的次世代序列專 案中獲得最高的數值。Bio4j是我們的高效能的圖像式雲端開源生物資訊數據平台,可以整合在蛋白質資訊周遭最典型的開放數據源可用之數據。它整合了在 UniProt KB (SwissProt + Trembl)、Gene Ontology (GO)、UniRef (50, 90, 100)、RefSeq、NCBI taxonomy和Expasy Enzyme DB可用的數據。目前的版本包含超過2,000,000,000個關聯、400,000,0000個節點和1,000,000,000個屬性。Bio4j 提供一個全新且強大的框架來查詢和管理蛋白質相關之資訊。既然它需要依賴高效能的圖像引擎,因此數據以根據語義所代表之本身結構的方式來儲存。反之,傳統 的相關資料庫必須平面化跟他們有關的數據至表格中,並建立人為的id來連結不同的元組,這樣做有可能在某些情況下導致領域模型和實際的資料結構幾乎不相 干。

假如你並不熟悉成功且有名的Google Summer of Code (GSoC) 計畫,它是一個有10年歷史的全球性計畫,提供資金引導來自各種領域的開源專案。資金是直接給學生們的,幫助他們在選定的開源專案中創造新的功能或是改 進。為了慶祝今年計畫的成功,Google在他們的總部於10月23至26日舉辦一個會議,並邀請來自各個成功參與之組織的代表們互相招呼和合作。2位 Era7 Bioinformatics的與會代表出席了在Google山景城辦公室的行程,並活躍的參與各項Google舉辦的活動。

Era7 Bioinformatics的CEO,Eduardo Pareja說:「這項專案已然成為一個很棒的機會使我們的Bio4j平台變成一個更加有用有價值的工具,讓我們進一步來詳細檢驗各種我們的管道和服務, 像是BG7和Genome7。」Pareja又說:「就某些部分,根據這些改進,我們現在可以提供量身訂做的Bio4j服務來讓其他團體使用在他們自己生 物資訊相關之解決方案。」

這是Bio4j成為GSoC一份子的第一年,負責啟發教導3位學生作業於這些專案:

Dynamograph,一個以DynamoDb為基礎的簡易圖像資料庫,提供可能性來保留和接收以圖像結構組織之數據。

Bio4j Graphml/GraphSON exporter, 一個給Tinkerpop3's Gremlin Console使用的插件,提供實踐於Bio4j's Domain Specific Language的遍歷步驟和:bio4j命令。:bio4j命令使你可以導出用Gremlin Graph Querying Language表達的質詢或是將Bio4j DSL格式導出成GraphSON或GraphML格式。

GsoC 2014 el-grafo project,互動式網路工具的第一項專案,這工具可以讓使用者直觀地探索Bio4j開源生物資訊數據平台的抽象領域模型。

原作者: 
Rosa Martin
翻譯者: 
王鄑
授權標示: 

本篇文章出處為 Opensource.com,翻譯改作後同樣以 CC BY-SA 4.0 授權發布。