生物醫(yī)學知識發(fā)現(xiàn)平臺
生物醫(yī)學文獻中蘊藏著各種各樣的生物醫(yī)學知識,通過借助不同的數(shù)據(jù)挖掘/文獻挖掘方法,文獻挖掘可以選擇性的從中提取出特定主題的知識。作為一個完整的文 獻挖掘平臺,需要完成兩類功能:數(shù)據(jù)處理與文獻挖掘。數(shù)據(jù)處理包括文獻數(shù)據(jù)處理和其他數(shù)據(jù)處理,如從文獻數(shù)據(jù)庫中獲取文獻數(shù)據(jù),驗證數(shù)據(jù)的完整性,提取文 獻數(shù)據(jù)中的特定信息,以及提取其他類型的數(shù)據(jù)中的指定信息。在數(shù)據(jù)處理系統(tǒng)提供的規(guī)范化數(shù)據(jù)的基礎之上,文獻挖掘系統(tǒng)對其進行統(tǒng)計或者NLP方面的分析處 理,進而挖掘出實體名稱、實體關聯(lián)模式和實體關聯(lián)網(wǎng)絡等知識。
根據(jù)文獻挖掘的處理流程,生物醫(yī)學知識發(fā)現(xiàn)平臺包括六個子系統(tǒng):1)文獻獲取系統(tǒng),主要功能包括文獻下載、文獻校驗、數(shù)據(jù)更新和數(shù)據(jù)日志分析等;2)數(shù)據(jù) 預處理系統(tǒng),主要功能為從原始數(shù)據(jù)中提取出指定的信息,并按照需求保存為合適的格式;3)NLP系統(tǒng),加工文本數(shù)據(jù),將文本數(shù)據(jù)轉(zhuǎn)換為可以進行知識推理的 素材,主要功能為分詞、實體名稱識別、詞性標注和實體名稱映射等;4)關系挖掘系統(tǒng),主要功能為計算實體共出現(xiàn)頻率,提取實體關聯(lián)模式,提取關聯(lián)實 體;5)網(wǎng)絡構建系統(tǒng),主要功能是提供實體關聯(lián)網(wǎng)絡的基本性質(zhì)以及連通子圖、Hub子圖和關聯(lián)子網(wǎng)絡的提;6)網(wǎng)絡可視化系統(tǒng),圖形化展示網(wǎng)絡分析結 果。系統(tǒng)的部分成果發(fā)布在http://lifecenter.sgst.cn/textweb。
技術基礎
生物醫(yī)學知識發(fā)現(xiàn)平臺是一個JavaEE系統(tǒng),整合了GeniaTagger、Mallet、ABner和Standford Parser等自然語言處理相關的軟件,能夠完成常見的文本挖掘任務。由于文本挖掘任務是高計算量的工作,知識發(fā)現(xiàn)平臺在多線程處理方面進行了大量的優(yōu)化 工作。
服務方式
依托知識發(fā)現(xiàn)平臺,我們能夠提高如下的服務:
生物醫(yī)學文獻注釋與服務:從文獻中識別出實體,從而實現(xiàn)文獻注釋的目的,并能夠在傳統(tǒng)的文獻查詢功能基礎之上,提高基于實體的查詢;
特定疾病相關的文本挖掘:能夠提供疾病及其相關疾病的信息,以及疾病相關的基因、蛋白質(zhì)、小分子等信息;
多個基因/蛋白質(zhì)的關聯(lián)網(wǎng)絡分析:依托全文獻數(shù)據(jù)庫的文本挖掘結果,構建實體關聯(lián)網(wǎng)絡,從而能夠從網(wǎng)絡中找出指定的基因/蛋白質(zhì)之間的關系,并以網(wǎng)絡的形式展示這種關系;
生物醫(yī)學數(shù)據(jù)整合服務:借助實體關聯(lián)網(wǎng)絡和實體名稱-生物醫(yī)學數(shù)據(jù)映射技術,我們能夠提供基于文獻的數(shù)據(jù)整合服務;
其它文本挖掘定制服務:我們可以依照用戶需求,分析文獻的內(nèi)容,為用戶定制特定的文本挖掘服務。
bio-equip.com
無錫眾信科技有限公司(Shorigen Technology Wuxi Co,.Ltd)是在無錫市引進領軍型海外留學歸國創(chuàng)業(yè)人才計劃(簡稱“530”計劃)中創(chuàng)建的。公司以上海生物信息技術研究中心為依托,以中心主持和參與的國家重大科技專項、973、863等項目的科研成果為技術支撐,著重于科研成果的轉(zhuǎn)化。
目前,公司正致力于醫(yī)療衛(wèi)生信息化技術的研究、開發(fā)和服務,已研制出擁有自主知識產(chǎn)權的多套醫(yī)療信息化軟件系統(tǒng),已在全國多個醫(yī)療、科研機構廣泛使用。
未來,公司將繼續(xù)秉承以信息技術為引領,著重科研成果轉(zhuǎn)化,全方位提供面向醫(yī)療、健康和生物醫(yī)藥產(chǎn)業(yè)的專業(yè)化服務,促進公眾健康產(chǎn)業(yè)的發(fā)展,實現(xiàn)“服務大眾健康、立足信息技術”。
資質(zhì)與榮譽
2009年10月31日榮獲中國醫(yī)藥生物技術協(xié)會“生物醫(yī)學信息技術分會常務委員”聘書
2010年04月11日榮獲中國醫(yī)藥生物技術協(xié)會“組織生物樣本庫分會會員”聘書
2010年3月榮獲無錫市人民政府“2009年530計劃C類項目”
2010年12月30日“眾信樣本庫信息管理系統(tǒng)軟件”榮獲國家版權局“計算機軟件著作權”
2011年01月21日“眾信樣本庫信心管理系統(tǒng)軟件”通過江蘇省軟件產(chǎn)品檢測中心“軟件產(chǎn)品登記檢測”
2011年01月07日通過“ISO9001質(zhì)量管理體系認證”
2011年05月18日通過江蘇省經(jīng)濟和信息化委員會“軟件企業(yè)認定”
2011年05月18日“眾信樣本庫信息管理系統(tǒng)軟件”榮獲江蘇省經(jīng)濟和信息化委員會“軟件產(chǎn)品登記證書”
2011年06月01日“肺結節(jié)圖像過濾軟件系統(tǒng)” 榮獲國家版權局“計算機軟件著作權”
2011年06月01日“肺癌智能輔助診斷軟件系統(tǒng)” 榮獲國家版權局“計算機軟件著作權”
2011年06月08日“肺癌影像學導航學習軟件系統(tǒng)” 榮獲國家版權局 “計算機軟件著作權”
2011年06月21日“眾信科研電子病例管理系統(tǒng)軟件” 榮獲國家版權局“計算機軟件著作權”
2011年06月23日“眾信科研電子病例管理系統(tǒng)軟件”通過江蘇省軟件產(chǎn)品檢測中心“軟件產(chǎn)品登記檢測”
2011年07月05日“眾信實驗室信息管理系統(tǒng)軟件” 榮獲國家版權局“計算機軟件著作權”
2011年07月06日榮獲無錫市科學技術局、無錫市財政局“2011年無錫市第六批科技發(fā)展計劃(創(chuàng)新基金-創(chuàng)新項目)項目(項目編號CBE011107)”