腾讯工程师提议用中文索引算法创建DNA搜索引擎

騰訊工程師提議用中文索引算法創建DNA搜索引擎

2015-02-06 行業研究

展示量: 3235

　　科學(xue)家(jia)解碼了越(yue)來越(yue)多的基因(yin)組，但對遺傳學(xue)家(jia)或(huo)(huo)研(yan)(yan)究人員(yuan)來說，尋找有機體的共享基因(yin)組是一件十(shi)分艱巨的任務——因(yin)為要(yao)對比的DNA字母難以計數(shu)(shu)。如何快速搜索(suo)巨大的生(sheng)物(wu)信息(xi)學(xue)數(shu)(shu)據庫?多數(shu)(shu)研(yan)(yan)究人員(yuan)使用的是BLAST或(huo)(huo)FASTA算法，它們(men)本(ben)質(zhi)上(shang)逐(zhu)一比較每個基因(yin)組。現(xian)在中國第三大搜索(suo)引擎、騰訊旗下(xia)搜搜(SOSO.com)的一位(wei)計算機科學(xue)家(jia)王亮(liang)(Wang Liang)提出應用中文索(suo)引算法去檢索(suo)生(sheng)物(wu)信息(xi)。

　　王亮(liang)指出(chu)(chu)，中(zhong)文(wen)(wen)的(de)(de)(de)(de)(de)(de)每個字之間(jian)沒有留下間(jian)隔，因此索(suo)引(yin)(yin)中(zhong)文(wen)(wen)文(wen)(wen)檔的(de)(de)(de)(de)(de)(de)一種方法是將文(wen)(wen)本分解成N個片段(n-grams)，N代(dai)表(biao)(biao)字數(shu)，1-grams表(biao)(biao)示(shi)一個漢(han)(han)字，2-grams表(biao)(biao)示(shi)兩個漢(han)(han)字，3-grams表(biao)(biao)示(shi)三(san)個漢(han)(han)字，一些中(zhong)文(wen)(wen)搜(sou)索(suo)引(yin)(yin)擎就只索(suo)引(yin)(yin)2-grams。王亮(liang)稱，DNA序列的(de)(de)(de)(de)(de)(de)統計(ji)分布應該遵循齊夫(fu)定(ding)律(lv)(lv)(Zipf's law)。齊夫(fu)定(ding)律(lv)(lv)是指一個單(dan)詞(ci)出(chu)(chu)現的(de)(de)(de)(de)(de)(de)頻(pin)(pin)率與(yu)它(ta)在(zai)頻(pin)(pin)率表(biao)(biao)里(li)的(de)(de)(de)(de)(de)(de)排名(ming)成反比，頻(pin)(pin)率最高(gao)的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)出(chu)(chu)現的(de)(de)(de)(de)(de)(de)頻(pin)(pin)率大約是出(chu)(chu)現頻(pin)(pin)率第(di)二(er)位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)的(de)(de)(de)(de)(de)(de)2倍，而(er)出(chu)(chu)現頻(pin)(pin)率第(di)二(er)位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)則是出(chu)(chu)現頻(pin)(pin)率第(di)四位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)的(de)(de)(de)(de)(de)(de)2倍。王亮(liang)應用同樣(yang)標準去尋找擬(ni)南芥(jie)、曲霉、果蠅和老鼠的(de)(de)(de)(de)(de)(de)基(ji)因組(zu)字母平(ping)均長度，他發現平(ping)均長度為(wei)12個字母，因此用12-gram索(suo)引(yin)(yin)基(ji)因組(zu)數(shu)據也許最優。

知名風險投資公司

|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

創業聯合網是創業者和投資人的交流平臺。平臺擁有5000+名投資人入駐。幫助創業企業對接投資人和投資機構，同時也是創業企業的媒體宣傳和交流合作平臺。

我想找投資人我想發布信息

精華文(wen)章

重點推薦

創投聯合網行業分析私募股權投資商業計劃書風險投資人風險投資公司

麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡