科學(xue)家(jia)解碼了越(yue)來越(yue)多的基因(yin)組,但對遺傳學(xue)家(jia)或(huo)(huo)研(yan)(yan)究人員(yuan)來說,尋找有機體的共享基因(yin)組是一件十(shi)分艱巨的任務——因(yin)為要(yao)對比的DNA字母難以計數(shu)(shu)。如何快速搜索(suo)巨大的生(sheng)物(wu)信息(xi)學(xue)數(shu)(shu)據庫?多數(shu)(shu)研(yan)(yan)究人員(yuan)使用的是BLAST或(huo)(huo)FASTA算法,它們(men)本(ben)質(zhi)上(shang)逐(zhu)一比較每個基因(yin)組。現(xian)在中國第三大搜索(suo)引擎、騰訊旗下(xia)搜搜(SOSO.com)的一位(wei)計算機科學(xue)家(jia)王亮(liang)(Wang Liang)提出應用中文索(suo)引算法去檢索(suo)生(sheng)物(wu)信息(xi)。
王亮(liang)指出(chu)(chu),中(zhong)文(wen)(wen)的(de)(de)(de)(de)(de)(de)每個字之間(jian)沒有留下間(jian)隔,因此索(suo)引(yin)(yin)中(zhong)文(wen)(wen)文(wen)(wen)檔的(de)(de)(de)(de)(de)(de)一種方法是將文(wen)(wen)本分解成N個片段(n-grams),N代(dai)表(biao)(biao)字數(shu),1-grams表(biao)(biao)示(shi)一個漢(han)(han)字,2-grams表(biao)(biao)示(shi)兩個漢(han)(han)字,3-grams表(biao)(biao)示(shi)三(san)個漢(han)(han)字,一些中(zhong)文(wen)(wen)搜(sou)索(suo)引(yin)(yin)擎就只索(suo)引(yin)(yin)2-grams。王亮(liang)稱,DNA序列的(de)(de)(de)(de)(de)(de)統計(ji)分布應該遵循齊夫(fu)定(ding)律(lv)(lv)(Zipf's law)。齊夫(fu)定(ding)律(lv)(lv)是指一個單(dan)詞(ci)出(chu)(chu)現的(de)(de)(de)(de)(de)(de)頻(pin)(pin)率與(yu)它(ta)在(zai)頻(pin)(pin)率表(biao)(biao)里(li)的(de)(de)(de)(de)(de)(de)排名(ming)成反比,頻(pin)(pin)率最高(gao)的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)出(chu)(chu)現的(de)(de)(de)(de)(de)(de)頻(pin)(pin)率大約是出(chu)(chu)現頻(pin)(pin)率第(di)二(er)位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)的(de)(de)(de)(de)(de)(de)2倍,而(er)出(chu)(chu)現頻(pin)(pin)率第(di)二(er)位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)則是出(chu)(chu)現頻(pin)(pin)率第(di)四位的(de)(de)(de)(de)(de)(de)單(dan)詞(ci)的(de)(de)(de)(de)(de)(de)2倍。王亮(liang)應用同樣(yang)標準去尋找擬(ni)南芥(jie)、曲霉、果蠅和老鼠的(de)(de)(de)(de)(de)(de)基(ji)因組(zu)字母平(ping)均長度,他發現平(ping)均長度為(wei)12個字母,因此用12-gram索(suo)引(yin)(yin)基(ji)因組(zu)數(shu)據也許最優。
