
科幻作品中我們經常能夠看到與人類一樣聰明的機器人,但機器是如何在這背后存儲知識的?是如何推理知識并運用知識的?最后又是如何實現與人的交互的?此次在的百度BIG大會上,百度技術副總王海峰博士總結了實現人工智能的三大關鍵技術,基本回答了這些問題,雖然講的比較簡單,但由于信息量過大沒有一定背景的人是很難聽懂的,所以我純粹來給各位科普下。
關(guan)鍵一,讓(rang)機器理解(jie)語(yu)言的技(ji)術
理解語(yu)言是一個從詞語(yu)逐漸遞進到事(shi)件的(de)過程。
1,分詞技術
讓機器(qi)理解語言,也(ye)就是(shi)要(yao)讓機器(qi)學會自(zi)己思考,那么就需要(yao)讓機器(qi)去(qu)理解語言。而漢語的
理解(jie)與英語相(xiang)比起來就顯得更加困難(nan),在英語中每個單詞(ci)都是(shi)基本上可(ke)以被機器直接讀取的,但是(shi)漢(han)語在分(fen)詞(ci)上則更為困難(nan)。我們來舉(ju)幾個列(lie)子。
“你|老(lao)張|著(zhu)什么急|啊”
“你(ni)|老張著|什么嘴|啊”
上面是(shi)一(yi)個簡單的列子,修改一(yi)個字,意(yi)思就相差十(shi)萬八千里,而(er)機器(qi)根據字的不同則可(ke)以(yi)勉(mian)強(qiang)分出來(lai)。但是(shi)下面這(zhe)個列子就折騰了。
“乒乓球拍賣完了”
機(ji)器(qi)該怎(zen)么分(fen)?這就(jiu)困難(nan)了(le),機(ji)器(qi)既(ji)可以分(fen)出兩種(zhong)意思
“乒(ping)乓球(qiu)|拍賣|完(wan)了(le)”
“乒乓(pang)|球拍|賣完了”
那(nei)么困難(nan)就來(lai)(lai)了(le),我們如何告(gao)訴機器這句話中(zhong)的詞(ci)該怎么分呢?對于人來(lai)(lai)說很(hen)簡單,根據前(qian)后(hou)文(wen)馬(ma)上(shang)就能(neng)識別出(chu)來(lai)(lai),但是(shi)對于機器來(lai)(lai)說則極為艱難(nan)。
2,句子的分析技術
分詞問題(ti)解決之后便是分析句子的(de)問題(ti),請看下(xia)面兩句
“謝霆鋒|是(shi)誰|兒子”
“謝霆(ting)鋒|兒子(zi)|是誰(shui)”
對于機器來說,這兩(liang)句話獲得的(de)關鍵分(fen)詞信(xin)息(xi)是一(yi)樣(yang)的(de),都是“謝霆鋒”、“是誰”、“兒子”,這三(san)個(ge)關鍵分(fen)詞信(xin)息(xi)。我(wo)們該如何告(gao)訴計算機,因為順序(xu)先后(hou)的(de)原因而導致的(de)語義的(de)天差地別呢?
這其中(zhong)就需(xu)要對語(yu)(yu)言有很深入的分析,對語(yu)(yu)義理(li)解,從而(er)知道他(ta)們要找的答案是不(bu)一樣。做到這單(dan)同(tong)樣不(bu)容易。
3,上下文相關的分析技術
分析完一句話(hua)后,機器自然要推演到(dao)分析一篇文章的(de)內容。
在《信(xin)(xin)息(xi)簡史》中有(you)一(yi)個很重要(yao)的(de)信(xin)(xin)息(xi)原(yuan)理(li),就(jiu)是說當我們需(xu)(xu)要(yao)傳遞信(xin)(xin)息(xi)時,需(xu)(xu)要(yao)大量(liang)的(de)冗余信(xin)(xin)息(xi)來保障信(xin)(xin)息(xi)的(de)準確(que)性,沒用的(de)廢話(hua)越(yue)多則(ze)傳遞信(xin)(xin)息(xi)的(de)準確(que)性越(yue)高,同樣對(dui)于(yu)讓機器理(li)解某句話(hua)也是基于(yu)同樣原(yuan)理(li)。
但問題(ti)是,人(ren)可以依靠直覺抓(zhua)取(qu)關鍵(jian)信息,而(er)機(ji)器又(you)憑借什么來抓(zhua)取(qu)關鍵(jian)信息呢?又(you)如(ru)何識(shi)別(bie)真正的(de)信號與噪聲?這也是至關重要的(de)技術。
我們看以下三個列子
我們看到當(dang)搜(sou)索(suo)“天空為(wei)什么是藍色的(de)”時(shi),百度并沒(mei)(mei)有把文章前(qian)(qian)半(ban)部分的(de)內(nei)容(rong)放上去,而是自動摘取了中(zhong)間的(de)關鍵答案,而當(dang)用搜(sou)狗搜(sou)索(suo)和360搜(sou)索(suo)時(shi),并沒(mei)(mei)有摘要出最優答案,只(zhi)是把文章的(de)前(qian)(qian)半(ban)部分內(nei)容(rong)放了上去。這(zhe)說明搜(sou)狗和360搜(sou)索(suo)還有可以(yi)繼(ji)續提升的(de)空間。
4,分析事件的技術
分析文章的(de)(de)(de)(de)問題解(jie)決后就(jiu)必須再(zai)攀(pan)登(deng)更高的(de)(de)(de)(de)高度,讓機器(qi)去(qu)系統(tong)性的(de)(de)(de)(de)分析一個(ge)(ge)事(shi)件,也就(jiu)是(shi)再(zai)加上時間的(de)(de)(de)(de)這個(ge)(ge)維度,將與某個(ge)(ge)事(shi)件相(xiang)關關鍵的(de)(de)(de)(de)文章全部集合,就(jiu)可以還原一個(ge)(ge)歷史事(shi)件的(de)(de)(de)(de)進程。
當(dang)我們(men)搜索“斯(si)諾登”時,就會出(chu)現(xian)以下按照時間軸展(zhan)開的標題。
左邊是(shi)(shi)百度的事(shi)件整理(li),中間(jian)是(shi)(shi)360的事(shi)件整理(li),最右邊是(shi)(shi)搜狗(gou)搜索的結果(guo)。
在事件歸(gui)類的技術上,百(bai)度與(yu)360都已能(neng)夠做(zuo)到識別,而搜狗(gou)目前沒有(you)做(zuo)到這點。
事件整理是最(zui)高難度的(de)技(ji)術,也(ye)是如何做到(dao)讓機器理解(jie)語言的(de)最(zui)高一層。
關鍵二,知識(shi)挖(wa)掘(jue)技術
1,知識圖譜的建立技術
首先假設,我(wo)們在機(ji)器中存(cun)儲了上億個(ge)實(shi)體知識,這(zhe)對于機(ji)器來說不(bu)是難(nan)事,輕而易舉,難(nan)就難(nan)在存(cun)儲實(shi)體的(de)關系(xi)上,一(yi)個(ge)實(shi)體對應(ying)多(duo)個(ge)屬(shu)性,比如一(yi)張桌子對應(ying)了品(pin)牌、顏色、木材等等屬(shu)性,這(zhe)些屬(shu)性就有上百億級別,這(zhe)些關系(xi)錯綜復雜(za)的(de)整合(he)起來,要(yao)存(cun)儲的(de)數據就會(hui)指(zhi)數級的(de)增加,這(zhe)注(zhu)定是一(yi)張超級的(de)海量級圖(tu)譜。
如何建立起圖譜(pu)?以(yi)以(yi)下這句話來舉(ju)例(li)
“奢侈品牌(pai)路(lu)易威登1854年成(cheng)立法(fa)國巴(ba)黎”
那(nei)么機器(qi)該如何進行知識的存(cun)儲呢?
1)奢(she)侈品與路易(yi)威(wei)登(識別出路易(yi)威(wei)登是個品牌并且是奢(she)侈品,存儲該知識)
2)路(lu)易(yi)威登與1854年成立(li)(識別出路(lu)易(yi)威登的(de)成立(li)時間,存儲該知(zhi)識)
3)路易威(wei)登(deng)成立于法國巴黎(識(shi)別出路易威(wei)登(deng)成立于發過(guo),,存儲該(gai)知識(shi))
4)法國巴(ba)黎(識(shi)別出法國與巴(ba)黎有關系,存儲該(gai)知識(shi))
5)……
以上(shang)(shang)只是(shi)一種粗略的(de)理想(xiang)化的(de)情景,王博士也(ye)沒有說更細節的(de)事情。我這里補充(chong)下,實際上(shang)(shang)這種只是(shi)圖(tu)譜一直是(shi)動態(tai)的(de),有不斷的(de)增(zeng)加刪減(jian)的(de)過程,每(mei)個(ge)語句中的(de)知(zhi)(zhi)識都是(shi)按(an)照(zhao)時間線出(chu)(chu)現(xian)的(de)大數(shu)據關鍵詞(ci)內容,根據統計后(hou)才建(jian)立起的(de)知(zhi)(zhi)識圖(tu)譜,與人(ren)腦(nao)一樣,這些關系(xi)(xi)知(zhi)(zhi)識圖(tu)譜出(chu)(chu)現(xian)又消失,最(zui)后(hou)那(nei)些確鑿(zao)無疑的(de)關系(xi)(xi)被留了(le)下來,但是(shi)這些依(yi)然是(shi)動態(tai)的(de),如果哪(na)天法國的(de)首(shou)都不再是(shi)巴黎,整個(ge)關系(xi)(xi)知(zhi)(zhi)識圖(tu)譜數(shu)據庫會(hui)將所有數(shu)據全部更新。
2,知(zhi)識(shi)推理技術
當知(zhi)識(shi)圖(tu)譜建立后(hou),要(yao)做的(de)就是實際層(ceng)面的(de)應(ying)用(yong),將(jiang)這些知(zhi)識(shi)圖(tu)譜應(ying)用(yong)到真正的(de)實現(xian)中,當用(yong)戶搜索某個問(wen)題后(hou),去檢索數據庫(ku)中的(de)關系圖(tu)譜,然(ran)后(hou)將(jiang)關聯性最高的(de)精確答案呈現(xian)給用(yong)戶
1)直接推理。
我(wo)們(men)以搜索“劉德華多(duo)少歲了”來舉例。
當我們搜(sou)(sou)索這個問題后,搜(sou)(sou)索結(jie)果中就(jiu)會直(zhi)接呈(cheng)現出(chu)了(le)劉德華的年(nian)(nian)齡(ling),這就(jiu)是(shi)運(yun)用(yong)了(le)知(zhi)識的推(tui)理能(neng)力(li)。這個53歲(sui)是(shi)一個動(dong)(dong)態結(jie)果,機(ji)器(qi)在幕后進行了(le)大量的運(yun)算后知(zhi)道獲(huo)得年(nian)(nian)齡(ling)是(shi)一個動(dong)(dong)態的算法,需要將此(ci)人(ren)的生日(ri)與當前(qian)時間相減,之(zhi)后才能(neng)得出(chu)結(jie)論。
同(tong)樣的(de),當(dang)我們(men)搜索“謝(xie)(xie)霆鋒兒(er)子(zi)的(de)母親的(de)前夫(fu)的(de)父(fu)親”后得出(chu)是“謝(xie)(xie)賢”的(de)結果,這(zhe)也(ye)是技術(shu)在背(bei)后的(de)推理的(de)作用(yong)。
2)分類推理
上面談了(le)比較(jiao)簡單直觀(guan)的(de)推(tui)理模型,但(dan)這只(zhi)是在用戶(hu)提問(wen)有確定唯(wei)一結果(guo)答案(an)的(de)時(shi)候才那么(me)奏(zou)效,但(dan)當用戶(hu)搜索某(mou)個沒有唯(wei)一標準答案(an)的(de)問(wen)題時(shi)就不(bu)再奏(zou)效。那么(me)這里就會用到(dao)分類推(tui)理的(de)技術。
比(bi)如(ru)當(dang)用戶搜索(suo)搜索(suo)“觀(guan)賞(shang)魚”。
這(zhe)種搜(sou)(sou)索沒有指定的(de)(de)唯(wei)一標準(zhun)答案,所以(yi)機器(qi)從(cong)后(hou)臺的(de)(de)知(zhi)識體(ti)系庫中(zhong)提取(qu)了關于“觀(guan)賞(shang)魚(yu)”的(de)(de)相(xiang)關分(fen)類內容,列出(chu)了所有相(xiang)關結果(guo)(guo),給出(chu)了各個觀(guan)賞(shang)魚(yu)的(de)(de)種類結果(guo)(guo),好讓用戶去(qu)找到(dao)自己(ji)想要的(de)(de)結果(guo)(guo)。在這(zhe)里又順(shun)便將三(san)個搜(sou)(sou)索結果(guo)(guo)做了比(bi)較,百度的(de)(de)搜(sou)(sou)索結果(guo)(guo)最為(wei)全(quan)面,搜(sou)(sou)狗次之,而360沒有分(fen)類。
通(tong)過大數據,在后臺為實(shi)體知識進行分類(lei),這是一種在線性的直(zhi)接(jie)推理(li)之上的高(gao)層次整合(he)式(shi)的推理(li)。
分(fen)類推理除了能(neng)夠提供(gong)直(zhi)接的(de)結(jie)果之外,還能(neng)夠為用(yong)戶帶來額外的(de)相關性(xing)的(de)具有幫(bang)助的(de)結(jie)果,當我們搜索“關羽”時,在搜索結(jie)果右側會展示出如(ru)下結(jie)果。
左上角是百(bai)度的(de)(de)結果(guo),右上角是360的(de)(de)搜(sou)索結果(guo),左下角是搜(sou)狗的(de)(de)搜(sou)索結果(guo)。
而(er)這(zhe)些結果都(dou)不(bu)是(shi)(shi)(shi)人工輸入的(de)(de),全部都(dou)是(shi)(shi)(shi)通過大(da)(da)數據(ju)挖(wa)(wa)(wa)掘得出的(de)(de)結果,三(san)家都(dou)能夠挖(wa)(wa)(wa)掘出與(yu)”關(guan)(guan)羽(yu)“相關(guan)(guan)的(de)(de)信(xin)息(xi)(xi),但百度挖(wa)(wa)(wa)的(de)(de)更(geng)深(shen),把關(guan)(guan)羽(yu)與(yu)劉備(bei)以(yi)及貂(diao)蟬的(de)(de)關(guan)(guan)系都(dou)挖(wa)(wa)(wa)了出來(lai)(lai)。這(zhe)種(zhong)對(dui)隱性(xing)(xing)信(xin)息(xi)(xi)挖(wa)(wa)(wa)掘是(shi)(shi)(shi)大(da)(da)數據(ju)價值的(de)(de)核心,大(da)(da)數據(ju)的(de)(de)價值不(bu)在(zai)于大(da)(da),而(er)在(zai)于挖(wa)(wa)(wa)掘有價值的(de)(de)關(guan)(guan)聯,然后拉動其他價值。舉個簡單的(de)(de)例(li)子,通過大(da)(da)數據(ju)發掘,發現下(xia)面包店某款面包會(hui)賣的(de)(de)更(geng)好,存在(zai)這(zhe)么(me)一種(zhong)隱性(xing)(xing)關(guan)(guan)聯,那么(me)店主(zhu)只(zhi)需要(yao)準備(bei)更(geng)多的(de)(de)該蛋糕就能帶來(lai)(lai)更(geng)多的(de)(de)收益(yi)。
關鍵三,對人(ren)的建模技術
機器發展出智能的(de)(de)最(zui)終目的(de)(de)是(shi)為了與(yu)人(ren)交互,所(suo)以還需要(yao)讓(rang)機器能夠理(li)解(jie)(jie)人(ren)的(de)(de)行為,只有當理(li)解(jie)(jie)完人(ren)的(de)(de)行為后機器才有可能將知識運用到與(yu)用戶的(de)(de)交互中,才有最(zui)終商業化落地的(de)(de)價值。
1,個體建模
所謂個(ge)體建模(mo),就(jiu)(jiu)是說根據某單個(ge)用(yong)戶(hu)的(de)(de)(de)操作行(xing)為為其(qi)提供(gong)私人定制(zhi)化(hua)的(de)(de)(de)服(fu)務。“今日頭條(tiao)”就(jiu)(jiu)是用(yong)的(de)(de)(de)個(ge)體建模(mo)技術,當用(yong)戶(hu)查(cha)看新聞時,它會根據用(yong)戶(hu)的(de)(de)(de)行(xing)為軌跡,為用(yong)戶(hu)推薦其(qi)感興(xing)趣的(de)(de)(de)內(nei)容(rong)。同樣(yang)的(de)(de)(de),在(zai)百度搜索引擎中同樣(yang)如此,當用(yong)戶(hu)搜索的(de)(de)(de)關鍵詞越多(duo),百度就(jiu)(jiu)越有能力向其(qi)推薦其(qi)更為感興(xing)趣的(de)(de)(de)內(nei)容(rong)。
比如當(dang)用戶搜(sou)索“SF”關鍵詞后。
如(ru)果該(gai)用戶(hu)經(jing)常逛百度(du)動漫(man)(man)相關貼吧,搜索相關動漫(man)(man)人物名稱(cheng),音樂等(deng)等(deng)操作,那(nei)么(me)排序在第一位(wei)的就(jiu)會是某(mou)個關于動漫(man)(man)的網站(zhan),但是如(ru)果該(gai)用戶(hu)經(jing)常搜索與(yu)快(kuai)遞相關的知識,那(nei)么(me)排在第一位(wei)的就(jiu)會是順(shun)豐(feng)網站(zhan)。
這(zhe)種針(zhen)對個人的精準建模(mo)在(zai)未來數據(ju)更加充足的情況下,每個人都(dou)將獲得數據(ju)化(hua)的留存(cun),我們(men)的一切行為都(dou)將數據(ju)化(hua)可(ke)視化(hua),進而(er)得出(chu)自(zi)己(ji)的一切相關結論。當前數據(ju)采集(ji)并(bing)建模(mo)這(zhe)種技(ji)術已經趨(qu)于成熟,剩下的就等物聯網(wang)大潮上陣。
2,群體建模
光對(dui)個人建模(mo)還不夠,機器最重要的是(shi)對(dui)群體(ti)建模(mo),而對(dui)群體(ti)建模(mo)也(ye)是(shi)商業化(hua)價(jia)值的核(he)心所(suo)在。
所謂(wei)群(qun)體建模,就是判斷(duan)在某一(yi)場景下(xia)最多(duo)數人的行(xing)為進行(xing)收(shou)集,然后取(qu)得(de)(de)各(ge)個(ge)場景下(xia)的群(qun)體交集,進而得(de)(de)出(chu)擁有某一(yi)部分屬(shu)性的人經(jing)常會做出(chu)哪些(xie)選擇。
這(zhe)些人的屬性包括:地域、漫畫(hua)愛(ai)好(hao)(hao)者、美劇愛(ai)好(hao)(hao)者、父(fu)親(qin)、高考(kao)學(xue)生……
這些人(ren)的行為包括:看動(dong)漫、看美劇、搜索育兒知識、搜索高考知識……
機器(qi)通過后臺的判斷將(jiang)他(ta)們(men)進行(xing)(xing)群(qun)體人群(qun)的屬性(xing)與行(xing)(xing)為的歸類,然后讓(rang)相關高層找到可以進行(xing)(xing)商業化決策的支撐。
上(shang)面說(shuo)的還是(shi)(shi)有點抽象,那我們再說(shuo)的簡單點,比(bi)如我們通(tong)(tong)過大數據挖掘預測某個地域30歲以上(shang)的人在(zai)最近一(yi)段時間有很強的購買秋(qiu)褲的需求,那么商家(jia)在(zai)推(tui)廣秋(qiu)褲的時候只(zhi)需要加大在(zai)該地區的廣告投放即可獲得更高的利潤(run)回報。當然這里不(bu)再是(shi)(shi)商家(jia)主動去(qu)找答案,而(er)是(shi)(shi)機器通(tong)(tong)過挖掘后主動為其提供一(yi)系列選項,商家(jia)只(zhi)需要被(bei)動接受即可。
結語:
從某種意義上(shang)來看,讓機(ji)器理解(jie)語言的技術(shu)、知識挖掘技術(shu)、對人的建模技術(shu)這三(san)大(da)技術(shu)再經過(guo)一段時間的發(fa)展后,對破解(jie)圖(tu)靈(ling)測試是有可能的。
但這種技術(shu)無論如何進(jin)步(bu)都需(xu)要驅動的(de)“電池”,也就是人類(lei)所產生的(de)數據(ju),說的(de)更確(que)切一些是人類(lei)的(de)欲望(wang)。
在(zai)我(wo)看(kan)來(lai),驅動技術(shu)的(de)唯有商(shang)業與軍事(shi)這二(er)者(zhe),而這二(er)者(zhe)分別代表(biao)著欲望(wang)與恐懼,在(zai)這個和平年代的(de)我(wo)們是幸(xing)運的(de),我(wo)們被免去了戰爭的(de)恐懼,進(jin)而剩下(xia)的(de)就(jiu)是無盡的(de)欲望(wang),在(zai)技術(shu)與人越來(lai)越緊(jin)密不可分割的(de)糾纏中,我(wo)們將迎來(lai)一個欲望(wang)與技術(shu)超級混合的(de)新(xin)世界(jie)。
未來(lai)會怎(zen)樣?請關(guan)注(zhu)微信(xin)公眾(zhong)號“機(ji)器之心”。
