消灭键盘：谷歌语音新设备两年内面世

消滅鍵盤：谷歌語音新設備兩年內面世

2014-12-26 項目

展示(shi)量(liang): 5701

創投(tou)分享會注：研究人員稱，人類近期在語音識別和(he)人工智能領域取得的(de)突破將很快會大幅提升設備(bei)(bei)的(de)理解能力。谷歌著名工程師(shi)約翰·沙爾克(ke)維克(ke)(Johan Schalkwyk)表示，只需一到兩年，這種性能強大的(de)新型設備(bei)(bei)就(jiu)會問世。它不僅能夠聽懂(dong)人們(men)說話(hua)的(de)意(yi)思，還明(ming)白上(shang)下文的(de)關聯與細微(wei)差別。

原文(wen)來自(zi) ，本文(wen)轉(zhuan)自(zi) 。

技術突破(po)

與數字語(yu)音助手聊天產生的樂趣大(da)概就像你(ni)努力與一(yi)個頑固的孩(hai)子講道理一(yi)樣。如(ru)果你(ni)曾(ceng)經(jing)對著(zhu)你(ni)的Xbox大(da)吼，或者(zhe)咒(zhou)罵(ma)Siri，那說明你(ni)可能已經(jing)對語(yu)音識別(bie)失望了。

沙爾克維克正在(zai)(zai)谷(gu)歌(ge)從事一項(xiang)野(ye)心(xin)勃勃的(de)研究項(xiang)目(mu)，開發能夠整(zheng)合公司海量數(shu)據的(de)語音系統(tong)。他表示，目(mu)前正在(zai)(zai)實驗室測(ce)試的(de)一個項(xiang)目(mu)能夠使計算機聽懂并在(zai)(zai)本質上“思(si)考”人們向谷(gu)歌(ge)設備輸入(ru)的(de)語音。

語(yu)(yu)音(yin)和機(ji)器(qi)學習領域近期的(de)創(chuang)新應該會(hui)大幅(fu)提升語(yu)(yu)音(yin)識別的(de)能力(li)，緩解人們(men)的(de)不滿情緒(xu)。Siri開(kai)發(fa)團隊中(zhong)有人表示(shi)，工程(cheng)師們(men)都在(zai)狂熱(re)地(di)開(kai)發(fa)語(yu)(yu)音(yin)識別技術，令其(qi)足夠智能，以實(shi)現設備與用(yong)戶真正(zheng)地(di)對(dui)話。“語(yu)(yu)音(yin)識別技術對(dui)所有地(di)區口語(yu)(yu)的(de)理(li)解能力(li)已取(qu)得(de)長足的(de)進(jin)步，”Siri底層(ceng)礎(chu)技術的(de)開(kai)發(fa)公司(si)SRI International（后被蘋果收購）副總(zong)裁威廉·馬克(William Mark)稱，“這種對(dui)話式互(hu)動現在(zai)成為了(le)一種前沿技術。”

蒂姆·圖特(te)勒(Tim Tuttle)對語音(yin)識別技(ji)術的飛躍等待(dai)已久。他(ta)在(zai)1997年(nian)(nian)(nian)取(qu)得了(le)麻(ma)省理工學院(yuan)的博士學位，并在(zai)該校人工智能實驗室任職。過去10年(nian)(nian)(nian)，他(ta)先后(hou)在(zai)多家(jia)硅谷公(gong)司工作，并最終(zhong)在(zai)2010年(nian)(nian)(nian)創建了(le)自己(ji)的公(gong)司Expect Labs。圖特(te)勒的公(gong)司去年(nian)(nian)(nian)開始(shi)從事一個系統研發，將復(fu)雜的語音(yin)指令(ling)加入到(dao)移(yi)動應用(yong)中。這款應用(yong)能夠允許用(yong)戶進(jin)入一家(jia)商店(dian)后(hou)向手機(ji)詢問要買(mai)的掃帚(zhou)在(zai)哪一條貨架走道。

“一(yi)年(nian)前，我(wo)(wo)們做了(le)(le)一(yi)次基準測試，得出的(de)結論是難(nan)以實現(xian)這一(yi)功能。但是現(xian)在，一(yi)切都已經(jing)發生(sheng)了(le)(le)改變。我(wo)(wo)們公司對語音識別(bie)進行(xing)了(le)(le)加倍投資(zi)，主要得益于我(wo)(wo)們所看到的(de)這些技術(shu)進步，”圖(tu)特勒表示，“你將(jiang)發現(xian)，那些在準確率上與人相當、或比(bi)人更高(gao)的(de)語音識別(bie)系統實現(xian)商業化。”

舊(jiu)技術(shu)獲重生(sheng)

先(xian)來迅速回(hui)顧一條歷史教訓(xun)：兩(liang)年(nian)半前，谷歌(ge)和多倫多大(da)學的研究人員發(fa)表了(le)一篇頗有影響(xiang)力的論文(wen)，內(nei)容關(guan)于使(shi)用“深度神(shen)經網絡”在(zai)電腦(nao)中模擬語音(yin)。幾個(ge)月(yue)后(hou)，微軟(ruan)和IBM合作發(fa)表了(le)另外一篇論文(wen)。谷歌(ge)工程(cheng)師杰(jie)夫·迪恩(Jeff Dean)將這(zhe)兩(liang)篇論文(wen)稱之為“語音(yin)研究領(ling)域(yu)20年(nian)來取得的最大(da)的一次(ci)進步”。

新發現讓一項問世數(shu)十年的(de)數(shu)字神經(jing)網(wang)絡技術(shu)創(chuang)新獲(huo)得(de)了重(zhong)生。該(gai)技術(shu)在(zai)上世紀80年代在(zai)預(yu)測(ce)和分(fen)析大數(shu)據方面(mian)表現優(you)異，但發展受(shou)制于當時(shi)過慢的(de)計算機速度。神經(jing)網(wang)絡在(zai)近(jin)期才(cai)成為一個(ge)可行的(de)選擇，這(zhe)要歸功(gong)于計算機處理(li)速度的(de)大幅提(ti)升和新軟件技術(shu)的(de)發展。

谷(gu)歌(ge)的(de)實(shi)驗(yan)室項(xiang)目就是(shi)基于(yu)神經網絡研究。6個月前(qian)，谷(gu)歌(ge)團隊放棄了一種名為(wei)前(qian)饋神經網絡的(de)舊(jiu)方(fang)法，轉(zhuan)而使用遞(di)歸神經網絡。這一轉(zhuan)換使得系(xi)統能夠(gou)存儲(chu)更(geng)多(duo)信息，處理更(geng)長、更(geng)復雜(za)的(de)序列。谷(gu)歌(ge)的(de)創(chuang)新(xin)成果(guo)在于(yu)對底層(ceng)代碼的(de)簡化，允許軟件(jian)在相同系(xi)統中存儲(chu)更(geng)多(duo)觀點(dian)和概(gai)念，使之易于(yu)問出復雜(za)的(de)問題(ti)和得出合理答案。“系(xi)統構建得復雜(za)會損(sun)害其(qi)長期發(fa)展，”沙爾(er)克維克說。

谷歌系統現在使用上下文、物理定位及其它了解到的說話者信息對談話的場所和真正含義進行預測，就像人在談話時大腦所做的一樣。谷歌(ge)的新網(wang)絡技術(shu)應(ying)該(gai)會更高(gao)效，從(cong)而(er)能(neng)夠處(chu)理比(bi)以(yi)往更多(duo)的數(shu)據，回答更為復(fu)雜的請求。

為(wei)了解釋未來語(yu)音識(shi)別(bie)(bie)技術的(de)工作原理，沙(sha)爾克(ke)(ke)(ke)維克(ke)(ke)(ke)使用(yong)(yong)(yong)了距離(li)谷歌加州(zhou)山景城總部(bu)幾英(ying)里之(zhi)外(wai)的(de)高級越南餐(can)(can)館(guan)作為(wei)例(li)子(zi)。這(zhe)家餐(can)(can)館(guan)名(ming)(ming)為(wei)Xanh Restaurant。沙(sha)爾克(ke)(ke)(ke)維克(ke)(ke)(ke)稱，對于典型(xing)的(de)語(yu)音識(shi)別(bie)(bie)系統來說(shuo)，識(shi)別(bie)(bie)出這(zhe)個餐(can)(can)館(guan)名(ming)(ming)字的(de)發音是(shi)個挑(tiao)戰，因(yin)為(wei)Xanh的(de)發音為(wei)“zahn”，識(shi)別(bie)(bie)起來十(shi)分困難。“如果我(wo)能使用(yong)(yong)(yong)地(di)圖，然(ran)后(hou)說(shuo)‘這(zhe)是(shi)一家餐(can)(can)館(guan)，它位(wei)于加州(zhou)’，那么可(ke)供參考(kao)的(de)餐(can)(can)館(guan)數量就會立刻減少很多，”他說(shuo)，“使用(yong)(yong)(yong)這(zhe)種語(yu)義知識(shi)，我(wo)們(men)能夠大幅改善語(yu)音識(shi)別(bie)(bie)的(de)質(zhi)量。”

這聽起來(lai)(lai)簡單，但對(dui)于計算(suan)機來(lai)(lai)說，聽到一個詞匯，從句子(zi)中(zhong)識(shi)別(bie)上下文，然后根(gen)據地理(li)位置分析信息是一件(jian)極為(wei)困難(nan)和耗(hao)費(fei)時間的(de)事情(qing)。如今(jin)，谷歌(ge)語(yu)音搜索能(neng)夠(gou)正確識(shi)別(bie)餐館，也許就(jiu)是因(yin)為(wei)其開發者是餐館老顧(gu)客的(de)原因(yin)。沙爾(er)克(ke)維克(ke)稱(cheng)，未(wei)來(lai)(lai)谷歌(ge)將能(neng)處理(li)其他同樣(yang)存(cun)在(zai)語(yu)音模(mo)糊不清的(de)眾(zhong)多問題。

沙(sha)(sha)爾克(ke)維克(ke)表(biao)示，在(zai)谷歌內部，語音識別取(qu)得了“數(shu)量(liang)空前多”的(de)技(ji)術(shu)進步。盡管谷歌取(qu)得的(de)重大進步還需要一(yi)到兩年時間才能(neng)在(zai)手機上(shang)體(ti)現出(chu)來，該(gai)項目已經催生出(chu)了可(ke)用于(yu)谷歌其他業務的(de)技(ji)術(shu)。“你開(kai)發一(yi)些技(ji)術(shu)準備登月，與此同時，你也開(kai)發出(chu)了另外100項有用的(de)技(ji)術(shu)，”沙(sha)(sha)爾克(ke)維克(ke)說。

沙(sha)爾克維(wei)克稱(cheng)，三年前(qian)，谷歌(ge)語音識別技(ji)術或許僅能(neng)識別3/4的(de)單(dan)(dan)詞(ci)。而(er)如今(jin)，圖特勒稱(cheng)，得益于創新速度的(de)加快(kuai)，谷歌(ge)手機語音識別應用能(neng)夠準確猜中12/13的(de)單(dan)(dan)詞(ci)。“未來(lai)，我們(men)將會生活在一(yi)個設備(bei)沒有鍵盤的(de)世界里，”圖特勒說(shuo)。

文章為作者獨立觀點，不代表創投分享會立場

知名風險投資公司

|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

創業聯合網是創業者和投資人的交流平臺。平臺擁有5000+名投資人入駐。幫助創業企業對接投資人和投資機構，同時也是創業企業的媒體宣傳和交流合作平臺。

我想找投資人我想發布信息

精華文章

重點推(tui)薦

創投聯合網行業分析私募股權投資商業計劃書風險投資人風險投資公司

麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡