麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡

深度學習于百度:技術噱頭還是勝負手?

2014-11-01 項目

展示(shi)量: 4548
深度學習于百度:技術噱頭還是勝負手?

昨天(tian)(10月30日),百度舉行了一次小(xiao)規模(mo)的媒體開放(fang)日活(huo)動,介(jie)紹了其深度學(xue)習在最新的拍照搜(sou)索方面的應用成就。這個技術(shu)從8月20日開始,已經部署(shu)在手機百度5.5版本上。


自2013年(nian)百(bai)度(du)公布深(shen)度(du)學習(xi)戰略(lve)以(yi)來(lai),通過媒體的(de)(de)(de)持(chi)續跟進,深(shen)度(du)學習(xi)的(de)(de)(de)一(yi)些(xie)現實應用(yong)已(yi)經廣為人知。例(li)如最普及的(de)(de)(de)拍(pai)照搜索(suo),與其他一(yi)些(xie)互(hu)聯網公司僅能識別(bie)簡單的(de)(de)(de)書籍、CD封面不同,百(bai)度(du)已(yi)經可以(yi)識別(bie)并檢索(suo)人臉、植(zhi)物、水果等形狀不規(gui)則、顏(yan)色復雜(za)、規(gui)律性(xing)不強(qiang)的(de)(de)(de)圖像。一(yi)個(ge)應用(yong)實例(li)是(shi),用(yong)戶對皮(pi)膚病患者的(de)(de)(de)患病部位(wei)拍(pai)照并進行(xing)搜索(suo),百(bai)度(du)通過與數據庫中(zhong)的(de)(de)(de)標準案例(li)比對,能夠告訴(su)患者病情(qing)的(de)(de)(de)嚴重程度(du),并給出對應醫(yi)院、醫(yi)生的(de)(de)(de)就診(zhen)(zhen)建議。據百(bai)度(du)高級副(fu)總(zong)裁王勁透露,目前,這一(yi)拍(pai)照預診(zhen)(zhen)產品的(de)(de)(de)成功率已(yi)經達到93%。


但是,由于深度學(xue)習(xi)技術(shu)(shu)涉及(ji)到(dao)大量(liang)高深的(de)(de)(de)數學(xue)技術(shu)(shu)和復雜(za)的(de)(de)(de)算法原(yuan)理,目前(qian)在大眾領域,對其(qi)的(de)(de)(de)認知(zhi)(zhi)仍然比較零散,還停留在兩端:在原(yuan)理端,知(zhi)(zhi)道(dao)這(zhe)是一種很先進(jin)的(de)(de)(de)計算機技術(shu)(shu);在實(shi)用(yong)端,知(zhi)(zhi)道(dao)有語音識別、圖(tu)像(xiang)搜索等實(shi)際用(yong)途。但深度學(xue)習(xi)對現有的(de)(de)(de)計算機應用(yong)有怎樣(yang)的(de)(de)(de)革命(ming)性,以及(ji)這(zhe)些實(shi)用(yong)技術(shu)(shu)具(ju)有怎樣(yang)的(de)(de)(de)商業價(jia)值,卻不甚了然。


淼叔自去年(nian)6月,一(yi)直在關注(zhu)這(zhe)個(ge)(ge)領(ling)域(yu)(yu)的(de)(de)(de)(de)發展,并結(jie)合《數學之(zhi)美》等經典(dian)的(de)(de)(de)(de)數學-互聯網-商(shang)業領(ling)域(yu)(yu)的(de)(de)(de)(de)普及書籍,試著把上面兩個(ge)(ge)問(wen)題(ti)解(jie)答一(yi)下(xia),并結(jie)合百度剛發布的(de)(de)(de)(de)第三季度財報,看看這(zhe)個(ge)(ge)領(ling)域(yu)(yu)的(de)(de)(de)(de)商(shang)業價值。


深度學習的(de)價(jia)值在于"自動化"


計(ji)算(suan)(suan)機(ji)出現對(dui)于人類最(zui)大(da)的(de)(de)意義,是(shi)可(ke)(ke)以(yi)把大(da)量(liang)重復勞動快速(su)完成(cheng),因(yin)為論簡單的(de)(de)運算(suan)(suan)能力(li),計(ji)算(suan)(suan)機(ji)的(de)(de)效率早就(jiu)可(ke)(ke)以(yi)達(da)到人類的(de)(de)數億倍(bei)。反推(tui)過(guo)去,如果要讓計(ji)算(suan)(suan)機(ji)解決什么問題(ti),就(jiu)先要把這個問題(ti)轉化(hua)為可(ke)(ke)以(yi)簡單計(ji)算(suan)(suan)的(de)(de)內容(計(ji)算(suan)(suan)次數可(ke)(ke)以(yi)充分巨大(da),反正能力(li)強(qiang))。再往前推(tui)一(yi)步,一(yi)個領域的(de)(de)"可(ke)(ke)簡單計(ji)算(suan)(suan)化(hua)",決定了(le)它的(de)(de)"計(ji)算(suan)(suan)機(ji)處(chu)理(li)化(hua)"程度也(ye)就(jiu)是(shi)自動化(hua)程度,也(ye)就(jiu)決定了(le)它大(da)規模發展的(de)(de)程度。


以文字內容為例。早期在互聯網上,人們需要人工識別網頁的內容,并以此分類,提供給用戶搜索。這樣效率就很低,在網頁數量高速增長后,搜索行業就拖了后腿。在TF-IDF算法出現后,計算機可以自動提取一篇文章內容的關鍵字,網頁的歸類實現了自動化,再配合上Google發明的Page Rank算法,使網頁的優先排序也自動化了,整個文字世界被成功數字化,這才有了互聯網對媒體行業的顛覆性大發展。同時,IDF算法能成功識別出網頁的關鍵內容,使搜索引擎可以為它匹配上高度相關的廣告,實現了商業鏈條的閉環。


但是(shi),文(wen)字(zi)只(zhi)是(shi)人(ren)類(lei)世界的一小部分。在可(ke)感知的領(ling)域中,聲音、圖(tu)像都(dou)占據(ju)有更(geng)大的數據(ju)量(liang),也是(shi)更(geng)為直(zhi)觀、人(ren)口(kou)基數更(geng)大的信(xin)息交流(liu)方(fang)(fang)式。目前,在這個(ge)領(ling)域,像手工給文(wen)字(zi)網(wang)(wang)頁分類(lei)一樣,人(ren)們依(yi)然使用(yong)(yong)人(ren)工分類(lei)的方(fang)(fang)式進行信(xin)息索引、查找(zhao)與再利用(yong)(yong)。這實際上是(shi)把(ba)聲音、圖(tu)像都(dou)先(xian)文(wen)字(zi)化(hua),而(er)文(wen)字(zi)內容(rong)已經互(hu)聯網(wang)(wang)化(hua),所(suo)以才(cai)能用(yong)(yong)互(hu)聯網(wang)(wang)的方(fang)(fang)式處(chu)理那些多媒體內容(rong)。


這里的"人(ren)工(gong)分類(lei)",粗略地說,在大數(shu)據領域,就相當于"打標(biao)(biao)簽",用(yong)文字(zi)標(biao)(biao)注(zhu)出(chu)多媒體(ti)內(nei)容的屬性(xing)。我們一開始就說了,整個(ge)鏈條中只(zhi)要涉及人(ren)工(gong),效率(lv)必然(ran)被(bei)拖后腿。這也是(shi)大數(shu)據領域現(xian)在的難題,因為總少不(bu)了人(ren)工(gong)打標(biao)(biao)簽這個(ge)環節。


說到這里就可以看出深度學習的重要意義了:深度學習的最大特點,就是把一個復雜的認知問題分解為幾層簡單問題,通過對簡單問題的大運算量處理,得出規律,進入下一"層",逐層運算處理,直到觸達事物本質。舉個比較(jiao)粗略的(de)(de)(de)例子,在人工(gong)分(fen)類時,對(dui)于一朵花,人們(men)需要(yao)手工(gong)打上一些標簽:粉紅色,分(fen)為六個均等(deng)的(de)(de)(de)部分(fen)(花瓣),中(zhong)間有柱狀蕊,常與綠(lv)色一起(qi)出現(xian),等(deng)等(deng)。當輸(shu)入一張花的(de)(de)(de)圖片時,計算機與這(zhe)(zhe)幾個標簽比對(dui),都對(dui)上了,就輸(shu)出結果:這(zhe)(zhe)是一朵花。商業價值拓(tuo)展則是配上廣告,哪里可(ke)以買到(dao)(dao)花,買到(dao)(dao)花盆(pen),買到(dao)(dao)養花的(de)(de)(de)書,找(zhao)到(dao)(dao)跟(gen)你一樣(yang)喜歡養花的(de)(de)(de)單身女性,等(deng)等(deng)。


整(zheng)個(ge)過程的(de)短(duan)板(ban)在(zai)人工(gong)打標(biao)簽的(de)階(jie)段。而在(zai)深度學習層面,它不需要(yao)人類(lei)去(qu)打標(biao)簽,只要(yao)給它輸入(ru)一(yi)百萬張花的(de)圖(tu)片,它會自動(dong)逐(zhu)層尋找共同(tong)特征,歸納(na)出標(biao)簽,最后再去(qu)跟同(tong)類(lei)圖(tu)片比對,驗證(zheng)這(zhe)些標(biao)簽,完成認識過程。有(you)人可(ke)能說(shuo)你(ni)這(zhe)100萬張圖(tu)片還不是要(yao)人工(gong)拍攝、輸入(ru)?那倒還真未必,拿一(yi)個(ge)攝像(xiang)頭對準(zhun)一(yi)盆(pen)花自動(dong)拍不就(jiu)得了,如果想增加點全面性,那就(jiu)把花盆(pen)放(fang)在(zai)自動(dong)旋轉臺上,旁邊(bian)再放(fang)個(ge)電風扇讓它搖曳(ye)多姿,這(zhe)樣可(ke)以保(bao)證(zheng)系(xi)統獲(huo)得盡量多樣化的(de)圖(tu)片。


移動時代的價(jia)值確立


所以(yi)(yi)(yi)我們(men)回到(dao)百度(du)(du)的(de)案(an)例(li)來,就可以(yi)(yi)(yi)看到(dao)深度(du)(du)學習的(de)巨(ju)大商(shang)業價值(zhi)。它解決了搜(sou)(sou)(sou)索(suo)(suo)引(yin)擎在(zai)處(chu)理多媒(mei)體(ti)信(xin)(xin)息方(fang)面的(de)弱項,把他們(men)轉化(hua)為已經具有成(cheng)熟技(ji)術(shu)和商(shang)業模式(shi)的(de)文字(zi)信(xin)(xin)息。同時(shi)(shi),由于(yu)多媒(mei)體(ti)信(xin)(xin)息相(xiang)對于(yu)文字(zi)信(xin)(xin)息在(zai)數量(liang)級上的(de)龐大,這部(bu)分的(de)商(shang)業真空也(ye)同樣巨(ju)大。更(geng)為重要的(de)是(shi)(shi),文字(zi)搜(sou)(sou)(sou)索(suo)(suo)更(geng)多的(de)是(shi)(shi)一(yi)種PC時(shi)(shi)代(dai)的(de)習慣,移動(dong)互聯網時(shi)(shi)代(dai),由于(yu)文字(zi)輸入的(de)瓶頸和手機拍攝/語音(yin)功(gong)能的(de)完(wan)善,語音(yin)、圖片(pian)搜(sou)(sou)(sou)索(suo)(suo)的(de)比例(li)將大幅(fu)度(du)(du)提(ti)升(sheng)甚至成(cheng)為主流。根據李彥宏披露(lu),百度(du)(du)現(xian)在(zai)已經有10%的(de)搜(sou)(sou)(sou)索(suo)(suo)請求來自于(yu)語音(yin),而(er)未(wei)來五年(nian)內,語音(yin)、圖像搜(sou)(sou)(sou)索(suo)(suo)將驅動(dong)一(yi)半以(yi)(yi)(yi)上的(de)搜(sou)(sou)(sou)索(suo)(suo)請求。


這也(ye)是百度重兵投入深度學(xue)習的(de)(de)戰(zhan)(zhan)略意圖(tu)。打仗(zhang)的(de)(de)根本要(yao)訣是要(yao)在熟悉(xi)的(de)(de)戰(zhan)(zhan)場(chang)、以擅長的(de)(de)戰(zhan)(zhan)術決戰(zhan)(zhan);而(er)深度學(xue)習可以把世間萬物近似全自動地(di)數字化為百度已經(jing)建立的(de)(de)文(wen)字搜索模式,又(you)使(shi)使(shi)用場(chang)景(jing)和商業(ye)空間數以百倍(bei)計(ji)地(di)增長,而(er)需要(yao)的(de)(de)又(you)是百度最為擅長的(de)(de)技術研發能力,所以當(dang)然(ran)要(yao)全力以赴(fu)。同時(shi),深度學(xue)習又(you)是一(yi)個需要(yao)大量技術積累(lei)的(de)(de)領域,這使(shi)得它(ta)成(cheng)為百度移動互聯網時(shi)代最可依賴(lai)的(de)(de)技術門檻(jian)。


在三季報發布(bu)前(qian)一個月上(shang)線拍(pai)照(zhao)搜(sou)索、三季報發布(bu)日附近又將手(shou)機百度(du)(du)升級到(dao)更強(qiang)化拍(pai)照(zhao)搜(sou)索和身邊(bian)商務的6.0版,都是為了(le)強(qiang)化百度(du)(du)以深度(du)(du)學習(xi)技術驅動(dong)(dong)(dong)的移(yi)動(dong)(dong)(dong)互聯網(wang)戰(zhan)略。而在本年第三季度(du)(du)中(zhong),百度(du)(du)首度(du)(du)出現(xian)(xian)了(le)移(yi)動(dong)(dong)(dong)流(liu)量超越(yue)PC流(liu)量的現(xian)(xian)象,移(yi)動(dong)(dong)(dong)營(ying)(ying)收(shou)(shou)在總營(ying)(ying)收(shou)(shou)中(zhong)占比也(ye)達到(dao)了(le)創紀錄的36%。這種(zhong)增長(chang),不僅僅是PC端流(liu)量的簡單(dan)遷移(yi),而是語(yu)音、圖(tu)像(xiang)搜(sou)索等更具移(yi)動(dong)(dong)(dong)特(te)色的搜(sou)索需求(qiu)開(kai)拓(tuo)出了(le)新的場(chang)景,也(ye)帶來了(le)新的變現(xian)(xian)途徑(jing)。所以,除(chu)了(le)移(yi)動(dong)(dong)(dong)流(liu)量和營(ying)(ying)收(shou)(shou)比例增長(chang)外,百度(du)(du)總營(ying)(ying)收(shou)(shou)也(ye)同(tong)比增加(jia)了(le)52%。


對(dui)于移動互(hu)聯網,越來越主流的(de)聲音(yin)認為,它不是桌面互(hu)聯網的(de)繼(ji)續延伸,而是平(ping)級于互(hu)聯網革命(ming)的(de)又一(yi)場革命(ming)。僅(jin)僅(jin)在信息(xi)處理領(ling)域,我(wo)們(men)已經(jing)看到語音(yin)、圖像(xiang)對(dui)于文字的(de)顛(dian)覆,也看到了成熟商業模式的(de)曙光。而驅動這(zhe)一(yi)切發生(sheng)(sheng)的(de),依然(ran)是生(sheng)(sheng)生(sheng)(sheng)不息(xi)的(de)技術創(chuang)新。


作(zuo)者(zhe)陽淼為山寨發布(bu)會創(chuang)始(shi)人,他將在(zai)微信公眾號(hao)"山寨發布(bu)會"上更新他的(de)最新觀察,新浪(lang)微博@陽淼,私(si)信開(kai)放。

文章為作者獨立觀點,不代表創投分享會立場
知名風險投資公司
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright©創業(ye)聯合(he)網 ALL Rights Reserved
商務與客服聯系微信