麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡

譯見:大數據科學家,聽起來好聽,干的是“搬磚”的活兒

2014-08-21 項目

展示量(liang): 5883
譯見:大數據科學家,聽起來好聽,干的是“搬磚”的活兒
(原文來自 ,創投分享會實習生 編譯)

“大數據”這個流行詞包含了各類豐富的數碼數據,從網絡、感應器,到手機、電腦。用智能軟件來挖掘這些數據,可以得到許多發現。它使得各領域的數據導向決策過程成為可能。這也是數據科學家成為熱門職業的原因。但你知道數據科學家平時都做些什么嗎?

整理數據

事實上,數據科學家們百分之五十到八十的時間都在埋頭整理無序的數據,直到它們能被用于挖掘,即所謂的“Data Mining”。這些精細而繁瑣的工作,完全不像想象中那么信手拈來。這是因為我們正身處于大數據的現代蠻荒之中,數據從收集到可用,還需要某種程度的開墾。

Timothy Weaver是德爾蒙食品公司的CIO(信息主管),他指出了大數據的“數據噪音”(data wrangling)中存在的“冰山效應”(iceberg)。人們只看到結果,卻沒有看到結果背后的大量勞動。

不過,這也是一個問題與機會共生的問題。一些創業公司正在嘗試通過開發自動收集、清理和管理數據的軟件,來突破大數據的這種瓶頸。

在未來,會有越來越多的數據來源能夠用于揭示一家公司的運營情況。比如在食品產業,能夠獲取的數據有產量、產地和運輸、天氣、零售數據和社交網絡評論。我們測量的是這些數據在情感和需求上的變化信號。結果是,我們能夠比以往更加具象化地看到運營的每一個步驟,能夠開始量身定制生產計劃和存貨。

然而在集合不同類別數據的過程中,也會產生問題。傳感器、文件、網絡和傳統數據庫的數據存在不同的格式,必須把它們清理并轉換成統一格式,才能加入算法。

人類語言

數據格式只是一個問題,另一個挑戰是人類語言的模糊性。Iodine是一家健康創業公司,它為顧客提供藥品的副作用和交互作用信息。但對于相同的副作用,食品藥品管理局使用的術語往往有細微差別。“困倦”,“嗜睡”和“瞌睡”同時使用。人類能夠識別這些同義詞,但軟件算法必須通過編程才能獲得這種解讀能力。這種蛋疼的工作在數據項目中需要不斷地重復。

數據專家試圖自動化這個過程中的每一步。“然而操作上,由于數據的復雜性,你得當好長一段時間的數據看門人,才能得到迷人的結果。” 數據科學家兼Iodine創始人Matt Mohebbi說。

數據軟件能夠做到的不僅僅是節約科學家們的時間,它同時也可能成為大數據計算普及化的功臣。

歷史規律表明,一項新技術產生之初只被少數精英所掌握。然而隨著時間推移,技術進步和投資增加,工具越來越強大,相關經濟發展,商業運作開始適應,技術最終融入主流。在大數據時代,這條定律依然有用。

硅谷數據科學的CTO,John Akred看到了現代數據世界發展與技術發展的相似之處。他說,“我們見證著革命的起源,它致力于使更大的人群獲得解決數據問題的能力。”

加州帕羅奧圖市的一家初創企業ClearStory Data致力于開發識別、集合各種數據資源并通過表格和圖表、數據地圖來可視化結果的軟件。它的目標就是通過軟件來開發更大的用戶市場。

一個可視化報告通常包括六到八個數據源。比如一個提供給零售商的報告,可能包括掃描的銷售點數據、天氣預報、網站瀏覽量、競爭對手的定價數據、智能手機軟件訪問量和停車場車流量的視頻監控。而這些數據如果手動整理,請多少人手也不一定夠。

算法仍舊沒有替代手工勞動

盡管如此,數據科學家們強調,手工勞動在數據準備中仍是必不可少的。“開始的時候你為了一個特定目標準備數據,但沒過多久就發現了一些新東西,你的目標也會隨之改變。”哥倫比亞新聞研究生院的一位數據科學家Cathy O’Neil說。

但毫無疑問的是,在減輕數據統計壓力方面,科學家們需要好好磨一磨他們的刀劍了。畢竟,工欲善其事,必先利其器嘛。
知名風險投資公司
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright©創業(ye)聯合網(wang) ALL Rights Reserved
商務與客服聯系微信