麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡

大數據時代下,“匿名化”真的能保護我們的隱私安全嗎?

2019-06-03 行業研究互聯網思維大數據

展示量: 61997

 

坦誠面對數據帶來的價值和風險,并謹慎權衡。

 

大數(shu)據(ju)時(shi)代下(xia),數(shu)據(ju)的(de)(de)收集與應用在帶來(lai)巨大社會價值的(de)(de)同時(shi),也帶來(lai)了個人隱(yin)私保護方面的(de)(de)難題(ti)。如何(he)在對(dui)數(shu)據(ju)進行挖掘(jue)應用的(de)(de)過(guo)程中保護個人隱(yin)私,防止敏感(gan)信息(xi)泄露成為新的(de)(de)挑戰。

 

在(zai)此前備受關注的(de)(de)(de)“劍橋分(fen)(fen)析公(gong)司數(shu)據泄露(lu)”事件中,Facebook上超過(guo)5000萬用(yong)(yong)(yong)戶(hu)(hu)的(de)(de)(de)信(xin)息(xi)被一家(jia)名為(wei)“Cambridge Analytica”的(de)(de)(de)公(gong)司不當獲取并(bing)用(yong)(yong)(yong)于(yu)未經(jing)授權的(de)(de)(de)目(mu)的(de)(de)(de)。然而,根據Facebook的(de)(de)(de)解(jie)釋(shi),這些個(ge)人信(xin)息(xi),例如用(yong)(yong)(yong)戶(hu)(hu)填寫的(de)(de)(de)心理(li)測試結果,全部是在(zai)經(jing)過(guo)“匿名化”處理(li)后(hou)才被用(yong)(yong)(yong)于(yu)對外分(fen)(fen)享的(de)(de)(de)。公(gong)司表示,在(zai)獲取用(yong)(yong)(yong)戶(hu)(hu)的(de)(de)(de)授權后(hou),這些數(shu)據會“通過(guo)匿名的(de)(de)(de)方(fang)式被使用(yong)(yong)(yong)和分(fen)(fen)發,并(bing)且保(bao)證即使利用(yong)(yong)(yong)這些信(xin)息(xi)也不能追溯到個(ge)人用(yong)(yong)(yong)戶(hu)(hu)”。

 

然而“匿名化”真的可以在大數據時代保護我們的個人隱私嗎?

 

2015年,數(shu)據(ju)匿(ni)(ni)名(ming)(ming)(ming)(ming)化(hua)和隱私(si)領(ling)域的(de)(de)(de)研究員Latanya Sweeney針對華盛頓HIPAA(Health Insurance Portability and Accountability)法案(an)保(bao)護下的(de)(de)(de)醫療(liao)記錄(lu)(lu)數(shu)據(ju)進行了一項“去(qu)匿(ni)(ni)名(ming)(ming)(ming)(ming)化(hua)”研究。在(zai)(zai)該州(zhou)(zhou)(以(yi)及許多其他州(zhou)(zhou)),公司和個人可以(yi)購買匿(ni)(ni)名(ming)(ming)(ming)(ming)的(de)(de)(de)醫療(liao)記錄(lu)(lu)數(shu)據(ju)。Sweeney通過合(he)法渠道購買相(xiang)關(guan)數(shu)據(ju),其中包括“該州(zhou)(zhou)一年內(nei)幾乎所有(you)的(de)(de)(de)住院治療(liao)記錄(lu)(lu)”以(yi)及就(jiu)診記錄(lu)(lu)相(xiang)關(guan)的(de)(de)(de)大量細節,包括患者接(jie)受的(de)(de)(de)診斷、手術,主治醫生信息、收(shou)費摘要等(deng)等(deng)。這些記錄(lu)(lu)都是匿(ni)(ni)名(ming)(ming)(ming)(ming)的(de)(de)(de),因(yin)為它(ta)們不包含患者的(de)(de)(de)姓名(ming)(ming)(ming)(ming)或地址(zhi),但包括患者所在(zai)(zai)地址(zhi)的(de)(de)(de)郵政編碼(ma)。

 

之(zhi)(zhi)后,Sweeney查閱了(le)華盛頓州自2011年以來(lai)刊發(fa)的(de)所有包(bao)含“住院治(zhi)療(liao)”一詞的(de)新聞(wen)報(bao)道,總共找到(dao)了(le)81篇文章。通過對文章內容和匿名數(shu)據庫進(jin)行(xing)比(bi)對分析,Sweeny發(fa)現其中35篇報(bao)道能夠在數(shu)據庫中找到(dao)與之(zhi)(zhi)精準(zhun)對應的(de)唯(wei)一醫療(liao)記錄。而這些新聞(wen)報(bao)道中明確包(bao)含了(le)患者的(de)姓名,“成功”實(shi)現了(le)對這35名患者的(de)“去匿名化”。

 

眾(zhong)所(suo)周知,數據已(yi)成(cheng)為現(xian)代社(she)會(hui)發展的(de)(de)重要推動力。研(yan)究人員會(hui)收集(ji)大量的(de)(de)數據,并基于(yu)數據開展研(yan)究工作(zuo)。Google的(de)(de)數據庫可以包(bao)含(han)你(ni)的(de)(de)完整(zheng)搜索歷史記錄;Facebook存儲著(zhu)大量用戶(hu)的(de)(de)行(xing)為、評論和(he)照片信息。這(zhe)(zhe)些(xie)數據決定著(zhu)我(wo)們(men)(men)會(hui)看到哪些(xie)新(xin)聞、電影和(he)廣告,哪些(xie)朋(peng)友的(de)(de)帖(tie)子會(hui)出現(xian)在(zai)我(wo)們(men)(men)社(she)交(jiao)媒體的(de)(de)feed流中,以及(ji)(ji)哪些(xie)潛在(zai)的(de)(de)伴侶(lv)會(hui)出現(xian)在(zai)我(wo)們(men)(men)的(de)(de)交(jiao)友app中。然(ran)而(er),這(zhe)(zhe)里涉及(ji)(ji)的(de)(de)大部分(fen)數據都(dou)與我(wo)們(men)(men)的(de)(de)個人隱私(si)息息相關。

 

政府、企業(ye)和研究機構持續收集著大量的數據

 

通(tong)常(chang)情(qing)況下,我(wo)們不會向陌生人(ren)透露我(wo)們的信用(yong)卡記(ji)錄或醫(yi)療記(ji)錄,因為我(wo)們對這些數(shu)據的敏(min)感性有著清晰的認識。那么(me),為什(shen)么(me)我(wo)們會泄露這些最私密(mi)的個人(ren)信息呢?原(yuan)因是大多數(shu)人(ren)首先是數(shu)據“泄露”的受(shou)益者。Google通(tong)過(guo)收集數(shu)據優化搜索(suo)體驗,并幫(bang)(bang)助(zhu)Gmail過(guo)濾(lv)垃圾郵件(jian);用(yong)戶信用(yong)卡記(ji)錄可以(yi)幫(bang)(bang)助(zhu)銀行監測信用(yong)卡盜(dao)刷行為;醫(yi)療記(ji)錄可以(yi)幫(bang)(bang)助(zhu)研究人(ren)員研發(fa)新藥(yao),或者幫(bang)(bang)助(zhu)醫(yi)生制定(ding)更好的治療計劃。

 

但人們享受這(zhe)(zhe)些益處并非沒(mei)有代價。政府、企(qi)業和(he)研究機構持續進行著大量(liang)的(de)數(shu)據(ju)收集,而這(zhe)(zhe)僅僅是這(zhe)(zhe)一系列(lie)數(shu)據(ju)旅程(cheng)的(de)開始。它們將被(bei)重新打包,與來(lai)自(zi)其(qi)他來(lai)源的(de)數(shu)據(ju)相結合,并通過合法或非法的(de)方式被(bei)轉售給“需要的(de)人”。典(dian)型的(de)數(shu)據(ju)包括(kuo):

 

? 你的位置(包括實時的與歷史上的)

 

? 你的信用卡交易記錄

 

? 你的網站瀏覽歷史記錄

 

? 你在網站的登錄憑據

 

? 你的社會安全號碼

 

? 你的醫療記錄

 

 即使(shi)你(ni)認(ren)為自己并沒有(you)什(shen)么(me)需要隱藏(zang)的(de)(de)(de)“秘密”,對(dui)個人(ren)數(shu)(shu)據的(de)(de)(de)濫(lan)用(yong)仍可(ke)能(neng)對(dui)你(ni)造(zao)成不利影響(xiang)。因此,大部分相(xiang)關方在(zai)存(cun)儲(chu)或轉售個人(ren)信(xin)息時(shi),一直在(zai)努(nu)力實現個人(ren)數(shu)(shu)據的(de)(de)(de)“匿名化”。某些情況(kuang)下,數(shu)(shu)據匿名化存(cun)在(zai)法律要求(qiu),例如(ru)HIPAA對(dui)個人(ren)醫療數(shu)(shu)據的(de)(de)(de)要求(qiu),盡管HIPAA提供的(de)(de)(de)保護(hu)并不像大多數(shu)(shu)人(ren)想象的(de)(de)(de)那么(me)強(qiang)。類似(si)的(de)(de)(de),歐(ou)盟最新的(de)(de)(de)通用(yong)數(shu)(shu)據保護(hu)條例(GDPR)對(dui)能(neng)夠(gou)識別個人(ren)身份信(xin)息的(de)(de)(de)數(shu)(shu)據提出了嚴格的(de)(de)(de)使(shi)用(yong)限制(zhi),相(xiang)比之下,GDPR對(dui)匿名數(shu)(shu)據的(de)(de)(de)使(shi)用(yong)限制(zhi)則較少。

 

除此之(zhi)外,有些公(gong)司已經將“數據(ju)匿(ni)名化”作為(wei)(wei)其戰略的(de)(de)一部分(fen)。例(li)如(ru),與Google和Facebook不同(tong),Apple刻意減少對(dui)(dui)數據(ju)的(de)(de)收(shou)(shou)集(ji),因為(wei)(wei)擁有大量數據(ju)可能會(hui)使公(gong)司更容易(yi)成為(wei)(wei)黑客的(de)(de)目標。同(tong)時,Apple努力對(dui)(dui)收(shou)(shou)集(ji)的(de)(de)數據(ju)進行匿(ni)名化處理,并且不會(hui)對(dui)(dui)外轉售用(yong)戶(hu)數據(ju)。

 

這些舉措很有勇氣(qi),值得鼓勵。遺憾的(de)(de)是(shi),研究表明(ming),許多(duo)匿名化數據(ju)(ju)(ju)都(dou)很容易被(bei)“去匿名化”,尤其是(shi)當多(duo)個(ge)數據(ju)(ju)(ju)來(lai)源(yuan)有一定程度的(de)(de)重疊的(de)(de)時候,區別一個(ge)數據(ju)(ju)(ju)來(lai)源(yuan)和另一個(ge)數據(ju)(ju)(ju)來(lai)源(yuan)的(de)(de)任一信息都(dou)能被(bei)用于去匿名化。

 

這里有一個關于“去匿名(ming)化”的(de)(de)知名(ming)案例。2006年,Netflix為(wei)改善其電(dian)(dian)影推(tui)薦服務,公布了包含部分(fen)(fen)用戶(hu)評分(fen)(fen)的(de)(de)數據(ju)(ju)庫(ku),其中包括(kuo)用戶(hu)對電(dian)(dian)影的(de)(de)評分(fen)(fen)和評分(fen)(fen)日期(qi)。該(gai)數據(ju)(ju)庫(ku)是匿名(ming)的(de)(de),采用隨機更改數據(ju)(ju)庫(ku)中包含的(de)(de)大約480,000個用戶(hu)的(de)(de)部分(fen)(fen)評級(ji)和評級(ji)日期(qi)等方法對數據(ju)(ju)庫(ku)進(jin)行匿名(ming)化處理。

 

盡管存(cun)在這些干(gan)擾,但研究人員的(de)(de)實(shi)驗結(jie)果表(biao)明:只需非常(chang)少的(de)(de)輔助信息,就(jiu)可以對Netflix數據(ju)庫中(zhong)的(de)(de)大部(bu)分(fen)(fen)的(de)(de)用戶記錄(lu)進行去匿名(ming)化。通過(guo)8部(bu)電影(ying)的(de)(de)評分(fen)(fen),和(he)允許誤差14天的(de)(de)評分(fen)(fen)日期(qi),就(jiu)可以唯一標識(shi)數據(ju)庫中(zhong)99%的(de)(de)用戶;而僅通過(guo)2部(bu)電影(ying),就(jiu)可以標識(shi)68%的(de)(de)用戶。而一個(ge)人觀看8部(bu)電影(ying)的(de)(de)記錄(lu)很容易(yi)獲得,通過(guo)與其聊天或者查看他的(de)(de)博(bo)客就(jiu)有(you)可能得到(dao)。

 

電影評(ping)級可能(neng)看似無害,它們顯然不如醫療記錄敏感,但仍然可以揭示(shi)一(yi)個人(ren)的政治觀點、宗教信(xin)仰和性取向等,從(cong)而嚴重(zhong)侵犯一(yi)個人(ren)的隱私并(bing)使其(qi)處于危險之中。這(zhe)對于當(dang)前(qian)的數據驅動(dong)型社會來說是一(yi)個嚴峻的挑戰。

 

隨(sui)著更(geng)多數據的公開或泄(xie)露去匿名化將變得更(geng)加容易

 

現實是,我(wo)們的數據正在(zai)被越(yue)來越(yue)多地被泄(xie)(xie)露(lu)(lu)和盜取。非營(ying)利組織(zhi)Privacy Rights Clearinghouse的研(yan)究顯示,自2005年(nian)開始(shi),14年(nian)中共發生(sheng)了8804次數據泄(xie)(xie)露(lu)(lu),超過115億條(tiao)記(ji)錄被泄(xie)(xie)露(lu)(lu)。這(zhe)意味著(zhu)自2005年(nian)以來,平均每天發生(sheng)1.7次數據泄(xie)(xie)露(lu)(lu),220萬(wan)條(tiao)記(ji)錄被泄(xie)(xie)露(lu)(lu)。當別有(you)用心的人將(jiang)所有(you)這(zhe)些數據拼湊在(zai)一(yi)起(qi)時,數據的去匿名(ming)化將(jiang)變的更加容易。

 

對于相(xiang)關領(ling)域的學者來說(shuo),這些擔憂并(bing)不是(shi)什么新(xin)聞。2010年(nian),個人(ren)隱私律(lv)師Paul Ohm就曾在《UCLA法律(lv)評論》中刊文指出,雖然(ran)惡(e)意攻(gong)擊者可(ke)以使用個人(ren)身份(fen)信(xin)(xin)息(如姓名或社(she)會安全(quan)號(hao)碼)將數據(ju)與個人(ren)身份(fen)進行關聯,但事實證明,即便只(zhi)擁有那(nei)些不會被歸類為“個人(ren)身份(fen)信(xin)(xin)息”的信(xin)(xin)息,他(ta)們也(ye)可(ke)以達到同(tong)樣的目的。

 

Ohm參考了Sweeney早期的(de)(de)一(yi)些研究,她發現(xian)(xian)1990年美國人口普查中有(you)87%的(de)(de)人可以(yi)通(tong)過兩(liang)條信(xin)息進行唯一(yi)識別:他們(men)的(de)(de)出生(sheng)日期和他們(men)住址(zhi)的(de)(de)郵政編碼。Ohm還引用了Netflix以(yi)及其(qi)他有(you)關數(shu)據泄露的(de)(de)案例,并(bing)得出結(jie)論:在(zai)傳統的(de)(de)以(yi)個人身(shen)份(fen)信(xin)息為保護重點的(de)(de)匿(ni)名化技術下(xia),幾乎任何數(shu)據都無法實現(xian)(xian)永久的(de)(de)完全(quan)匿(ni)名。

 

2013年,研究人(ren)員(yuan)發(fa)(fa)(fa)現(xian)位(wei)置數據具有高度的獨特性,因此更(geng)加難以匿(ni)名化。許多匿(ni)名數據庫都可(ke)(ke)能(neng)間接泄露你的位(wei)置,例(li)如刷卡消費或前往醫院(yuan)就診。研究人(ren)員(yuan)發(fa)(fa)(fa)現(xian),通(tong)過每小時記(ji)錄(lu)4次手機連(lian)接到的信號(hao)(hao)發(fa)(fa)(fa)射塔,就可(ke)(ke)以對(dui)95%的設(she)備進行唯一識別。如果數據更(geng)精細(xi)(GPS跟(gen)蹤而不是(shi)信號(hao)(hao)發(fa)(fa)(fa)射塔,或者實(shi)時采(cai)集(ji)而不是(shi)每小時采(cai)集(ji)),匹配則(ze)會變得更(geng)加容(rong)易。

 

數據的(de)合理利(li)用具有積極的(de)社會價值(zhi)

 

然而不(bu)可(ke)否認的(de)(de)是,盡管(guan)面臨被濫用的(de)(de)風(feng)險(xian),但數(shu)(shu)據(ju)的(de)(de)合理利用同(tong)時又具有很多積極的(de)(de)社會價值。我(wo)們(men)希望(wang)醫學研究人員(yuan)創造新的(de)(de)藥物和(he)治療方(fang)法(fa)、希望(wang)我(wo)們(men)的(de)(de)房屋能夠(gou)自(zi)動調節到舒(shu)適的(de)(de)溫度、希望(wang)Google地圖提示我(wo)們(men)前(qian)方(fang)道路擁(yong)堵。我(wo)們(men)渴望(wang)大數(shu)(shu)據(ju)帶來的(de)(de)益處(chu),卻又不(bu)想面臨去匿名(ming)化的(de)(de)風(feng)險(xian)。

 

然而(er)事實是,我們(men)必(bi)須(xu)做(zuo)出權(quan)衡(heng)。我們(men)已經被迫(po)放棄了一些隱私,未來可能還需(xu)要放棄更多,但真正(zheng)關鍵的是如何降低我們(men)的隱私被濫用的可能性。

 

保護敏感數據和(he)防止未經授權的(de)(de)(de)訪問必須成(cheng)為每(mei)一(yi)個數據收(shou)集者的(de)(de)(de)第一(yi)要務。同時,監管(guan)機構也應持續加(jia)強對個人數據隱私的(de)(de)(de)保護力度。例如,GDPR鼓勵(li)公司存(cun)儲更(geng)少的(de)(de)(de)數據并盡最(zui)大努力對存(cun)儲的(de)(de)(de)數據進行匿名(ming)化處理(li),即使這并非100%有效。

 

同樣(yang),參與數(shu)據(ju)收(shou)集和存儲(chu)的(de)每(mei)一方都應該及時了(le)解(jie)最新的(de)隱私(si)保(bao)護技術。例如差(cha)分隱私(si)(Differential Privacy,一種基于(yu)密(mi)碼學的(de)隱私(si)保(bao)護技術)這樣(yang)的(de)策(ce)略,即在(zai)數(shu)據(ju)庫(ku)發布(bu)之前將一些(xie)隨機噪聲添加到數(shu)據(ju)庫(ku)中,這有助于(yu)減少基于(yu)數(shu)據(ju)關聯(lian)性的(de)攻(gong)擊。Apple和Google都在(zai)研究差(cha)分隱私(si)策(ce)略方面付出了(le)很多(duo)努力,這些(xie)舉(ju)措值得借鑒(jian)。

 

總而言之,我們需要坦誠面對數據帶來的價值和風險,并謹慎權衡。一方面,我們希望釋放大數據的力量,為我們的生活帶來積極的改善。而另一方面,大量數據存在的本身就是一種隱私風險。如果我們放棄過多的隱私,大數據則可能進一步剝奪我們的自由。

 

 

知名風險投資公司
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright©創(chuang)業(ye)聯合網 ALL Rights Reserved
商務與客服聯系微信