麻花传沈娜娜mv免费观看,自述被啪的最爽的一次,久久久久亚洲精品,香蒸焦蕉伊在线,国产网战无遮挡

第一次民間版知乎用戶分析報告

2014-08-29 項目

展示量: 5523
第一次民間版知乎用戶分析報告
起因

對了解稍為深入的人都知道,每天推薦的答案全部來自我監控的用戶數據庫。而這個數字在年初是1萬左右,到現在也沒超過3萬(雖然每天都在增加)。

有時候會想,我有沒有可能是井底之蛙?知乎用戶究竟是緊密圍繞著一個核心團體還是聚集成許多互不來往的孤島呢?如果是后者的話,難道我真的遺漏了大量值得關注的用戶,只因為他們屬于另一個群體嗎?

以及,知乎到底有多少人?年初400萬,5月600萬,現在有700萬還是800萬?

他們中的大多數都活躍嗎?專業嗎?受歡迎嗎?

他們都關注了誰?被誰關注?

最近常被拉出來聲討的三零用戶到底有多少人?占多大比例?

帶著這些疑問,我修改了一下爬蟲算法,以盡可能大的范圍來搜集用戶,以及他們之間互相關注的關系。

以下就是本次調查分析的結果了。

概況

數據收集方法:以「看知乎」網站2014年8月20日監控到的28,810個用戶作為種子,遍歷他們的關注者列表;再將第一次收集到的用戶關注者列表進行二次遍歷,然后將全部用戶以及他們的關聯關系匯總起來。

執行這個工程的時間跨度是8月21~24日,由于時間導致的數據誤差在可承受范圍內,不影響結果的合理性。

收集到的總用戶數是3,507,426人。

嗯?三百五十萬?是不是比預計的少了一半?

沒錯,但剩余的另一半基本可確認為是零提問零回答零關注的三零用戶,以及只關注對方的僵尸粉小團體等等,其中絕大部分賬號應該都是不活躍的、也不參與提問和回答的。

考慮到知乎的規模和用戶群的凝聚性,這樣的推測結果很合理。剩余的幾百萬賬號里基本不可能存在一個不與外界交流的、有價值用戶的集合了。

暫且忽略掉他們,假設知乎的全體用戶即是這3,507,426人,下面所有分析也都在此范圍內進行。

一些數字:
他們提出了1,381,317個問題;
撰寫了5,065,386個答案;
發表了21,098篇專欄文章;
獲得了41,856,875個贊同;
被關注51,934,080人次。
(不包含匿名行為)

回答者

一般情況下,某個用戶在知乎從零起步的過程應該是這樣的:

回答問題;
因為答案的質量優秀而獲得贊同;
引發別人的興趣,進而關注自己;
以上三個步驟循環或交錯進行。

這就涉及到三個重要指標:回答數、贊同數、被關注數。

我們先講前兩者,關注的問題放在后面幾節中進行。

知乎的作者和讀者關系以及傳播路徑大體是這種樣子:


頂端是信息制造者;之下是有賬號、可交互的讀者,能通過贊同、反對、評論等方式對答案進行影響并傳播;再下面則是純粹的讀者了。

那么,在金字塔頂端的回答者占到知乎用戶的多少呢?這些回答者中有多少人得到了贊同呢?以及,又有多少人因此而被人關注了呢?

下面的數字可能會令你略有些意外:

也就是說(shuo),知乎(hu)中80%多的人注(zhu)冊后完全(quan)沒有寫過任(ren)何一個答案;

而且,寫過答案的人里,還有一半從來沒得到過贊同、三分之一左右沒有人關注;

換言之,被別人點過哪怕一個贊同的用戶,也已經在整個知乎排到了前8.77%內。

(最高紀錄保持者是位寫了340個答案卻無人贊同的知友——沒辦法,答案太水了)
對被贊同過的307,430人還可以再細分一下:


經常看到有人在答案上面更新「哇,居然有好幾百個贊了」,說明大家覺得幾百上千個贊同還是挺有面子的事。事實也確是如此,超過1000贊同的人只占1.86%——而且還不是所有人的1.86%,而是至少有一個贊同的人里的。
如果放到全體用戶中,超過1000贊同人的只占0.1633%,也就是不到千分之二。

贊同

我們時常在話題精華和熱門推薦中看到動輒數千票的答案,但其中許多只是偶然現象。一般來說,只有一兩個高票答案的用戶在知乎很可能會曇花一現。既不能持續引發讀者的興趣,也不能轉化為關注數。

下面就把全體用戶的最高票答案和整體贊同數拿出來計算一下,除了最高的之外,我們還按由高到低的順序取出前5及前10的答案做對比。

(如果回答數不足5或10,那有幾個就拿幾個)


解釋一下。

最下面的「全部」一行,也就是圖表中的最右列,指的是全體知乎用戶的最高票答案在所有贊同中所占的比例。

平均來說,單個答案票數占了三分之一,而前10個答案的票數就有近七成了;

前幾行則是贊同數在某個范圍內的所有用戶所占的比例。可以看出,越是得到贊同較多的用戶,越不會依靠單獨一個或幾個答案就被人重視,而是擁有更多熱門答案。

不過另有個有趣的現象,即贊同數在10000以下的所有用戶中,最高票答案所占的比例平均都在45~50%之間,超過10000后則急劇縮減。

這并不難解釋:知乎贊同破萬的答案僅有50多個,并不常見,而絕大多數高票答案位于百字頭或千字頭范圍內,因此有相當一部分用戶會依靠單個答案的贊同而跨入上一級門檻,如果刪掉它,就會掉回下一數量級里去。


當你寫出第一個受歡迎的答案時,無論是有干貨還是抖機靈,都沒法只靠它走上人生巔峰。只有堅持不斷地在自己擅長的領域輸出信息才能得到更多人的認可。

而關注數顯然是代表了更高的認可層級。

如果說贊同數是軍功章,代表過去的成就,那關注數就是軍銜,代表日后的影響力。

下面的圖表解釋得更明白:


它表達的就是:

如果只有單個高票答案出彩,其余答案則反響平平,那么是不會得到很多關注的;

反之,如果某人有幾十上百個答案都很受歡迎,在一個或多個領域樹立起名聲,那受關注的幾率會直線上漲,甚至遠超過贊同數。

接下來會詳細分析「關注」這件事。

關注者

對用戶而言,「被關注人數」,或者說粉絲數才是最重要的指標,因為這代表了他回答問題或贊同答案時的直接傳播范圍。

有時候我們會借用微博的稱謂,把粉絲上萬的人稱為「大V」(盡管知乎沒有認證體系)或者叫「大牛」,以及那些幾千個粉絲的中牛小牛們。

那么,這些大中小牛在知乎的幾百萬用戶中又占多少呢?

直覺來說可能不少,畢竟我們每個人都關注了幾個感興趣的大牛嘛,每天時間線上推送的也常常是他們的答案,而且重復。

但直覺并不那么可靠。統計結果如下:

看圖可知,整個知乎,有近70%是完全沒有被人關注過的小透明;
超過96%的人粉絲少于10人;

而粉絲超過1000人的, 只占到了萬分之九。

換句話說,99.9%的人影響力是極為有限的,至于有限到什么程度,后文有詳述。

順便補充一下,零關注、零提問、零回答的「三零用戶」共2,092,271人,占全體用戶的59.65%。

影響力

對于普通用戶而言,首頁時間線是獲取信息的最大渠道,肯進入發現頻道或話題中主動尋找新問題和答案的已經是少數了。

那么,占據他們時間線的是哪些人所推送的信息呢?

也就是說,知乎用戶樂于關注哪些人呢?

如果一個網站的「社交性」較強,那么大家會更多地關注自己的熟人朋友;但如果「媒體性」較強的話,大家則會更專注于那些名人、大號、專業人士。

微博是這兩者的結合,因為上面很常見的行為是既關注一群朋友,又關注幾個大V。

前面也說過,知乎上大多數人的粉絲很少,那么他們更樂于互相關注呢?還是盡可能去關注大牛們呢?接下來我們就要分析這點。

首先把所有用戶的關注行為匯總起來,看看他們更樂于關注什么人:

這張圖可能不是太好理解。解釋一下,如果你關注了50個人,則發生了50次「關注行為」,如果關注的是個只有十幾粉絲的普通人,則會累加在1~100這個區間內,而關注的是一個幾十萬粉絲的名人時,就會累加在10000以上的區間內。

對全部51,934,080次「關注行為」的匯總結果就是上面這張圖了。

與前一節的數據對比,就可以看出知乎用戶的關注是何等地集中:

粉絲達到100的人數僅占全部用戶的不到1%,卻吸引了85%的注意力;

粉絲超過10000的大牛們僅有700多人,但當知乎用戶每點下10次「關注」時,就有7次落在這個小群體上。

再換個角度,可能會更明顯些。

我們要把每個知乎用戶所有關注的人中,粉絲大于100的、1000的和10000的人所占的比例都計算出來,稍作簡化,就是下面的三幅圖了:


初看似乎更不容易理解,在此解釋一下:

以第一幅圖為例,它說明有77%的知乎用戶只關注了粉絲100以上的人,而對沒什么名氣的普通人一概置之不理;還有19%雖然也關注了幾個普通人,但超過一半仍然是大中小牛們;只有4%例外。

再看后兩幅,就更清楚了。

65%的人只關注粉絲上千的3000多位「中牛」;

近一半的人把所有目光完全限定在粉絲過萬的729位「大牛」之中。

現在你應該能感到知乎用戶的「受眾」身份是多么明顯了:他們絕大多數都只盯著那些牛人們看,時間線上鋪滿他們的答案和推薦。

或者說,它的「社交性」遠遠遜于「媒體性」,盡管許多人最近開始說知乎是個社交網站,抱怨有效信息被稀釋、灌水的人也越來越多。但對絕大多數人而言,來到這里還是為了閱讀與傾聽,而不是為了發表自己的看法的。

關聯度

上一節的結論仿佛在說知乎無社交,是否真的如此呢?

在全部51,934,080次關注行為中,僅有1,291,626次是雙向的,也就是不到2.5%。

換言之社交媒體上常見的「回粉」在這里基本行不通,因為你關注一個人時只有1.25%的概率得到一個回粉。考慮到知乎的媒體性和眼球集中在少數大牛的現狀,并且幾十萬粉絲的大牛們無法逐個回粉,確實顯得社交性不足。

但并不代表知乎就不存在社交。

如果按照粉絲數劃分人群,并將每個人關注別人時對方也關注了你的情況全都整理出來,得出下面的結果:

結論有點(dian)殘(can)酷:人人都愛(ai)和大(da)牛做朋(peng)友,所(suo)以他們關(guan)注人時(shi)得到回粉的幾率也相當(dang)高;反之。當(dang)你(ni)沒啥(sha)名氣時(shi)則回應者寥(liao)寥(liao)。

有人可能會質疑,前面說整體的雙向關注率只有2.5%,怎么這里最低的一檔也有6.01%呢?是不是統計出錯了?

不是的,因為占總人數70%的2,425,064位零粉絲的小透明所做出的23,125,516次關注行為,完全沒有得到回應,即回粉率為零,這才拉低了整體水平。

這個結論似乎更殘酷了,還是談點別的吧。

前面一直在說所有人都在關注大牛,那么,把觀察范圍僅限于「牛圈」中時,他們互相之間的關系又是怎樣的呢?

我們仍然以粉絲數100、1000和10000為分界點,分別將他們的數據整理成表格:


解釋一下里面的名詞。

人數:屬于這個范圍的人數,注意,粉絲100以上同時也包含了粉絲1000以上的人數,這點和之前的許多圖表不同;
關注次數:這個范圍內任何一人關注了另一人,則算作一次關注,互粉則算兩次;
理論最大值:假設這些人中的任意兩個都互粉,算出來的理論最大關注次數;
關注率:關注次數/理論最大值,越高則代表大家的關系越近;
平均關注人數:關注次數/人數,即平均每個人關注了多少圈子內的別人;
平均路徑長度:大家都知道六度分隔理論吧,指的是某人平均只需經過六個人就能聯系到世界上的任意一個人,那么路徑長度就是7了。

當然,六度的范圍已經很大了,一般來說,圈子越小、聯系越緊,這個路徑長度就會越短。

計算公式是:,其中n為路徑長度,N為人數,W為每人的平均關注數。

假設關注次數達到理論最大值,則路徑長度為1,即每個人只需要一步即可聯系到任意的另一個人。

而知乎粉絲上萬的大牛們路徑長度僅為1.5,這是什么概念?平均來講,兩個大牛要么直接認識,要么僅僅通過一個中間人就能認識;

就算是粉絲超過100的接近兩萬人里,平均也只需要經過一個中間人就認識了!

看到這里,恐怕大家對知乎的人際網是如何緊密有個認識了吧。

順便一提,全體知乎用戶的路徑長度是5.65,比六度分隔略低一些。

如果還有興趣,本文后附了個有個趣味小程序,是關于大牛互相關注的,動動鼠標就知道這幫人到底多熟了。

粉絲質量

以前@chenqin提過一個二級關注的概念,就是「粉絲的粉絲」到底有多少人。它能夠表示出一個知乎用戶到底是常被大牛關注還是常被三零用戶關注,換句話說就是某個人的粉絲平均質量有多高。

看過前面幾節的分析之后,大概也能推測出統計趨勢了:大牛們的粉絲里,與自己同級別的人數量不少,但相對來說,絕大多數都是三零用戶。

實際是這樣嗎?我們整理出了下面的圖表:


圖中每根柱子代表了粉絲數位于某區間段內的用戶群,而不同的顏色則表示他們的「粉絲的粉絲」數量分布情況。

與預計相符的趨勢當然就是大牛們的粉絲里三零用戶(橙色)占了絕大多數,而相反地,越是受人關注較少的,本人和粉絲所在的群體越相符。

比如某人只有不到100個粉時,關注他的有70%也在這個區間內(青色)。

不過,數量最小的群體擁有的能量卻很大。下面就是將粉絲群體再按照他們粉絲數量匯總的情況:


這回形勢倒轉了,三零用戶們的占比完全是零,而80%的貢獻度來源于10000以上的大牛們。

不太容易理解的可能就是最右一列為何藍色部分占比會變小,其實原因就是「受大牛關注的普通用戶」這個人群太少了而已,如果減去那些知乎早期注冊但很久不活躍的人,恐怕這部分還會更低呢。


對二級關注的分析,在統計學上可能意義并不大。因為知乎的關注現狀是大量的純讀者集中關注少數大牛,恐怕并不容易在其中找出誰的粉絲質量更高。當然,我倒是發現了它的另一種用法,就是用來找僵尸粉和僵尸點贊……

總結

每一段正文都是圍繞著數據來講的,很少談到這對知乎代表了什么。

如果最后一定需要總結的話,其實也很簡單:

知乎的用戶數量不少,但貢獻和關注度的差距絕對不是80-20原則能形容的,簡直是百里挑一,甚至萬里挑一。

而且用戶金字塔的尖端還結成了一個十分緊密的小圈子。

這個小圈子借助知乎社區和媒體平臺的放大效應,擁有了不亞于大中型互聯網媒體的影響力。然而無論是圈子成員,還是身為管理者的知乎團隊,對現狀的認識都有所不足。對一些隨著影響力而來的必然狀況應對無措,以至于造成了社區氛圍的不和諧。

了解問題是解決問題的第一步。如果只用自己身邊的情況來判讀最近的某些事件,會發生許多誤解。多少把握一些知乎整體狀況的話,或許能有所改觀吧。

附言

這次小統計根本算不上什么「分析報告」,標題是唬人的。缺了許多數據,也少了深入挖掘,只能算是收集一些表層信息并且做了簡單解讀而已。

最大的遺憾當然是數據太少,也沒有直接的渠道,更缺乏拿到更有用的數據的能力。其實我很想要答案下各個贊同的點擊時間,還有位置(比如是首頁還是內頁)之類,能夠分析出很多與傳播有關的信息。但就算能拿到,區區一臺個人電腦都未必有能力裝下并查詢……

說到底,我只是想通過真實的數據來為大家展現知乎的「另一面」,而不是像最近的許多人那樣,單憑自己直接觀察到的一點情況,就認為整個網站如何如何。或許有人靠直覺也能把贊同、關注的分布情況猜得分毫不差,那確實夠了不起的。但隨著數據的進一步完善,總會有意料之外的時候。

雖然只收集了一些最簡單的關注關系,但我覺得里面還足以挖掘出更有價值的信息。恕我愚鈍,如果有人能稍作提醒的話,我可以嘗試再挖挖它的潛力,看還能整理出什么東西來。謝謝。
知名風險投資公司
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright©創業聯合網(wang) ALL Rights Reserved
商務與客服聯系微信