關(guān)于社會大數(shù)據(jù)的研究近年來不斷擴大、繁榮,發(fā)展為集社會學、計算機學、物理學、心理學等多個學科于一身的交叉學科。與此同時,新的數(shù)據(jù)獲得渠道、數(shù)據(jù)處理方法和工具也不斷被研究者們引入社會研究領(lǐng)域。然而,正是因為該領(lǐng)域的快速興起,社會大數(shù)據(jù)的研究方法往往未能得到足夠的重視和討論。未成形的方法規(guī)范、模糊的樣本收集范圍及邊界等諸多問題導致類似研究難以復制,更難以像傳統(tǒng)社會學研究方法一樣可以通過實證研究結(jié)果的梳理總結(jié)得出系統(tǒng)的理論。本期【大數(shù)據(jù)與社會】將梳理總結(jié)關(guān)于大數(shù)據(jù)研究“陷阱”的文章,介紹大數(shù)據(jù)研究實踐中所勘測到的“雷區(qū)”。
現(xiàn)在,我們停滯在一個相似的技術(shù)轉(zhuǎn)折點,人類行為研究所使用的私人和社會網(wǎng)絡(luò)數(shù)據(jù)不斷。強大的計算機資源和可使用的大型社交媒體數(shù)據(jù)集結(jié)合,涌現(xiàn)出一個研究群體:他們使用機器學習,自然語言處理,網(wǎng)絡(luò)分析和統(tǒng)計學對人口組成與人類行為進行前所未有的大規(guī)模測量。然而,越來越多的證據(jù)表明,基于大數(shù)據(jù)的預(yù)測和分析卻曲解了現(xiàn)實社會現(xiàn)象。在社會大數(shù)據(jù)的研究逐漸成為“顯學”的同時,社會學家需要與不同領(lǐng)域的學者增強方法領(lǐng)域的合作,從簡單地使用大數(shù)據(jù)研究社會問題,過渡到優(yōu)化大數(shù)據(jù)社會研究的操作、共同探討符合學術(shù)標準并且行之有效的研究規(guī)范。
Derek Ruths 和 Jurgen Pfeffer 均來自于計算機研究領(lǐng)域,他們發(fā)表在《科學》(Science)雜志上的一篇《基于社交網(wǎng)站的大規(guī)模行為研究》(Social media for large studies of behavior)[1] 卻深入探討了社交媒體的研究通常出現(xiàn)的問題,并討論了如何為大數(shù)據(jù)研究方法制定更高的標準規(guī)范
許多以大型社交媒體數(shù)據(jù)為基礎(chǔ)的人類行為研究都潛藏著一個假設(shè):足夠大的數(shù)據(jù)樣本量能排除由平臺本身帶來的“噪音”。然而,不同的社交媒體平臺各自有大量不同的總體統(tǒng)計偏差。例如Instagram(譯者注:大型圖片分享及社交網(wǎng)站)對18到29歲的成年人,美國非裔,拉美裔,城市居民,特別有吸引力,而Pinterest(譯者注:同樣是圖片分享網(wǎng)站)主要用戶是女性,25到34歲,平均年收入10美元。兩個平臺用戶具有不同的特征,然而,這樣的樣本代表性差異卻從未被研究者嚴肅地糾正亦或是承認。此外,很多基于社交媒體的研究傾向于用社交網(wǎng)站的社會網(wǎng)絡(luò)特征歸納總結(jié)人類行為。然而,發(fā)展中國家互聯(lián)網(wǎng)使用率甚至還不足50%。用戶主要以發(fā)達國家為主的社交媒體顯然無法代表全世界更大范圍的人類群體。根據(jù)社交網(wǎng)站所得出的“大數(shù)據(jù)”,其邊界也需要更加審慎地界定。
在《黑匣子: 操縱金錢與信息的秘密算法》(譯者注:原著名為The Black Box Society: The Secret Algorithms That Control Money and Information,由哈佛大學出版社出版)一書中,作者Frank Pasquale警告公眾:“(網(wǎng)站)可以包容、排斥、排名的權(quán)力決定了何種公眾言論可以長期存在,何種會日漸式微?!?/div>
在大數(shù)據(jù)領(lǐng)域,網(wǎng)絡(luò)平臺同樣具有操縱研究的能力和渠道。近年來,基于社交媒體數(shù)據(jù)的研究層出不窮,不少研究者都使用了網(wǎng)站所提供的應(yīng)用數(shù)據(jù)接口(即API,Application Programming Interface)獲得數(shù)據(jù)。
通過API獲得社交媒體數(shù)據(jù)主要有兩種渠道:搜索接口(Search API),即通過搜索一周內(nèi)所發(fā)布的相關(guān)信息;另一種為即時接口(Streaming API),即通過保證接口開放接受即時信息,對于非商業(yè)伙伴的研究人員而言,網(wǎng)站返回的即時接口數(shù)據(jù)僅為全部數(shù)據(jù)量的1%。當研究人員日益依賴于兩種API獲得研究數(shù)據(jù),并通過此類數(shù)據(jù)獲得對人類網(wǎng)絡(luò)活動、情感、組織方式認識的同時,該類數(shù)據(jù)是否具有可靠性、代表性也成為開始大量使用社交媒體數(shù)據(jù)前必須回答的問題。
Gonza?lez-Bailo?n等人在《大型社交網(wǎng)絡(luò)抽樣調(diào)查偏差評估》(Assessing the bias in samples of large online networks)這篇文章中對比了來自搜索接口和即時接口獲得的不同樣本,并對比不同數(shù)量的標簽(hashtag,推特等社交網(wǎng)絡(luò)媒介中出現(xiàn)在#符號后用來標注主題的詞語)對研究結(jié)果的影響。他們抽取了兩個相關(guān)信息的獨立樣本,樣本A在英國采集,使用了搜索應(yīng)用程序接口(Search API)和六個#話題標簽,其中五個來自2011年的樣本,一個是2012年新建的“動員”話題標簽(#12M15M)。樣本B1在西班牙采集,使用了即時接口(streaming API)和更廣泛的70個#話題話題標簽。為了更直接的對比A、B兩樣本,團隊還從樣本B中提取了一個只使用六個#話題標簽的縮略版樣本B2。
該研究發(fā)現(xiàn)通過推特應(yīng)用數(shù)據(jù)接口所獲得的用戶社會網(wǎng)絡(luò)結(jié)構(gòu)特征很大程度上受不同接口類型以及獲得樣本過程中使用的標簽數(shù)量影響。該研究對于使用社交媒體進行社會研究的學者有很大的啟發(fā)意義:當研究者越來越依仗社交媒體平臺獲得研究數(shù)據(jù)時,當下流行的社會大數(shù)據(jù)取樣方式很有可能導致研究結(jié)果與實際社會結(jié)構(gòu)、用戶行為有偏差。
Derek Ruths 和 Jurgen Pfeffer也同樣提出,被全世界范圍研究人員廣泛只用的Twitter用戶數(shù)據(jù),并不能準確表現(xiàn)其用戶的數(shù)據(jù)。更惡劣的情況是:社交平臺管理者會通過不公開的算法操縱數(shù)據(jù)的抽樣和過濾方式使得研究者無所適從。
一部分研究者因為其“嵌入式”的研究身份,建立了與社交網(wǎng)站平臺密切的合作關(guān)系,從而獲得了一般研究者無從獲得的數(shù)據(jù)、算法、資源。類似的研究往往能夠得出關(guān)于大規(guī)模人類行為的結(jié)論,獲得一定程度的學術(shù)影響(編者注:參考上一期大數(shù)據(jù)與社會Facebook關(guān)于情緒感染的研究,http://bigdatadigest.baijia.baidu.com/article/265887 )。 然而,類似的研究往往無法復制,其研究人員對于數(shù)據(jù)來源、算法細節(jié)也往往諱莫如深。
人類行為?機器行為
很多研究者都會基于社交網(wǎng)站的大數(shù)據(jù)得出對人類行為和網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)論,然而,類似的現(xiàn)象的出現(xiàn)很可能只是對平臺設(shè)計者意圖的再現(xiàn),而非對人類行為的科學觀測。Derek Ruths 和 Jurgen Pfeffer 認為,社交網(wǎng)站的設(shè)計者其實對人類行為的部分規(guī)律了然于心。譬如社交活動的同質(zhì)性(“物以類聚,人以群分”),傳遞性(“我朋友的朋友就是我的朋友”)和鄰近性(“鄰近者形成一條紐帶”)都被社交媒體平臺的設(shè)計者們所熟知并加以運用(譯者注:如Linkedin,求職類社交應(yīng)用頻繁地好友推薦使得用戶的好友來源很大程度上來自平臺的推薦而非自發(fā)的尋找)。因此,社會心理學的研究應(yīng)該從平臺的驅(qū)動作用剝離開來、區(qū)別對待。然而很不幸,現(xiàn)有的研究者并沒有類似的嘗試。
線上社交平臺的開發(fā)者正在構(gòu)建工具去服務(wù)一個特定的、實際的目的,這些嘗試往往不能夠代表線下的公眾行為,更不能為研究者提供質(zhì)量上乘的研究數(shù)據(jù)。比如,谷歌等搜索引擎會根據(jù)智能聯(lián)想推測用戶搜索詞相關(guān)的關(guān)鍵詞,并引導用戶搜索推薦的組合(編者注:研究者會基于網(wǎng)站搜索數(shù)據(jù)得出對用戶搜索行為的研究,及l(fā)og analysis),然而基于此類數(shù)據(jù)的研究可能與用戶真實的搜索意圖恰好相反。這些設(shè)計往往有其合理的應(yīng)用價值,但是作為研究數(shù)據(jù),類似的設(shè)計卻掩蓋了人類行為的其他方面,基于此類平臺的量化研究也很有可能錯失對人類行為的全面體現(xiàn)。
此外,盡管平臺設(shè)計者們致力于監(jiān)管用戶的規(guī)范使用,但是在所有的線上社交平臺都存在大量的“僵尸號”,即大規(guī)模人為甚至機器操縱的用戶賬號,服務(wù)于商業(yè)與廣告營銷等目的。在分析社交網(wǎng)站大數(shù)據(jù)時,排除或糾正類似的“雜音”是極其困難的。
研究方法的桎梏
在社交大數(shù)據(jù)必須經(jīng)由平臺提供的現(xiàn)狀下,研究者無法排除抽樣不具代表性、噪音干擾等諸多問題。因此,在匯報關(guān)于大數(shù)據(jù)的社會行為研究結(jié)果過程中,研究者需要著重強調(diào)研究中潛在的偏差(biases)。然而,即便研究者意識到利用社交網(wǎng)站數(shù)據(jù)存在的偏差,相關(guān)領(lǐng)域的研究也往往由于研究方法本身不夠嚴謹而存在質(zhì)量問題。
代表人群(proxy population)錯配:每一個社交媒體研究的問題都定義了一個興趣人群,例如,通過社交網(wǎng)站研究加州地區(qū)(UC schools)大學生的投票偏好。研究者往往通過 facebook用戶的個人資料設(shè)置來確定研究群體(編者注:用戶可以在資料中標注自己在加州就學)。然而從真實的研究群體到社交媒體所選擇的表征群體,卻往往存在嚴重的誤差。最近的一項研究表明,這種代理效應(yīng)在推特的政治傾向研究中已導致錯誤的估計[3]。
方法和數(shù)據(jù)不具可比性:絕大多數(shù)社交媒體平臺禁止研究者保存或分享他們所獲取的研究數(shù)據(jù)。 因此,在傳統(tǒng)研究領(lǐng)域中可以實施的數(shù)據(jù)比較在大數(shù)據(jù)研究中十分鮮見。此外,研究者也很少公開其研究方法中所使用的代碼。這些都導致新方法在未經(jīng)對比檢驗的情況下就得以發(fā)表(甚至聲稱比其他方法“更好”)。介于現(xiàn)有社交網(wǎng)站平臺關(guān)于用戶隱私可以理解的保護手段,研究人員最有可能的解決辦法是盡可能增加方法和結(jié)果的比較。
多重假設(shè)檢驗:現(xiàn)有的學術(shù)氛圍通常只會歡迎積極發(fā)現(xiàn)(positive findings) ,當多組研究都成功就某一個社會問題建?;蝾A(yù)測時,由于無法看到負面結(jié)果,我們也無從評價哪一些積極發(fā)現(xiàn)是由于隨機性的巧合產(chǎn)生,哪一些是真正具有意義的積極發(fā)現(xiàn)。該問題不僅僅出現(xiàn)大數(shù)據(jù)研究領(lǐng)域,解決這一問題需要研究者不僅僅報告積極結(jié)論,同時也回報負面結(jié)果,并在同一個研究中使用多個數(shù)據(jù)來源,從而得以在該研究內(nèi)部計算顯著性得分。
總而言之,現(xiàn)有的大數(shù)據(jù)研究領(lǐng)域在代表性、抽樣方法及研究方法等多個方面都仍然具有很多問題?;诖?,對大多數(shù)研究者而言,我們需要具有的是對于數(shù)據(jù)質(zhì)量及偏差更細致的考察,確立更加規(guī)范的標準。因而,更準確及有效的分析將很大程度上依賴于我們對待海量數(shù)據(jù)的審慎態(tài)度。
如何減少大數(shù)據(jù)社會研究中出現(xiàn)的偏差