久久999精品国产只有精品_日韩美女乱婬AAA高清视频_伊人久久亚洲综合大香线蕉_亚洲色欲综合一区二区三区_亚洲Av无码一区

歡迎來到第一物流網(wǎng)

關(guān)注掌鏈公眾號(hào)

洞悉物流供應(yīng)鏈

當(dāng)前位置: 首頁 > 數(shù)智物流 > 物流云 >
警惕!大數(shù)據(jù)中的“陷阱”
來源:大數(shù)據(jù)文摘    作者: 閱讀:631 日期:2016-01-19
      關(guān)于社會(huì)大數(shù)據(jù)的研究近年來不斷擴(kuò)大、繁榮,發(fā)展為集社會(huì)學(xué)、計(jì)算機(jī)學(xué)、物理學(xué)、心理學(xué)等多個(gè)學(xué)科于一身的交叉學(xué)科。與此同時(shí),新的數(shù)據(jù)獲得渠道、數(shù)據(jù)處理方法和工具也不斷被研究者們引入社會(huì)研究領(lǐng)域。然而,正是因?yàn)樵擃I(lǐng)域的快速興起,社會(huì)大數(shù)據(jù)的研究方法往往未能得到足夠的重視和討論。未成形的方法規(guī)范、模糊的樣本收集范圍及邊界等諸多問題導(dǎo)致類似研究難以復(fù)制,更難以像傳統(tǒng)社會(huì)學(xué)研究方法一樣可以通過實(shí)證研究結(jié)果的梳理總結(jié)得出系統(tǒng)的理論。本期【大數(shù)據(jù)與社會(huì)】將梳理總結(jié)關(guān)于大數(shù)據(jù)研究“陷阱”的文章,介紹大數(shù)據(jù)研究實(shí)踐中所勘測到的“雷區(qū)”。

  

       1948年11 月3 日,哈里? 杜魯門贏得美國總統(tǒng)選舉的第二天, 芝加哥論壇報(bào)發(fā)表了新聞史上錯(cuò)得最荒謬的頭條之一:“杜威擊敗杜魯門”。這個(gè)頭條來源于電話樣本調(diào)查,但是卻在抽樣過程中由于對(duì)杜魯門支持者采樣過少而導(dǎo)致了錯(cuò)誤的估計(jì)。此次事件并沒有全盤否定民意調(diào)查方法本身,但是卻啟發(fā)調(diào)查者使用更成熟的技術(shù)、制定更嚴(yán)格的標(biāo)準(zhǔn),從而使得今天的民意調(diào)查更加準(zhǔn)確、在統(tǒng)計(jì)意義上更加嚴(yán)謹(jǐn)。

  現(xiàn)在,我們停滯在一個(gè)相似的技術(shù)轉(zhuǎn)折點(diǎn),人類行為研究所使用的私人和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)不斷。強(qiáng)大的計(jì)算機(jī)資源和可使用的大型社交媒體數(shù)據(jù)集結(jié)合,涌現(xiàn)出一個(gè)研究群體:他們使用機(jī)器學(xué)習(xí),自然語言處理,網(wǎng)絡(luò)分析和統(tǒng)計(jì)學(xué)對(duì)人口組成與人類行為進(jìn)行前所未有的大規(guī)模測量。然而,越來越多的證據(jù)表明,基于大數(shù)據(jù)的預(yù)測和分析卻曲解了現(xiàn)實(shí)社會(huì)現(xiàn)象。在社會(huì)大數(shù)據(jù)的研究逐漸成為“顯學(xué)”的同時(shí),社會(huì)學(xué)家需要與不同領(lǐng)域的學(xué)者增強(qiáng)方法領(lǐng)域的合作,從簡單地使用大數(shù)據(jù)研究社會(huì)問題,過渡到優(yōu)化大數(shù)據(jù)社會(huì)研究的操作、共同探討符合學(xué)術(shù)標(biāo)準(zhǔn)并且行之有效的研究規(guī)范。

  Derek Ruths 和 Jurgen Pfeffer 均來自于計(jì)算機(jī)研究領(lǐng)域,他們發(fā)表在《科學(xué)》(Science)雜志上的一篇《基于社交網(wǎng)站的大規(guī)模行為研究》(Social media for large studies of behavior)[1] 卻深入探討了社交媒體的研究通常出現(xiàn)的問題,并討論了如何為大數(shù)據(jù)研究方法制定更高的標(biāo)準(zhǔn)規(guī)范

  樣本代表性:大數(shù)據(jù)≠全部

  許多以大型社交媒體數(shù)據(jù)為基礎(chǔ)的人類行為研究都潛藏著一個(gè)假設(shè):足夠大的數(shù)據(jù)樣本量能排除由平臺(tái)本身帶來的“噪音”。然而,不同的社交媒體平臺(tái)各自有大量不同的總體統(tǒng)計(jì)偏差。例如Instagram(譯者注:大型圖片分享及社交網(wǎng)站)對(duì)18到29歲的成年人,美國非裔,拉美裔,城市居民,特別有吸引力,而Pinterest(譯者注:同樣是圖片分享網(wǎng)站)主要用戶是女性,25到34歲,平均年收入10美元。兩個(gè)平臺(tái)用戶具有不同的特征,然而,這樣的樣本代表性差異卻從未被研究者嚴(yán)肅地糾正亦或是承認(rèn)。此外,很多基于社交媒體的研究傾向于用社交網(wǎng)站的社會(huì)網(wǎng)絡(luò)特征歸納總結(jié)人類行為。然而,發(fā)展中國家互聯(lián)網(wǎng)使用率甚至還不足50%。用戶主要以發(fā)達(dá)國家為主的社交媒體顯然無法代表全世界更大范圍的人類群體。根據(jù)社交網(wǎng)站所得出的“大數(shù)據(jù)”,其邊界也需要更加審慎地界定。

  

       圖 SEQ 圖 \* ARABIC 1 世界互聯(lián)網(wǎng)使用率 (數(shù)據(jù)來源:ITU國際電信聯(lián)盟是; 制圖:閆蒲,Ralph Schroeder 牛津互聯(lián)網(wǎng)研究所)藍(lán)線代表發(fā)達(dá)國家互聯(lián)網(wǎng)使用率,紅線代表發(fā)展中國家互聯(lián)網(wǎng)使用率。

  數(shù)據(jù)“黑匣子”:被操控的數(shù)據(jù)

  在《黑匣子: 操縱金錢與信息的秘密算法》(譯者注:原著名為The Black Box Society: The Secret Algorithms That Control Money and Information,由哈佛大學(xué)出版社出版)一書中,作者Frank Pasquale警告公眾:“(網(wǎng)站)可以包容、排斥、排名的權(quán)力決定了何種公眾言論可以長期存在,何種會(huì)日漸式微。”

  在大數(shù)據(jù)領(lǐng)域,網(wǎng)絡(luò)平臺(tái)同樣具有操縱研究的能力和渠道。近年來,基于社交媒體數(shù)據(jù)的研究層出不窮,不少研究者都使用了網(wǎng)站所提供的應(yīng)用數(shù)據(jù)接口(即API,Application Programming Interface)獲得數(shù)據(jù)。

  通過API獲得社交媒體數(shù)據(jù)主要有兩種渠道:搜索接口(Search API),即通過搜索一周內(nèi)所發(fā)布的相關(guān)信息;另一種為即時(shí)接口(Streaming API),即通過保證接口開放接受即時(shí)信息,對(duì)于非商業(yè)伙伴的研究人員而言,網(wǎng)站返回的即時(shí)接口數(shù)據(jù)僅為全部數(shù)據(jù)量的1%。當(dāng)研究人員日益依賴于兩種API獲得研究數(shù)據(jù),并通過此類數(shù)據(jù)獲得對(duì)人類網(wǎng)絡(luò)活動(dòng)、情感、組織方式認(rèn)識(shí)的同時(shí),該類數(shù)據(jù)是否具有可靠性、代表性也成為開始大量使用社交媒體數(shù)據(jù)前必須回答的問題。

  Gonza?lez-Bailo?n等人在《大型社交網(wǎng)絡(luò)抽樣調(diào)查偏差評(píng)估》(Assessing the bias in samples of large online networks)這篇文章中對(duì)比了來自搜索接口和即時(shí)接口獲得的不同樣本,并對(duì)比不同數(shù)量的標(biāo)簽(hashtag,推特等社交網(wǎng)絡(luò)媒介中出現(xiàn)在#符號(hào)后用來標(biāo)注主題的詞語)對(duì)研究結(jié)果的影響。他們抽取了兩個(gè)相關(guān)信息的獨(dú)立樣本,樣本A在英國采集,使用了搜索應(yīng)用程序接口(Search API)和六個(gè)#話題標(biāo)簽,其中五個(gè)來自2011年的樣本,一個(gè)是2012年新建的“動(dòng)員”話題標(biāo)簽(#12M15M)。樣本B1在西班牙采集,使用了即時(shí)接口(streaming API)和更廣泛的70個(gè)#話題話題標(biāo)簽。為了更直接的對(duì)比A、B兩樣本,團(tuán)隊(duì)還從樣本B中提取了一個(gè)只使用六個(gè)#話題標(biāo)簽的縮略版樣本B2。

  該研究發(fā)現(xiàn)通過推特應(yīng)用數(shù)據(jù)接口所獲得的用戶社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)特征很大程度上受不同接口類型以及獲得樣本過程中使用的標(biāo)簽數(shù)量影響。該研究對(duì)于使用社交媒體進(jìn)行社會(huì)研究的學(xué)者有很大的啟發(fā)意義:當(dāng)研究者越來越依仗社交媒體平臺(tái)獲得研究數(shù)據(jù)時(shí),當(dāng)下流行的社會(huì)大數(shù)據(jù)取樣方式很有可能導(dǎo)致研究結(jié)果與實(shí)際社會(huì)結(jié)構(gòu)、用戶行為有偏差。

  Derek Ruths 和 Jurgen Pfeffer也同樣提出,被全世界范圍研究人員廣泛只用的Twitter用戶數(shù)據(jù),并不能準(zhǔn)確表現(xiàn)其用戶的數(shù)據(jù)。更惡劣的情況是:社交平臺(tái)管理者會(huì)通過不公開的算法操縱數(shù)據(jù)的抽樣和過濾方式使得研究者無所適從。

  一部分研究者因?yàn)槠洹扒度胧健钡难芯可矸?,建立了與社交網(wǎng)站平臺(tái)密切的合作關(guān)系,從而獲得了一般研究者無從獲得的數(shù)據(jù)、算法、資源。類似的研究往往能夠得出關(guān)于大規(guī)模人類行為的結(jié)論,獲得一定程度的學(xué)術(shù)影響(編者注:參考上一期大數(shù)據(jù)與社會(huì)Facebook關(guān)于情緒感染的研究,http://bigdatadigest.baijia.baidu.com/article/265887 )。 然而,類似的研究往往無法復(fù)制,其研究人員對(duì)于數(shù)據(jù)來源、算法細(xì)節(jié)也往往諱莫如深。

  人類行為?機(jī)器行為

  很多研究者都會(huì)基于社交網(wǎng)站的大數(shù)據(jù)得出對(duì)人類行為和網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)論,然而,類似的現(xiàn)象的出現(xiàn)很可能只是對(duì)平臺(tái)設(shè)計(jì)者意圖的再現(xiàn),而非對(duì)人類行為的科學(xué)觀測。Derek Ruths 和 Jurgen Pfeffer 認(rèn)為,社交網(wǎng)站的設(shè)計(jì)者其實(shí)對(duì)人類行為的部分規(guī)律了然于心。譬如社交活動(dòng)的同質(zhì)性(“物以類聚,人以群分”),傳遞性(“我朋友的朋友就是我的朋友”)和鄰近性(“鄰近者形成一條紐帶”)都被社交媒體平臺(tái)的設(shè)計(jì)者們所熟知并加以運(yùn)用(譯者注:如Linkedin,求職類社交應(yīng)用頻繁地好友推薦使得用戶的好友來源很大程度上來自平臺(tái)的推薦而非自發(fā)的尋找)。因此,社會(huì)心理學(xué)的研究應(yīng)該從平臺(tái)的驅(qū)動(dòng)作用剝離開來、區(qū)別對(duì)待。然而很不幸,現(xiàn)有的研究者并沒有類似的嘗試。

  線上社交平臺(tái)的開發(fā)者正在構(gòu)建工具去服務(wù)一個(gè)特定的、實(shí)際的目的,這些嘗試往往不能夠代表線下的公眾行為,更不能為研究者提供質(zhì)量上乘的研究數(shù)據(jù)。比如,谷歌等搜索引擎會(huì)根據(jù)智能聯(lián)想推測用戶搜索詞相關(guān)的關(guān)鍵詞,并引導(dǎo)用戶搜索推薦的組合(編者注:研究者會(huì)基于網(wǎng)站搜索數(shù)據(jù)得出對(duì)用戶搜索行為的研究,及l(fā)og analysis),然而基于此類數(shù)據(jù)的研究可能與用戶真實(shí)的搜索意圖恰好相反。這些設(shè)計(jì)往往有其合理的應(yīng)用價(jià)值,但是作為研究數(shù)據(jù),類似的設(shè)計(jì)卻掩蓋了人類行為的其他方面,基于此類平臺(tái)的量化研究也很有可能錯(cuò)失對(duì)人類行為的全面體現(xiàn)。

  此外,盡管平臺(tái)設(shè)計(jì)者們致力于監(jiān)管用戶的規(guī)范使用,但是在所有的線上社交平臺(tái)都存在大量的“僵尸號(hào)”,即大規(guī)模人為甚至機(jī)器操縱的用戶賬號(hào),服務(wù)于商業(yè)與廣告營銷等目的。在分析社交網(wǎng)站大數(shù)據(jù)時(shí),排除或糾正類似的“雜音”是極其困難的。

  研究方法的桎梏

  在社交大數(shù)據(jù)必須經(jīng)由平臺(tái)提供的現(xiàn)狀下,研究者無法排除抽樣不具代表性、噪音干擾等諸多問題。因此,在匯報(bào)關(guān)于大數(shù)據(jù)的社會(huì)行為研究結(jié)果過程中,研究者需要著重強(qiáng)調(diào)研究中潛在的偏差(biases)。然而,即便研究者意識(shí)到利用社交網(wǎng)站數(shù)據(jù)存在的偏差,相關(guān)領(lǐng)域的研究也往往由于研究方法本身不夠嚴(yán)謹(jǐn)而存在質(zhì)量問題。

  代表人群(proxy population)錯(cuò)配:每一個(gè)社交媒體研究的問題都定義了一個(gè)興趣人群,例如,通過社交網(wǎng)站研究加州地區(qū)(UC schools)大學(xué)生的投票偏好。研究者往往通過 facebook用戶的個(gè)人資料設(shè)置來確定研究群體(編者注:用戶可以在資料中標(biāo)注自己在加州就學(xué))。然而從真實(shí)的研究群體到社交媒體所選擇的表征群體,卻往往存在嚴(yán)重的誤差。最近的一項(xiàng)研究表明,這種代理效應(yīng)在推特的政治傾向研究中已導(dǎo)致錯(cuò)誤的估計(jì)[3]。

  方法和數(shù)據(jù)不具可比性:絕大多數(shù)社交媒體平臺(tái)禁止研究者保存或分享他們所獲取的研究數(shù)據(jù)。 因此,在傳統(tǒng)研究領(lǐng)域中可以實(shí)施的數(shù)據(jù)比較在大數(shù)據(jù)研究中十分鮮見。此外,研究者也很少公開其研究方法中所使用的代碼。這些都導(dǎo)致新方法在未經(jīng)對(duì)比檢驗(yàn)的情況下就得以發(fā)表(甚至聲稱比其他方法“更好”)。介于現(xiàn)有社交網(wǎng)站平臺(tái)關(guān)于用戶隱私可以理解的保護(hù)手段,研究人員最有可能的解決辦法是盡可能增加方法和結(jié)果的比較。

  多重假設(shè)檢驗(yàn):現(xiàn)有的學(xué)術(shù)氛圍通常只會(huì)歡迎積極發(fā)現(xiàn)(positive findings) ,當(dāng)多組研究都成功就某一個(gè)社會(huì)問題建?;蝾A(yù)測時(shí),由于無法看到負(fù)面結(jié)果,我們也無從評(píng)價(jià)哪一些積極發(fā)現(xiàn)是由于隨機(jī)性的巧合產(chǎn)生,哪一些是真正具有意義的積極發(fā)現(xiàn)。該問題不僅僅出現(xiàn)大數(shù)據(jù)研究領(lǐng)域,解決這一問題需要研究者不僅僅報(bào)告積極結(jié)論,同時(shí)也回報(bào)負(fù)面結(jié)果,并在同一個(gè)研究中使用多個(gè)數(shù)據(jù)來源,從而得以在該研究內(nèi)部計(jì)算顯著性得分。

  總而言之,現(xiàn)有的大數(shù)據(jù)研究領(lǐng)域在代表性、抽樣方法及研究方法等多個(gè)方面都仍然具有很多問題?;诖?,對(duì)大多數(shù)研究者而言,我們需要具有的是對(duì)于數(shù)據(jù)質(zhì)量及偏差更細(xì)致的考察,確立更加規(guī)范的標(biāo)準(zhǔn)。因而,更準(zhǔn)確及有效的分析將很大程度上依賴于我們對(duì)待海量數(shù)據(jù)的審慎態(tài)度。

  如何減少大數(shù)據(jù)社會(huì)研究中出現(xiàn)的偏差


? 2021 CN156.com Interactive. All rights reserved. 北京掌鏈傳媒科技有限公司 版權(quán)所有.
郵箱:cn156@188.com 《第一物流網(wǎng)》版權(quán)所有,未經(jīng)合法授權(quán)禁止復(fù)制、不得轉(zhuǎn)載或建立鏡像。
中華人民共和國工業(yè)和信息化部備案:京ICP備18029850號(hào)-3