推薦閱讀
八項規定 改變中國

十九大報告指出,全面從嚴治黨永遠在路上。一個政黨,一個政權,其前途命運取決于人心向背。人民群眾反對什么、痛恨什么,我們就要堅決防范和糾正什么。(來源:12月8日,新華社) 十八大以來,黨中央堅定不移全面從嚴治黨,全黨理想信念更加堅定、黨性更加堅強,黨和國家的各項事業發展有了更加堅強政治保證。但黨面臨執政環境的復雜性和復雜性,黨內的思想、組織和作風不純等突出問題。實踐證明,管黨治黨,關系黨國家民族前途命運,必須下更大決心、勇氣、氣力抓緊抓好。 5年前,《八項規定》出臺,全面從嚴治黨由此“破題”,開啟了一場正風肅紀、激濁揚清、刷新吏治的作風之變。5年后,當初僅僅600余字之規定,卻扭轉著時代風氣的深刻變化,使黨風政風煥然一新;而今,它仍具有強大的威懾力,依然是全面從嚴治黨的重要手段,只憑這一點,它已遠超當初許眾人預期;而且,當時認為公款吃喝等中國官場的“老大難”問題,竟然出現如此顯著改善。 作風建設,成績斐然。5年來,黨中央以身作則,率先垂范,身體力行,把八項規定作為作風建設切入點,把全面從嚴治黨為突破口,緊盯重要節點,從件件具體問題抓起,堅決杜絕“節日腐敗”。截至今年10月,全國累查處超19.32萬起,處理超26.3人,黨政紀處分超14.5萬人,真是累累碩果,成績卓著,體現了黨中央全面從嚴治黨和狠抓作風建設的堅定決心與毅力。 這5年來,具體到各地,也都交出了作風建設滿意“答卷”。一開始就堅持問題導向,從具體的、細小的問題抓,從月餅、粽子等“小事小節”入手,狠剎“四風”。截至今年10月,全國查處違規公款吃喝等三類突出問題共超4.55起。其中,在2013和2014年占68.6%;2015年占17.1%;2016年占10.8%;2017年僅占3.5%。顯然看出,違紀存量和增量在大幅度減少,這更足以證明:八項規定,改變中國。 作風建設永遠在路上。創新監督手段,充分利用互聯網、新媒體和新技術,大大拓寬監督渠道,相信群眾,依靠群眾,形成群眾監督的濃厚氛圍;“八項規定”修改實施細則,著重對改進調查研究等方面內容,作了全面規范、細化和完善;中紀委推出八項規定精神“表情包”接地氣,換新天。十八大以來,中央十二輪巡視和各級巡視巡察均把作為重要監督內容和監督手段逐漸固化為制度,構筑成反腐“天羅地網”,讓隱變“四風”無處藏身。 八項規定,改變中國。只有將八項規定深入人心,徹底轉變工作作風,提高干部效率,把好方針政策落到實處,才能不斷推動黨的事業前進,得到群眾的擁護,中國的明天才會希望。才能讓百姓感受到了實實在在的變化,不斷深入人心,人民滿意,世界關注,“八項規定”精神牢牢扎根中國大地,讓中國政治生態煥然一新。

更多股市
隔夜歐美股市大跌 A股堅挺走出...

劉有華向21世紀經濟報道記者表示,從外因上看,中國的強勢反擊讓投資者看到了信心;從內因來看,現在的A股市場整體環境已經不再支持A股下跌,外資快速流進,而且美股在高位,A股在低位,A股核心資產的估值遠低于美股同行業的平均估值。

你現在的位置:首頁 > 互聯網+ > 正文

“計算”的邊界:互聯網大數據與社會研究

日期: 2019-09-22 13:15:15    來源: 中國社會科學網   
分享到:

  內容提要:互聯網大數據計算,是當前社會研究方法創新的主要方向之一。部分純數據驅動型學者認為,大數據獨立于研究之外生成,不僅能記錄下人們的真實態度與自然行為信息,又可以擺脫研究者與研究本身的干擾,由此形成了“總體性”“真實—自然性”與“客觀性”三大認識假定。然而,無論是由數字鴻溝造就的年齡與階層邊界和由差異化生產劃定的群體與主題邊界,還是由數據操縱和數據引導帶來的虛假(非真實)與偏態(非自然)狀況,以及潛藏在整個數據生產—挖掘—分析過程中的人為干擾,都證明上述假定在很多情況下并不成立。認清互聯網大數據的可“計算”邊界,對于推動數據計算在社會研究中的應用有著重要的理論與方法意義。

  關鍵詞:互聯網/大數據/計算范式/數據缺失/數據偏態/數據操縱

  作者簡介:郝龍(1988- ),男,山東新泰人,武漢大學社會學系博士研究生,主要研究方向:數字社會學與計算社會學。武漢 430072

  基金項目:國家社科基金重大項目“大數據時代計算社會科學的產生、現狀與發展前景研究”(16ZDA086)。

 

  社會學的量化研究以數據資料為基礎,大數據時代的到來,使運用海量數據和新的數據處理技術,對人類行為、群體互動乃至社會復雜適應系統進行研究成為可能。可用于社會研究的大數據,依其生成方式大體可分為三類:第一類是基于人機互動在互聯網和移動互聯網平臺上生成采集的互聯網大數據①,包括社交關系數據、網絡文本數據、電子蹤跡數據等;第二類是通過各種傳感器采集而來的物聯網大數據,手機位置信息是其典型類型;第三類則是通過數字化與數據化手段由既有信息資料轉制而成的大數據,例如谷歌圖書語料庫(Google Books Corpus)[1]。在三類數據中,互聯網大數據由于承載著大規模、長時段、連續關系性和意義性信息,被認為將賦予社會學“改變我們對生活、組織和社會的理解”的潛力[2]。

  單從名稱上看,“大數據”好像是在強調與傳統量化數據相比所具有的更大個案數量或信息規模。然而實際上,兩種數據無論是在數據性質還是生產邏輯上都存在著質的差異:傳統計量方法分析的是數值型數據(numerical data),這些數據是出于特定研究目的而運用實驗、問卷調查等方法有計劃地觀測的結果,即數據生產本身就構成了研究的一項重要組成部分。新型計算方法所處理的則是計算機代碼型數據(code data)——“作為數據的可解釋代碼和作為代碼的數據”[3],這些數據獨立于社會研究之外。數據生產的獨立性,也決定了其在社會研究中的邊界。在計算范式下,數據分析的焦點不再是能測量到什么,而是“已經生產出什么”;不再是“能否有效且穩定地測量”,而是“是否真實且準確地生產”。[4]在由“可觀測性”議題轉向“可獲得性”議題的過程中,圍繞著大數據計算形成了一系列認識假定,其中對社會研究最為重要的有“總體性”“真實—自然性”“客觀性”三大假定。“總體性”假定指大數據時代的到來,開啟了“樣本=總體”的全數據模式,數據代表性問題將不復存在;“真實—自然性”假定指互聯網上記錄的是人們行為互動的真實蹤跡和“自然狀態”下的表達;“客觀性”假定指基于大數據的研究可以避免研究者個人因素的影響,能夠獲得傳統研究方法無法企及的、帶有真理性、客觀性和準確性的見解。然而,將大數據運用于社會研究,就會發現實際情況并沒有預想的那么樂觀。

  一、缺失與分隔:互聯網大數據的代表性邊界

  “總體性”假定來自邁爾—舍恩伯格和庫克耶的《大數據時代:生活、工作與思維的大變革》,他們將大數據理解為不同于抽樣數據的全體數據,稱“大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法”[5](56);并且認為“社會科學是被‘樣本=總體’撼動得最厲害的學科”[5](41)。這樣籠統地宣稱“采用所有數據”的潛臺詞似乎是——在大數據時代,一切社會科學研究都能夠用總體數據來分析。這一觀點對傳統定量研究者而言無疑有著巨大的吸引力,因為如果真的可以獲得“全樣本”,就意味著不存在數據代表性問題,社會研究結論的準確性和適用范圍將得到顯著提升。國內有些學者直接接受了“總體性”假定,認為“抽樣誤差曾經是長期困擾社會科學研究的重要難題,而全樣本作為大數據最重要的特征,甚至可以將抽樣誤差降為零”[6]。然而,“總體性”假定在表述上是含混不清的,在社會科學研究中,“總體”是相對于研究對象和研究問題而言的,在沒有明確研究對象的情況下談論總體,其實是毫無意義的。邁爾—舍恩伯格等研究者未能對數據的“可計算性”和“可獲得性”之間的差異作出清晰的分辨,他們認為隨著計算能力的日益強大和數據處理技術的日益進步,對獲取到的所有數據已有能力進行有效的分析,無須再因計算條件(能力、成本、時效等)的限制而采取隨機抽樣方法壓縮數據體量。然而,在數據生產與科學研究相分離的背景下,可獲得的所有數據不一定等同于研究對象的所有數據。這是不能脫離具體研究問題來下結論的。正因如此,國內有些學者對此問題的論述陷入自相矛盾,他們一方面沿襲舍恩伯格的觀點,強調大數據的全樣本特性,另一方面又承認很多時候并不能獲得總體數據[7-8]。鑒于此,有必要對“總體性”假定進行細致的分析,以矯正相關認知偏差。

  (一)數據缺失:“數字鴻溝”下的年齡與階層邊界

  在現實生活中,計算設備的獲得和使用會直接受到支付成本、技能學習、生活需求等社會因素的影響,從而使互聯網大數據生產過程本身具有明顯的社會屬性[9]。對這種社會屬性最直接的考察,便是檢視網民群體結構與總體人口結構的對應程度。

  據第41次“中國互聯網絡發展狀況統計報告”顯示,2017年中國網民規模達到7.72億,而按照當年總人口數計算,中國互聯網普及率只有55.8%,仍有近一半的中國人口未能成為互聯網大數據的生產主體。當然,如果這種缺失只是群體比例上的隨機缺失,可以通過統計手段加以修正[10](186-187)。但現實情況卻不盡然,僅從年齡結構來看,2017年,中國網民群體以40歲以下人口為主,40歲以上網民只占總網民數的23.6%,不到1.82億人;而同年齡段的實際人口,占總人口數的比例卻接近五成[11-12]。以往的研究表明,中國互聯網的使用不僅會受到使用者年齡因素的影響,更與其收入、受教育程度和城鄉差異等因素緊密相關[13-14]。即便只是對使用者的年齡、收入、受教育程度與城鄉結構四個因素的交叉列聯也會發現,僅憑40歲以上的網民群體規模是無法實現對同年齡段總人口變異性的整體覆蓋,尤其是覆蓋那些年齡較大、收入較低、學歷不高、居住在農村的群體,其中大部分人的日常行為和態度意見都沒有被記錄在互聯網大數據之中。例如,新浪微博發布的“2016微博用戶發展報告”顯示,82%的微博用戶年齡在30歲以下,40歲以上用戶不足7%;77.8%的用戶受教育程度為大學及以上層次,初中及以下層次用戶同樣不足7%[15]。

  “數字鴻溝”(Digital Divided)的一系列研究對數據缺失背后所隱含的社會意義有所揭示。數字鴻溝概念,最初被用于描述因網絡設備接入的不均衡所引發的信息分配的不平等現象[16]。對互聯網大數據而言,“數字鴻溝”現象的存在意味著部分社會成員作為數據生產主體的缺場,其態度與行為信息無法在網絡中獲取。“數字鴻溝”不僅出現在網民與非網民群體之間,同樣也出現在網民群體內部。隨著研究的不斷深入,社會學家們普遍意識到,由互聯網的接入與否所引發的區隔問題,不過是“數字鴻溝”的表現形式之一。社會的結構性不平等因素,同樣會在網民群體之間制造出使用頻率、需求程度、技能水平和信息素養等方面的顯著差異,由此引發數據生產上的“次級數字鴻溝”問題[17]。

  “數字鴻溝”理論表明,受個人技術能力、經濟條件和社會需要等因素的限制,社會大齡群體和底層群體在成為互聯網大數據生產主體問題上普遍面臨著更多的障礙。這些群體中只有少數成員成為網民,他們無論是在行為方式還是態度意見方面都不足以代表全部成員,其所生產出的數據信息也無法涵蓋群體內的所有變異性特征[18]。可以說,“數字鴻溝”現象的存在,使互聯網大數據不可避免地存在數據缺失問題。在以往量化研究方法中,數據缺失是指所要觀測的變量取值未能被測量到,或測量結果的信度太低而無法使用。然而在大數據研究領域,“缺失”的內涵發生了變化,用以描述受成本支付和主體偏好等因素的影響,社會研究所需要的數據未能在互聯網絡中生產或儲存下來,因而研究者無法獲取關于特定社會群體或研究主題的全部必要信息。由此類數據的絕對缺失所帶來的信息恒定缺損,以至難以甚至無法以統計學方式來加以彌補或矯正。

福利彩票20选8玩法
本網申明:本網轉載此文在于傳遞更多信息及用于網絡分享,并不代表本網贊同其觀點,如有侵犯知識產權的文章,請與我方聯系必會及時處理。
更多文藝
更多三農在線