站內搜索 / download
學術資訊

梁晨:從學生學籍卡到量化歷史研究

發布時間:2020-06-23 13:28:00
各位老師、同學,大家好!很榮幸受付老師邀請,來到華中師大與諸位相互交流學習。今天我想討論的主題是怎樣做量化歷史數據庫,以及怎樣開展相應的研究。
 

大約三年前,付老師就和我們討論,考慮將量化歷史數據庫的建設與研究方法推廣到華中師大。當時,國內學界剛剛開始注意量化數據庫研究,而現在,你們已經開設了大數據歷史基地班,真正推動著大數據歷史研究人才的培養,這是很有眼光的。我個人認為,在今天這個時代,歷史學家做研究,除了傳統的歷史學功底外,一些新技術方法的應用也不應忽略。實際上,技術應用不僅對研究很重要,對人才培養也很關鍵。20世紀90年代中期以來,全球高等教育界都出現了一個現象,即人文學科的影響力明顯降低,很多學生不再對人文學科的學習有興趣。甚至像哈佛這樣的全球最頂尖高校,它的文理兩科,包括基礎人文學科,一直是引以為傲的資本,但50年來以人文學科為主業的學生比例從近40%下降到了20%。全美的這一比例則從14%下降到了7%。同樣,國內也有類似現象。為什么社會對歷史學這樣的人文學科的認可度降低了?這里面當然有很多原因,但其中之一還是認為歷史學學習的內容太過“空虛”,缺少足夠的技術內涵,不利于學生在就業市場上的競爭??梢?,加強相關技術的教育與培訓,對歷史學科吸引和培養人才也很重要。

我們還注意到一個有趣的現象,即當選擇歷史專業的學生在普遍減少的同時,一種新的大規模歷史量化數據庫的構建和研究卻蔚然成風,歷史材料對多學科發展的貢獻大為提升了。這種歷史大數據庫最早開始于人口學研究,主要是利用人口普查和大規模調查構建起量化數據庫。比如美國人口中心創建的“公共微觀整合數據庫”(Integrated Public Use Microdata Series,IPUMS)。微觀數據(Microdata)指人口抽樣調查和人口普查等包含的個人層面(Individuallevel)信息。這些富有學術價值的個人基本信息,如性別、年齡、婚姻、家庭狀況、職業和出身等,廣泛存在于全世界各國,內容和形式高度一致,適合連綴成超大數據庫,進行國際比較研究,是新社會史和經濟史研究的關鍵。歷史學家是除統計機構外最早使用微觀數據進行研究的學者。從1998年起,IPUMS首席科學家Robert McCaa先后說服了100多個國家的統計機構與IPUMS合作,將彼此的數據庫連接起來并免費用于學術研究。目前,IPUMS包括19世紀以來多個國家,也包括中國第三次(1982年)、第四次(1990年)人口普查微觀數據。數據還在不斷增長,最明顯的是從18世紀開始到20世紀中期的以數字抄本為基礎的歷史人口微觀數據。2018年,IPUMS的數據總量擴展到了20億人次記錄。
 
盡管建成初期,學界對這些數據庫的利用、研究甚少,但從20世紀90年代中期以后,研究與利用迅速增加,取得了許多重要成果。以包括IPUMS在內的國際五大量化數據庫而言,在20世紀90年代之前的20年里,僅有零星的發表援引相關數據庫。這可能是因為這些數據庫本身還在建設初期甚至尚未開始,很多內容和方法需要完善,其學術價值仍有待開發。進入90年代,尤其是1995年以后,情況發生了巨大轉變。2006—2010年的五年,索引五個數據庫的新增學術發表已經達到2360余篇。盡管這些學術成果中有很大一部分都是來自IPUMS所包含的當代人口統計數據,但是如果我們只統計三個純歷史微觀數據庫,即BALSAC、HSN和SEDD,其貢獻的新增學術發表在2006—2010年也達到117篇,且近20年的增速與五個數據庫總貢獻發表數的增速幾乎一致。
 
受此影響,國際史學界正在興起構建大型個人層面量化數據庫的風氣。最近十幾年里,一些側重東亞研究的歷史學者和研究團體也意識到,像西方學術界構建與使用的這些與人口、社區等相關的量化史學數據,其原始材料在中國或東亞地區存在的要早得多和廣泛得多。因此,一些東亞地區的歷史人口微觀數據庫陸續得以建立,如美國學者李中清(James Z. Lee)、康文林(Cameron Campbell)從20世紀80年代起,前后花費了20多年時間,建立了基于八旗戶口冊和清代皇室族譜資料的中國多代人口數據庫系列(China Multi-Generational Panel Data Series,CMGPD)。該系列數據庫包含遼寧、雙城和皇族三個子數據庫,其中前兩個已經在ICPSR網站上對全球學界免費公開。遼寧數據庫涵蓋了1749—1909年遼東地區26萬人的150余萬條記錄。雙城數據庫涵蓋了1866—1913年黑龍江雙城縣10萬人的130余萬條記錄,并嘗試與不同時段的家戶地畝資料相連接。這些大規模、長時段的微觀歷史數據包含了豐富的人口和社會經濟信息,且同時具有時間上的深度和空間上的廣度,對人口統計學、家與家族、親屬關系、社會分層與流動、衛生健康等多個學術研究領域有重要價值。
 
同時,以上介紹的這些量化數據庫基本都以歷史數據為主,但絕大部分研究并不集中在歷史學領域,反而在其他學科,比如經濟學、健康醫學以及地質學等學科。所以,在今天這個時代,歷史學本身的價值不僅沒有降低,反而是提升了,關鍵是我們要提升自我的研究方法。
 
當然,量化歷史數據庫的構建與研究,特別強調技術方法要適用于歷史材料,而不是相反。在目前的技術條件下,確實存在一些材料和問題更適合使用這種研究方法,而另一些材料或問題則還不能很好地用這種方法來展開研究。一般來說,系統化、結構性的歷史材料更適合開展量化歷史數據庫的構建與研究。就中國傳統官方文獻而言,至少有三類非常適合。第一,歷代戶籍材料。一般而言,中國自周朝就形成了國家性的戶籍制度,秦統一后逐漸形成規模,經三國及南北朝時期的調整,隋唐后已經非常完備。這個過程中,戶籍登記材料也逐漸完善與累積,明代以來的黃冊更是蔚為壯觀。這些連續長達2000多年的戶口材料是數據庫與定量研究的最好素材。第二,與戶籍材料相伴隨的歷史同樣悠久的土地及財產占有與分配登記材料。從戰國以來,中國土地制度經歷了從井田制、屯田制、均田制、府兵制、均稅法、一條鞭法、攤丁入畝到現代“土改”的多次調整,但每個新制度下,對土地數量丈量、歸屬權益的明確以及相關賦稅的負擔都有龐大記錄,這一重要材料一樣非常適合數據庫化研究。第三,至少自隋唐以來,考試(考核)就成為中國社會選拔精英人才的重要方式,歷代皆有數量驚人的科考或官員銓選材料,這些材料歷時長,系統化程度高,是不可多得的量化數據庫素材。不過,隨著技術發展,尤其是海量史料的數字化處理和數字文獻內容抓取技術的發展,非結構、分散化史料的系統收集和數據構建也在逐漸成為可能,這也是我們團隊最新研究項目試圖嘗試的方向。
 
另外,一些傳統認為比較難以量化研究的領域,如思想史、文化概念史等研究,其實也早就有一些量化數據庫的開放和不錯的研究成果。例如原先任職于香港中文大學的金觀濤教授就建立了一個近代思想史數據庫。他主要是把大量報紙文獻上的文章輸入電腦,釋放海量的文獻,然后以詞頻的方式來做研究。這個方法,其實有點類似于大家使用計算機在圖書館檢索關鍵詞。他后來分析這個詞語在什么時候什么情況下出現,什么時間段出現頻率比較高,這個詞的出現時間和頻次反映了怎樣的思想文化和意識形態的轉變。這種分析方法,建立在海量文獻已經輸入和構庫的基礎之上,一旦沒有了這個基礎,很多問題的研究也就無從展開了。
 
從這個意義上講,大數據歷史研究能幫助我們發現很多新問題,甚至解決很多僅靠傳統閱讀難以解決的問題。數據庫通常包含了某一范圍內所有參與者或構成者的狀況,能系統體現不同規模群體的多種信息。傳統歷史研究往往是基于歷史學者的直覺來考慮作用與因果。即使運用數據,往往只是涉及較少維度的統計表格。然而,社會科學許多定量方法擅長多變量分析,可以同時比較多個因素與結果的相互關系,或者說在考慮到結果與其他因素相互關聯的情況下,估計特定因素與結果的統計相關性。這不僅能幫助研究者更深入理解各種因素的變化與彼此關系,還能兼顧所有個體的影響與權重,一定程度上避免了選料時的疏漏與偏廢。
 
最近,我們團隊正在開發、利用清代的“縉紳錄”史料??N紳錄是記錄職官的職掌、姓名、出身、籍貫、字號等基本情況的專書,清代保留至今的縉紳錄文獻規模浩大,提供了連續性的官員記錄,是建立清代官員群體的大規模歷史量化數據庫的理想史料??N紳錄為學界提供了極為系統的個人層面微觀數據,同時這些數據每季度出版,具有極好的歷史連續性,而且至少幾乎包含了1760—1911年所有清政府官員的信息。我們為此構建起了10個人左右的專業輸入團隊,全職從事該材料的輸入工作,預計3年內能夠完全輸入電腦,但一些前期的研究已經開展了。與大多數制度史研究主要研究制度的文本相比,“縉紳錄”數據庫的構建和研究,將能直接從全面、系統的實踐角度檢驗制度的操作與變異,對真正理解官員制度和社會運作會有極大幫助。但這種研究,顯然是不可能依靠傳統文獻閱讀方法實現的,它必須依靠數據庫和量化分析才能完成。量化歷史研究與傳統史學研究是不同的,一方面,它可以彌補一些傳統研究方法的不足,特別是在處理這種大規模的人口史料方面;另一方面,它是一項需要花費很多成本的工作,這里的成本既包括人力也包括資金,所以它更是一項集體的活動,需要團隊合作完成。
 
不過,雖然數據庫建成的各方面要求會更高,但建成后即可向社會開放,而越來越多數據庫在開放后又能夠相互聯系,從而會大大提高研究的效率和研究的深度。像我剛剛講到的全球五大數據庫,它絕不只是為了滿足某個研究團隊自身研究封閉使用,而是向全球學界開放的。如利用IPUMS所做的各類研究已超過萬次,而其中絕大部分是由外部研究人員完成的。再比如李-康研究團隊原來做的有關東北人口的歷史數據庫,現在也是在網上公開的。我們發現數據庫最初公開的三年,用它來做研究的,要么是研究組成員,要么是合作過或指導過的學生。但最近幾年,用它做研究的都是外部研究人員,而不是李-康研究團隊的人員。
 
接下來我想結合我個人的經歷,介紹一下數據庫建設與研究的一些具體經驗。
 
我是2007年博士畢業后,才決定和李中清教授合作,從事量化歷史研究方面的博士后工作。之前我也沒有專門學習過量化歷史研究,但我本科的時候讀過經濟學雙學位,也接觸過統計課程和初步使用過SPSS這樣的統計軟件。加入李-康研究團隊后,李中清教授、康文林教授對我們的統計分析,尤其是Stata軟件的使用進行了短期的進一步輔導。不過,對于歷史學者,這種輔導最關鍵的不是掌握最復雜的計算分析,而是理解統計軟件的基本原理,知道它能做什么,不能做什么,從而幫助你在處理歷史資料時,知道如何將技術運用在史料上是可行和合適的。李-康團隊一直遵循的一條重要原則是歷史材料是已然存在和無法改變的,任何技術和方法只能用來適應材料,而不能讓材料來適應技術和方法。
 
實際上,在團隊合作中,很多具體分析是由熟悉史學研究的研究者提出的,而具體的操作則可以由專門的技術人員來完成,不過,作為研究者需要理解技術實現的過程并能夠判斷是否正確。實際上,構建量化數據庫通常包括數據采集、數據分類、數據編碼、數據存儲、數據信息挖掘和定量分析等多個環節,數據庫建成后還可能需要數據管理和維護等多種工作。且不說量化數據庫研究的技術與方法對大多數歷史學者來說是非常陌生的,即便是研究的組織與管理模式也大有不同。歷史學者從事研究時多是“單打獨斗”的,而構建大規模、量化史學數據庫并對其進行分析與研究,需要多學科專業人員的合作,通常必須有一個研究團隊才能實現。這種研究的組織模式與傳統研究差異很大,無論對于經費還是合作管理都有相當高的要求,與以往的人文研究方式差別很大。
 
李中清-康文林教授研究團隊十多年來的經驗、歷程是互聯網時代人文社會科學學科研究者相互連接,從獨立走向合作的典型例子。自2003年開始,當時尚在美國密歇根大學任教的李中清教授和在美國加州大學洛杉磯分校任教的康文林教授便決定與一些青年學者和博士生、博士后們合作,建立一個國際化的歷史學研究團隊。這十多年來,李中清、康文林兩位教授從美國安娜堡轉到北京再到香港,但團隊成員并沒有跟隨團隊領導的地點轉變而轉變,而是根據研究的材料、工作條件等需要,廣泛分散在包括美國、法國、荷蘭、日本、中國在內的世界各地。團隊的整體研究工作不僅沒有因為分布越來越廣泛而停滯,反而越來越有效率。開始時,成員們只能利用電子郵件匯報每周的工作。此后,研究組能夠每周在固定時間,利用Skype召開網絡討論會,實時討論各自的工作。而現在,成員們不僅每周定期召開Skype會議,為了討論更深入,還會將各種研究數據與資料、寫作中的稿件等上傳到Dropbox、百度云盤等虛擬存儲空間,更立體、豐富地進行學術工作交流。除了召開Skype會議,成員們還會根據不同研究主題的需要,構建起由不同成員參加的微信群,隨時進行互動交流。在這十年里,研究團隊完成了一些較有影響的研究項目,研究項目又大多與互聯網及其相關技術有關。
 
李-康研究組的經驗說明,在互聯網的支持下,距離給交流帶來的障礙大為降低,具有共同興趣的全球學者組建成團隊的可能性大為增加。全球化研究團隊的建立有許多重要意義,但其中比較特別的有兩方面。
 
首先,這種互聯網化的研究團隊對學術后備軍的培養更有效率。團隊中的青年學者或研究生們不會因為選題、工作關系離開團隊核心學者,更不會因為在外地,甚至在外國工作而與其變得疏遠,在學術上逐漸不再交流、合作。相反地,因為在新地點總會有不同的新材料和新的研究問題需要探討,他們在研究組的每周例會討論中反而變得特別活躍,從老師、同事處得到的幫助也越來越多。
 
其次,團隊成員的廣泛分散,必然會豐富集體的研究材料和研究成果,從而更有效地推動團隊研究產量的增加以貢獻學界。同樣以李-康研究組為例,隨著成員的分布范圍不斷擴大,團隊的研究材料逐漸從東北人口史料擴大到近現代大學生登記資料,再到山西地區近百個農村的系統、長期記錄,以及清朝至民國官員記錄、海外中國傳教士資料和一些國外人口統計資料等,研究主題也越發多樣。
 
最后,我還想強調的是,與傳統史學和其他社會科學的定性研究方法類似,定量方法的選擇和應用,以及對分析結果的解讀,同樣會受到研究者的主觀性影響。進行以量化數據庫為基礎的研究分析,研究者需要思考的首要問題是選取構建數據庫的史料是否存在選擇性偏誤,即這些材料能夠在多大程度上反映當時的社會現實,能夠反映哪些特定人群、特定條件下的具體情況。只有對數據來源的選擇性有充分認識,才可能避免錯誤解釋分析結果或過分夸大結論的代表性。而這些必要的歷史背景往往是通過傳統文本分析獲得的。因此,史學研究方法一方面可以深化對定量分析結果的理解和解釋,另一方面也可以對定量分析結果和定性研究結果進行經驗比較,通過多種研究方法的結合減少主觀性風險的影響,提高對研究對象全面、深入的整體認識?!皵盗糠治霰旧聿皇悄康?,只是認識的手段”,這些定性分析,對于以復雜的人類行為為研究主題的社會科學研究必不可少。對新一代歷史學者來說,要將科學方法融入傳統研究中去,既不能因固守舊,也不可以盲目推崇新方法而完全拋棄舊方法。
 
對“大數據”時代量化研究的大趨勢,歷史學者絕非“赤手空拳”,只能消極被動接受轉變,而是有其獨到的比較優勢。歷史學者掌握的眾多史料、豐富的歷史知識以及考據等研究方法對量化研究歷史資料來說都是必需的。量化數據庫方法要在歷史乃至社會科學研究領域發揮更大價值,歷史學者的作用不可或缺。實際上,盡管使用數據進行分析的多為非歷史學者,但前文介紹的社會科學最重要的公開數據整合中心之一ICPSR和幾個重要量化歷史數據庫IPUMS、HSN、SEDD、CMGPD的項目發起人或領導者都獲得歷史學博士學位。這說明歷史學者不僅能夠參與,而且對于這些國際主要量化數據庫項目的成功有不可替代的作用。
(以上是中心教授梁晨在華中師大的演講,轉自微信公眾號“鳴沙”)

上一篇:近期民國史出版物選介

下一篇:講座回顧:“民國史研究多國史料的運用與國際化視野”

版權所有:南京大學中華民國史研究中心 蘇ICP備09043283號

電話(傳真):025-83594638 郵箱:lvjingnd@nju.edu.cn 地址:南京市漢口路22號逸夫管理科學樓

邁點科技技術支持

八闽福建麻将外挂 免费 单机三人麻将下载 安徽11选5走势图 以太坊平台有什么用 赌场幸运转轮黑红 德州扑克游戏规则 mg视讯属于什么公司 山东群英会基本走势图 即时比分捷报手机版 mg电子游戏娱乐平台 河北11选5最大遗漏值 黑龙江快乐十分走势图开奖结果查询 乐乐安徽麻将 浙江体彩6+1开奖 cba比分推荐 辽宁快乐12开奖走势 天天捕鱼赢红包