中國研究環境的變化,以及新型數據研究技術的進展,幾乎同時成為研究社群難以忽視的議題。然而,新型數據研究技術對於研究者,究竟是突破限制的利器,抑或使研究技藝更形黯淡,遠遠未有定論。可以想見的是:兩者之間的張力,已帶來源源不絕的壓力和動力,促使偏好不同方法的研究者精煉技藝以因應變化。《上報》與國立清華大學《當代中國研究通訊》合作策劃「新冷戰下的中國研究」專題,第二篇由陳至潔教授執筆,他回顧了自身十多年來在中國研究領域的求索、困境與轉折。儘管挑戰撲面而來,但活用豐富多樣的技術方法,切入長期關注的現象脈絡,進而反省視野局限,也能夠形成因應變化的策略及議程。這些經驗扎實而具體,實用且具建設性。中國畢竟沒有靜止,現象依然錯綜紛呈,因應策略之下,挑戰背後充滿機遇。
中國政治自2010年代開始進入加強社會管控的時期,21世紀頭十年相對開放的社會政策受到抑制。習近平成為中共領導人之後,極為重視國家安全與政權穩固,中國政府從各方面進一步強化對社會與意識形態的控制。這個趨勢自習的第二個任期(2018年至今)得到了加速與深化,而涉及中國的國際局勢與突發事件(美中戰略競爭、香港反送中事件與COVID-19疫情)更給習近平政府絕佳的理由將中國社會加以「安全化」。在習的統治下,中國政治蛻變為新極權體制(Neo-Totalitarianism),黨國全面強化意識形態與思想的控制,民眾的言論、集會、結社權利受到高度打壓,且生活在日益綿密的電子與網路監管系統之下。中共的安全化政策也深刻影響了體制內學術研究機構與學者;在國家安全法規與「反間諜法」的陰影下,國際學術交流的障礙升高,境外學者難以在中國進行田野調查或訪談工作。這些在以往被視為正常、被寬容的學術活動,在今天不僅舉步維艱,甚至會成為觸法遭捕的理由,明顯增加了研究當代中國的成本與風險。同時,中國的國安法規導致中國學術資料庫限制國外訪問權,對中國研究學者造成進一步的困擾。與2013年之前相比,今日的中國更為不透明,國外學術界與政策界難以研判中國的局勢。
安全化迫使學者換題目找新方法
中國內部的安全化與中西關係的緊張化,迫使國際中國研究社群的學者開發新主題、挖掘新資料與應用新方法來應對挑戰。面對進入中國進行研究的困難與風險,學者開始關注那些「不需要進入中國也能進行研究」的議題,例如海外華人的身分認同研究、中國海外影響力的研究,或是中國對外投資的研究;這些新的研究議題拓展了當代中國研究的視野。學者也努力發掘那些「無需進入中國也能取得」的資料,例如蒐集國際組織關於中國的統計資料、中國政府與官方媒體的網路內容,或是中國社群媒體發文及相關資料。新資料的出現促使中國研究的學者從別的學科領域引入新的研究方法與技術,而新資料與新方法的結合就可能產生新的研究途徑,為老議題注入新視角與新發現,甚至可能改寫原有的主流看法與理論。這就猶如高倍數位望遠鏡帶給天文學界,以及電子顯微鏡給生物醫學界帶來的影響。
此外,中國政治環境的惡化意外地推動中國研究的轉變。在過去十年,我目睹了中國政治的「安全化」,也親身親歷了中國研究的轉型。博士班畢業時(2008年),我的研究興趣是中國人權法治發展與人權外交。我以質化的政策文件判讀與訪談方法進行研究,這需要認識中國的人權工作者與學者,並進入他們的專業社群網絡。在長年多次接觸後,他們接納我並與我建立了信任關係。我計劃在深度訪談的基礎上完成一本關於中國人權與國際交流的專書。在此同時,我因緣際會參與了數位人文研究項目,並初次接觸資訊科學的程式語言。當時我認為這有應用在政治學研究的可能,但並無動力與誘因去深入學習資科方法。
習近平執政初期,我仍然樂觀地認為中國會持續向外界開放,吸收各種思潮,並且相信中國的人權狀況會因為持續對外開放而不斷獲得改善。這也是我的研究工作的現實價值:我相信我的學術工作能促進與見證中國的自由化。但是習近平政府日益收緊言論空間,加強對網路內容的管制,甚至在2015年7月對活躍於司法界與網路的人權律師進行全國大追捕。在此之後,我對中國人權的前景開始轉趨悲觀,因為改變的種子已被扼殺於萌芽階段。對我的研究工作而言,2015年的709大抓捕是致命的:我參與的人權工作者網絡被摧毀,人權律師被羈押判刑,他們的律所被關閉或整頓,他們的家人生活在恐懼與壓迫中,而國際人權機構在中國的活動空間被嚴重限縮。我意識到必須中止訪談工作,這意味著失去第一手資料的來源,因為倘若我仍欲接觸被捕律師的家屬或學者,不只我可能會有危險,也會危及與我接觸的家屬和學者。我的專書寫作被束之高閣,計畫以失敗告終。在那段頗爲受挫與焦慮的過程裡,我決定改變研究途徑。中國人權政治仍然是我研究的主題,但必須另闢資料來源並運用有別於傳統訪談的研究方式。
政策文件傳統解讀法面臨挑戰
中國研究很重要的一個成分,是藉由檢視黨國政策文件內容與政府發言紀錄,以理解其政策成形的原因與目標,進而評估政策實施的成效與後果,或者是藉由詮釋黨國領導人的著作與演說內容,去說明中國政府施政的整體構想與戰略規劃,因為專制政府與領導人主導了國家與社會的發展趨勢。在培育中國研究學者的訓練過程中,學生必須藉由閱讀大量中共與中國政府的文件報告,以建立對中國政治論述模式的理解程度,也就是要學習在隱晦不明的中共政府敘事中掌握重要的「微言大義」。我長期關注中共的人權論述與人權政策文件,彼時尚能藉由訪談中國專家學者,得知這些人權文件所要表達的官方認知與立場,但是2015年之後這條研究途徑已被封閉,這迫使我必須尋找其他的分析方法,去說明中國政府的人權政策及其實施效應。
我當時已深切感受傳統質化的政策研究必須加以改善。不同的學者在分析相同的政策文件時,常會根據個人的背景與經驗做出有明顯差異的判斷,而且幾乎無法得知誰的判斷更符合中國政府的真實立場(除非有管道能夠訪談中國高級官員或甚至國家領導人,但即便如此也無法保證受訪者會說出心裡真實的想法),加上這樣的研究成果無法被重現(replicable),因此難以學習與傳承。此外,不同的學者會選擇不同的政策文件或官方發言以佐證自己的觀點,但這些文件是否真的代表中國政府立場(或者說代表程度有多高)卻始終無法斷定。更何況受限於研究技術,質化研究的學者只能分析少量的政策文件與政府發言,這又更加突顯了所分析之文件的代表性問題。以研究方法的術語來說,中國研究中的政策分析領域存在明顯的信度(reliability)與效度(validity)問題。總言之,在中國內政安全化開始影響中國研究之前,中國研究社群(特別是像我這樣的質性研究者)已經到了必須處理研究缺陷的時刻。我就是在這個時刻開始發掘新的資料並嘗試新的方法。
如前所言,我在關注中國政治的同時,也參與了數位人文的業務,這使我得知,專長為自然語言處理(Natural Language Processing, NLP)領域的資訊科學研究者,能夠以程式語言作為工具,去獲得巨量的網路與檔案資料,並分析其內容與資料結構。我試著與NLP學者合作,發現他們能在極短時間內便取得數萬筆的中國官方媒體人權報導與評論,只要是公布在網路上的都能夠獲取。我領悟到NLP技術能夠緩解長期困擾政策分析的效度問題:NLP尤其能提升研究的外部效度(external validity),因為當我們能夠蒐集並分析大量且較少選擇偏誤(selection bias)的政策相關文本,就能有效緩解前面所提到的代表性問題。當我們有能力對文本的整體進行全面的分析,採樣偏差的疑慮就能得到控制。NLP技術還能根據我的研究需求,對全部的文檔進行資料整理,並計算重要詞彙的出現頻率,找出與這些關鍵詞共同出現的其他詞彙的頻率與樣態,然後製成圖表。資科學者還介紹其他的分析工具,例如詞彙關聯度分析、詞彙相似度分析、文章相似度分析與主題模型等。
用主題模型處理大規模文本
運用主題模型(topic modeling)技術,研究者能夠有效降低主觀判斷的偏差,讓文本分析更具客觀性與可重複性。主題模型能夠自動從大量文本中識別出主要議題與隱含的話題結構,避免了人為標記過程中可能產生的偏見。這種技術特別適用於政策分析,因為它可以從龐大的政策文件、社會媒體言論、報導文章等非結構化數據中,提取出具有政策意涵的主題和趨勢。主題模型的另一優勢是其探索性功能,能夠揭示原本未知的資訊或隱藏議題,這對政策分析學者尤為有用。學者透過主題模型,可以發現政策討論中不同利益相關者的關注點、探測潛在的政策衝突,以及觀察隨時間變化的政策趨勢。此外,主題模型還能有效處理大規模文本,大幅降低人力與時間成本。在數年的跨領域合作中,我開始有動力自學程式語言,這使我掌握多元的研究工具,能夠根據研究議題而選擇適合的技術,並且自己設計研究分析步驟。運行NLP程式碼所得出的分析結果,都是可重複的,且與之前的結果完全相同,也就是說,NLP技術能保證研究的穩定性與一致性,這有效解決了政策分析普遍受人質疑的信度問題。
由於NLP方法產生了「結構化」的文本資料,我開始將NLP技術與社會科學統計相結合,將文本資料與其他統計資料進行迴歸分析,試圖勾勒出中國人權政策與政策效應的關聯程度。我從中體會到研究者倘若熟悉了一套新方法,就能提升學習其他方法的動機,並降低學習更多方法的門檻。新方法的應用,也緩解了我的職涯焦慮:我能繼續出版期刊論文,也在疫情期間出版了第一本專書,主題是探討習近平政府如何重新馴化與利用中國的社群媒體。等到大語言模型(Large Language Models, 例如OpenAI的ChatGPT)與各種AI輔助研究工具相繼問世,學習NLP與統計技術的時間和心智成本就更為下降。我開始運用大語言模型去詮釋主題模型產生的結果,以進一步控制政策詮釋上的人為主觀性。我也運用大語言模型對所要分析的文本進行分類,從巨量的文檔中辨識出與研究議題真正相關的文本,而所花費的人力、時間與財務成本都很低,且具有高度的一致性(也就是低變異性)。一個整合「傳統質性政策分析、自然語言處理、迴歸統計與大語言模型」的研究途徑,已然出現在中國研究的地平線上。
田野訪談和民意調查仍不可偏廢
資訊科學與大語言模型,雖然為中國研究帶來全新視角與可能,但它們並非解決研究困境的萬靈藥。例如,對於文本或統計資料相對稀缺的議題,研究者仍需投入大量心力來蒐集和產生資料,如進行田野調查或設計具信效度的民意調查。然而,這些工作又面臨中國內政「安全化」的阻礙:受限於政府審查和監控,資料蒐集的難度與風險仍然很高。此外,新方法的出現可能在無意間加劇中國研究領域的失衡:在資料充裕或易於獲取的議題,研究活動可能蓬勃發展,而對於缺乏現成資料的議題,研究者可能選擇回避,導致這些議題逐漸被邊緣化。這種趨勢可能削弱我們對中國社會的全面理解,偏離了中國研究原本多元、跨領域探索的初衷。同時,學習這些新方法並不意味著放棄原有的方法;相反,它強調不同方法的結合與互補,以更全面、靈活的方式來理解中國的社會現象與政策動向。因此,推動中國研究的進步不僅在於採用新技術,更在於將這些技術融入於整個方法工具箱(toolkit)中,並靈活應用於不同的研究問題。研究者從掌握單一技術,到能夠運用整合多重方法的技能,這是促進中國研究這門技藝(craftsmanship)能保有活力並持續發展的關鍵。這種能力的提升,將有助於研究者以更創新的方式解決資料匱乏的問題,並避免損害中國研究領域的完整性與多樣性。
轉載自《上報》本文作者是國立政治大學國際關係研究中心副主任,國立清華大學當代中國研究中心執委