Info Aggregator: 人工智能，人民日報和習近平的中國：大數據時代的AI分析師從黨媒口舌讀懂中國

馮兆音

BBC中文駐美記者發自華盛頓

試想一下，一位《人民日報》的資深讀者，牢牢記住了該報70年來的所有報道，他能在今日的頭版中讀出什麼門道呢？

長久以來，中國官媒《人民日報》被認為是洞悉中南海最新政策的重要窗口，許多中國觀察家每天的第一項工作就是：埋頭細讀《人民日報》頭版，從中尋找變化的蛛絲馬跡。在不久的將來，記憶力遠超人類讀者的人工智能或能代勞這一工作。
最近，兩位身在華盛頓的年輕華裔研究員研發出一項名為「政策變動指數」（Policy Change Index）的人工智能程序，它猶如一位《人民日報》的死忠讀者，「熟讀」該報及其前身《晉察冀日報》自1946年來發佈的全部200萬篇文章。
根據程序設定，如果這位人工智能讀者一覺醒來，讀到當日的頭版覺得非常驚訝，就說明這篇文章偏離了該報此前的採編思路。如果該程序持續對頭版信息感到「驚訝」，就意味著北京的宣傳思路轉向，新的政策可能要橫空出世了。

打造《人民日報》的超級讀者

這位人工智能讀者的誕生，要從2017年一場在華盛頓的飯局說起。
35歲的智庫研究員鐘偉鋒和34歲的經濟政策諮詢師陳子健分別來自廣東與香港，是相識多年的老友，兩人一直對中國政府的宣傳口徑感興趣，花了大半年時間在《人民日報》公開數據庫中抓取了200萬篇報導。
「但想來想去，不知道該怎麼用。」鐘偉峰接受BBC中文採訪時回憶說。人工智能的優勢是能在短時間內消化龐大的數據量，通過複雜的計算給出一個答案，但在那之前，研究員必須拋給人工智能一個有意義的問題。
就在這場再平凡不過的朋友聚餐中，兩人你一言我一語，掀起一場頭腦風暴。
「人工智能可以用來判斷文章出現在哪一版。」
「這哪有意思呀？誰在意文章來自報紙的哪一版？」
"但頭版就不一樣了！不如判斷一篇文章是否足夠重要到出現在頭版？這就有意思了。"
在新政策出台前，中國政府通常預先調整輿論方向。被認為是中國官媒之首的《人民日報》是反映國內政策的風向標，尤以頭版文章最為重要，傳達著當局重點宣傳的綱領性政策。中國領導人如果幾天不在《人民日報》頭版露面，海外中國觀察界就能炸開了鍋。若能及時感知到頭版的新輿論取向，就如掌握了中國政治的水晶球，可觀察到北京的最新政策取向。
鐘偉鋒和陳子健這項聽起來複雜高深的研究，其實內核相當簡單：讓人工智能去模仿一位經驗豐富且有洞察力的讀者。
找好用來考驗人工智能的問題後，兩人在業餘時間潛心研究機器學習（machine learning）程序。有時，他們結束朝九晚九的本職工作，就在家中研究直到半夜兩三點。鐘偉峰打趣說，妻子曾抱怨他與陳子健通電話的時間，比他們夫婦倆聊天的時間還長。
高強度的工作不久後就被證明是值得的。幾個月後，兩人在陳子健的家中試運行程序，只採用《人民日報》文章的標題小試牛刀，結果讓他們喜出望外。
「在1978年改革開放前半年，程序顯示出很高的『驚訝』峰值，明確顯示出新政策出台前的輿論轉向。」鐘偉峰說，「當時高興得要跳起來了。」
今年十月，他們將「政策變動指數」相關發現寫成論文，發佈在華盛頓智庫美國企業研究所（American Enterprise Institute）的網站上。
人工智能讀者的驚訝程度即是「政策變動指數」，該指數首度量化了官媒上傳遞的中國政策變化信息。而且，人工智能不受語言限制，類似的程序可以用來觀察古巴、朝鮮、越南等蘇維埃模式獨裁國家的官方輿論導向。有研究朝鮮的專家已與兩人探討合作，通過以機器學習《勞動新聞報》分析朝鮮的政策方向。

人工智能讀到了什麼？

「政策變動指數」的變動與多項中國近代重大政策的宣傳時間吻合，它在1958年前錄得了高指數，成功「預測」了大躍進政策。指數還顯示，在1976年毛澤東去世後，中國的政策出現了幾番波動，在1978年推行改革開放政策後恢復平穩。它還提前了三個季度測出1993年私營經濟改革的加速，提前一年測出2005年的改革「減速」。
鐘偉峰說，「和諧社會」在2004年的《人民日報》頭版中反復出現，顯示出政府醞釀在效率與公平之間取得平衡，預備市場改革減速。
人工智能如何解讀習近平任內的政策呢？根據它的分析，習近平上台以來的政策與胡錦濤第二任期的相比「變化不大」。兩位作者認為，這是由於習近平延續胡時期經濟和社會改革並行的政策，市場經濟改革雖然降速但仍在持續，同時，北京嘗試採取一些民粹政策來解決社會問題。
值得一提的是，習近平任內的政策似乎讓人工智能十分迷惑。在他執政的年份中，人工智能判斷頭版文章的凖確度只有60、70%，表現只算是僅僅及格。
鐘偉峰分析，近年來，當局既有「媒體姓黨」、反西方意識的「七不講」等意識形態偏左的政策，也出現「使市場在資源配置中起決定性作用」的偏右提法。「又左又右的政策之下，人工智能似乎還看不到一個統一的政策議程。」
另一段讓人工智能程序迷惑的時期，是1989年天安門事件至1992年南巡期間。鐘偉峰認為，這段時期內黨內改革派與保守派分歧擴大，政策制定處於「比較迷失的狀態」。
人工智能並非無所不能，對於政府不披露的消息，人工智能也無法猜出當局的心思。例如1966年發起的文化大革命與1989年的天安門事件，「政策變動指數」就沒有提前顯示出顯著波動。
鐘偉峰解釋，文革前毛澤東未在官媒上提前顯露他的意圖，而在1989年，當局也有意低調報導天安門事件，而人工智能無法讀出秘而不宣的政治議程以及不為人知的幕後派系鬥爭。
人工智能也無法預測突發事件，例如2008年金融危機後推行的四萬億投資計劃，指數未能提前顯示波動，只在計劃宣佈後錄得高峰值。

偷懶的老師與高效的學生

人工智能是如何成長為一位具有分析和洞察力的超級讀者的？
兩位作者為人工智能程序提供了大量文章和簡潔指令，讓它自行判斷這些文章中包含的信息是否足夠重要登上頭版。但就連他們都無法凖確得知，人工智能是如何習得判斷《人民日報》頭版文章的分析能力的。
「我們相當於給人工智能提供200萬個x與y的數據組，讓它自己想出兩者的關聯。」陳子健說。機器能夠分辨褒貶義的詞語，習得同義詞與反義詞，還能將文字內容轉變成數字信息，判斷每篇文章想要傳達的涵義。
人類研究員與人工智能程序的關係，就像是偷懶的老師與高效的學生。老師交給學生200萬道測驗題與答案，即200萬篇人民日報的報導及它們所在的版頁。老師只給出少數的指令，例如要從左往右閲讀、「共產黨」等為專有名詞詞組，在這看似複雜深奧的研究中，全部代碼不過3、4頁長。接下來的事情，就放手交給人工智能學生自行思考。學生每做完一道測試題，就去對答案，若發現錯誤，就說明情況發生了變化。
「一般的研究中，失敗的例子沒有價值，但這個研究卻正正是建立在失敗的基礎上，人工智能的錯誤顯示了輿論轉向，提示了政策變化。」陳子健說。
賓夕法尼亞大學傳播學博士候選人方可成長期關注中國官媒在數字媒體時代的宣傳手法，他認為，《人民日報》頭版受政府宣傳機關嚴格管理，相對於其他官媒及其他版塊來說，採編偏好等因素造成的噪音干擾較少，用機器學習的方法能夠得出相對有效的結果。
政治風險分析公司知險數據的聯合創始人封楚誠對BBC中文表示，量化研究手法在政治分析中的應用前景廣闊。「信息大爆炸的時代，人們肯定無法消化所有的資訊。大數據技術能在短時間內能攝取到大量的信息，還能將信息以標凖化方式，例如數字，來呈現。」同時他也指出，量化過程中難免會丟失信息，不過這些損失的信息價值小於機器濃縮、整合信息的附加價值。
圖片信息、領導人頭像大小、文章位置、字體大小等信息就無法收錄在這項研究中。人工智能也無法自動輸出，具體是哪些詞組或編排誤導了它、導致了較高的政策變動指數。兩位作者計劃繼續完善技術，另外將人工智能計算的頻率從每季度一次增加為每月一次，他們將把最新發現收錄在月度通訊中，與訂閲者分享。
「這項人工智能程序並不能完全取代人，而是希望能夠與研究人員互補。」陳子健說。就目前而言，「政策變動指數」還只能充當人類研究員的輔助工具。
在人工智能出錯、政策變動指數數值高時，人類研究員就能翻查人工智能判斷錯誤的《人民日報》文章，進而分析這些錯誤是由何種政策轉向引起的。
換句話說，人工智能在哪裏跌倒，人類智能就從哪裏介入。

from BBC中文網 https://www.bbc.com/zhongwen/trad/world-46297549

Info Aggregator

Pages

Thursday, 22 November 2018

人工智能，人民日報和習近平的中國：大數據時代的AI分析師從黨媒口舌讀懂中國

打造《人民日報》的超級讀者

人工智能讀到了什麼？

偷懶的老師與高效的學生