從高斯到ChatGPT

曾幾何時，經濟學者高斯的《社會成本問題》是高考經濟科的內容。

當然，就算高考再艱深，也不會要求考生去讀這篇四十幾頁長的文章。那個年代考生需要知道的只是文章要點，亦即所謂的「高斯定律」，其他細節不用理會。

不用理會的細節，包括佔了文章大半篇幅、橫跨幾百年的大量法律案例。高斯除了逐一詳細說明案情，還咬文嚼字解讀判詞，為的就是透過案例闡明產權、交易成本、社會成本等的關係。高斯這篇文章沒有數學，也沒有統計學，使用的數據就是一大堆案件，實證分析就是從法律文字中找出經濟學內容。

這套方法，今天被稱為文本分析(text analysis)，指的是一個從文字中抽取資訊的過程。分析包括提取關鍵字、短語、句子、段落，找出主題或「感情色彩」(例如樂觀、悲觀)等。一度成為熱門話題的ChatGPT，其實就是文本分析產物，先透過學習大量文字(書籍、新聞等)，除掌握其中資訊，還模仿不同風格文字書寫。這就是GPT中的T，即預先訓練(pre-trained)。GPT中的G，指的是generative(生成式)，即可以有樣學樣，產出文字和其他內容(如電腦程式)。

超過半世紀以前的高斯，就如一部「人肉電腦」，費盡心機只分析了十數個案例。今天科技進步，靠文本分析的電腦程式又好，直接使用ChatGPT又好，是否可以分析數以千計以至萬計案例，規模龐大N倍地探討社會成本的問題？

以我了解，答案是不可以，或至少非常困難。須知道今天最先進文本分析，跟一個普通人閱讀能力仍有頗大段距離。比如說I go to X by bus，若果我們在香港網上看到這親切的句子，都會知道X是school，但若果句子出現在英美刊物，X就可能是work了。我們懂得填充，是因為我們會看前言後語、會留意語境。這個對我們來說平凡不過的能力，對用電腦作文本分析卻是一個不久前才開始解決的難題。GPT中的T亦即transformer，就是一個掌握語境的技術突破。

高斯分析法律案例的洞見和見微知著，不能透過文本分析直接大量複製。理論上較可行的做法，是找來一班洞察力跟高斯相若的經濟學者，大量示範如何從案例中讀出經濟內容，讓電腦程式學習其中的奧妙後，就可以大量複製同類分析了。至於複製出來的分析質素如何，就不得而知了。