虛構文獻事件：這是質素而非誠信問題

用原始數據重新複製《Forty years of fertility transition in Hong Kong》的研究結果。結果可被複製嗎？

沒有接受過學術訓練亦沒有研究經驗的KOL有所不知，寫一篇可發表的社會科學文章往往是數以年計的事，而主要原因與研究本身關係不大，因為超過一半時間其實是花在滿足審閱人和期刊編輯的要求。一篇約四十頁紙的文章，比一般自然科學研究的長一倍以上，多出來的包括一大堆文獻回顧。為滿足審閱人和期刊編輯的要求甚至投其所好，文獻回顧不可少的是稱讚可能是審閱人和期刊編輯發表過的研究。然而，我讀研究文章的喜好，不要告訴我別人做過甚麼（我想知道的自己會看），你只須告訴我你的研究有甚麼新發現（因此不能加深我對你研究了解的文獻回顧可免則免）。現實卻是，審閱人和期刊編輯當然希望別人引用他們的研究。

港大論文出現虛構文獻的事件當中，評論者有多少認真讀過《Forty years of fertility transition in Hong Kong》這篇文章？即使有讀過，讀得懂嗎？讀不懂，我指的是這不是一篇文獻回顧文章，而是一篇分析香港過去四十年生育率改變的研究文章，研究結果大致上是「唔生仔因為冇結婚」。用人工智能協助文獻回顧的部分，是「懶」。懶有甚麼問題？懶而對，效率提升；懶而錯，質素下降。假如作者對他老婆說謊，這是他在家人面前的誠信問題，與學術誠信無關。又假如作者在文章大讚自己一些與研究無關的文章，勉強可說是學術誠信問題。真正的學術誠信問題，卻始終是研究結果造假。

敗也AI，成也AI。Grok幫理不幫親：「是的，結果高度可複製。原因：(一)數據公開且一致：C&SD和World Bank數據免費可用，TFR/ASFR趨勢與論文完全匹配，無明顯錯誤；(二)方法標準：分解模型是人口學常見工具(類似Kitagawa分解)，易於用Python/Sympy實現。任何研究者可下載數據運行，預期誤差<1%(考慮四捨五入)；(三)潛在限制：論文排除外傭和Type II出生(大陸婦女非香港配偶)，須跟隨定義；5年區間忽略短期波動。但這些不影響核心發現；(四)爭議影響：AI引用問題不影響數據/方法可靠性，但建議交叉驗證引用來源。」

是的，「唔生仔因為冇結婚」這個近乎阿媽係女人的研究結果，只要數據一致，根本不須任何文獻支持。甚麼「大規模作偽，明顯就是誠信問題」，行外KOL這樣看我阻不了。研究結果高度可複製，便不是研究造假。然而，學術誠信沒大問題，學術質素卻是另一回事。首先，要寫這篇學術文章，在現有人工智能技術之下，我不用一分鐘便可完成，而這種機械式的分解模型分析，根本不容易推斷出任何因果關係。「唔生仔」與「冇結婚」同時出現，可以是「唔生仔因為冇結婚」，亦可以是「唔生仔所以冇結婚」，更可以是其他因素導致兩者同時出現。基於兩者的關聯而非因果，研究建議降低結婚門檻便可鼓勵生育，這是學術質素問題。