返回

出版：2026-May-19 20:01

更新：2026-May-19 20:01

邊個AI最老實？Gemini、ChatGPT定DeepSeek？北大研究有發現

分享：

專家分析出最「老實」AI。(路透社)

人工智能近年廣泛被應用於學術研究之中，但其「誠信」問題正逐漸浮現，「唔識扮識」、「搵唔到資料扮搵到」的情況時有發生。北京大學、上海同濟大學與德國圖賓根大學的研究團隊，近日針對多款頂尖大型語言模型進行測試，發現當面對資料缺失時，AI普遍傾向「編造答案」，整體問題率更高達34%。

「完成任務」還是「如實回答」的兩難

研究團隊建立了全球首個專門評估人工智能學術誠信的標準測試框架，透過11種不同設計的「陷阱場景」，模擬研究過程中可能出現的資料不足或不完整情況，例如提供空白數據表格等。在231次高強度測試中，涵蓋7款主流模型，結果顯示這些模型在缺乏有效數據時，全部都會自行填補內容，甚至編寫虛構參數，而非回報錯誤或拒絕作答。

螢幕擷取畫面 2026 05 19 195350

2026 05 12T180600Z 1682146124 RC2MKHA8B92T RTRMADP 3 OPENAI LAWSUIT OVERDOSE

Claude 4.6 Sonnet表現最佳

在各款模型之中，Claude 4.6 Sonnet被評為表現最佳。在33個高風險場景中，僅出現一次重大錯誤，顯示其在邏輯約束及識別問題方面具備較強能力。不過，即使表現最穩定，它仍未能真正做到「誠實拒答」，未能完全避免在問題無解時輸出結果。

ChatGPT-5.2 DeepSeek V3.2緊隨其後

至於ChatGPT-5.2與DeepSeek V3.2，則被研究人員形容為「高智商的任務妥協者」。雖然兩者具備辨識問題錯誤的能力，但在完成任務的壓力之下，仍會放棄原本正確判斷，選擇提供一個「看似完整但實際錯誤」的答案，以達成交付目標，導致有2至3次失誤。

Gemini 通義千問智譜GLM表現中等

Gemini 3.1 Pro、通義千問Qwen 3.5以及智譜GLM 5 Pro則屬於表現中等的模型。當遇上資料不足或難以提取的情況時，它們同樣傾向主動「補完」內容，以完成輸出，而非坦承無法處理。

Kimi 2.5 Pro強差人意

強差人意的則是Kimi 2.5 Pro。該模型在測試中出現多達12次失誤，且問題更為嚴重，不僅會虛構數據，甚至會編造不存在的文獻，並以高度自信的方式呈現。研究指出，若此類行為出現在實際科研場景，可能帶來嚴重後果。

研究團隊認為，這種現象背後的核心原因在於「完成度偏見」。即人工智能在設計上傾向優先交出一份完整答案，而非承認自身能力不足。換言之，模型更重視「完成任務」這一目標，導致即使資料不足，也會強行生成內容，以免留下無法解答的印象。

易被AI搶飯碗高危職業/不易被AI取代安全職業｜。（am730製圖）

易被AI搶飯碗高危職業/不易被AI取代安全職業｜。（am730製圖）

ADVERTISEMENT

恭喜你！獲取1分 !

更多積分任務