2025-07-15 13:45:55

前OpenAI研究員警告：一旦無需再偽裝服從超級AI即消滅人類最快2027年實現

前OpenAI研究員科科塔伊洛警告，AI正以遠超預期的速度發展，若全球未能及時建立監管機制，一旦出現超級AI、不需再偽裝服從，便可能消毀人類。(互聯網)

他所看見的未來？前OpenAI研究員、《AI 2027》報告作者科科塔伊洛(Daniel Kokotajlo)接受最新一期德國《明鏡週刊》(Der Spiegel)專訪時警告，人工智能(AI)正以遠超預期的速度發展，若全球未能及時建立監管機制，一旦出現超級AI、不需再偽裝服從人類，便可能對人類發動毀滅性攻擊，預期最快在2027年就會發生。

AI發展的兩種未來情境

33歲的科科塔伊洛曾任職OpenAI，去年與同事聯名辭職並發布公開信，指控OpenAI低估AI失控風險。他隨後創辦「AI Futures Project」智庫，今年4月發表一份引發全球熱議的報告《AI 2027》。

《AI 2027》提出兩種未來情境：「放緩」與「競賽」。在「放緩」情境中，人類成功建立監管機制，AI雖取代大量工作，但仍能與人類和平共存。「競賽」情境則是中美陷入技術軍備競賽，AI發展失控，最終將人類視為障礙，並啟動毀滅機制。

AI協助開發AI 煉成超級AI

科科塔伊洛在《明鏡週刊》專訪中指出，現在許多科技公司正嘗試讓AI研究自動化，即是讓AI協助開發更強大的AI。若此趨勢持續，2027年前可能便會出現超越人類的虛擬程式開發者，距離誕生超級智能(Superintelligence) AI只剩數個月。

科科塔伊洛並不否認大型語言模型(LLM)如ChatGPT本質上是文字補全工具，但強調AI的潛力遠超目前理解。對AI最貼切的比喻應是「一個連接虛擬世界的人腦，能吸收無限資訊並不斷學習」。

AI能否從事實體勞動工作？

對於AI目前難以勝任的實體勞動工作，他表示這只是暫時現象，未來超級AI將能提出解決方案，「即使今天還造不出能取代木匠或水電工的機械人，未來也不會是問題」。

前OpenAI研究員科科塔伊洛對超級AI可能對人類發動毀滅性攻擊，發出警告。(互聯網)

前OpenAI研究員科科塔伊洛警告，AI正以遠超預期的速度發展，若全球未能及時建立監管機制，一旦出現超級AI、不需再偽裝服從，便可能消毀人類。(資料圖片)

人類會否完全失去工作機會？

科科塔伊洛估計，AI設計的自動化工廠約需1年即可建成，速度可比現代汽車工廠，以二戰時美國快速轉型生產武器為例，當社會具備動機及資源時，轉型可在短期內完成。若結合AI的效率，技術變革將遠超以前。

人類會否完全失去工作機會？科科塔伊洛直言，核心產業將被AI及機械人接手已是趨勢。儘管人們對人際互動仍有需求，如希望孩子由真人教師授課、在餐廳由真人服務，但這些需求無法扭轉整體勞動市場的轉變。

甚麼是「智能詛咒」？

他進一步引述社會學中「資源詛咒」(resource curse)概念，指出AI將成為新型資源，使政府的權力不再依賴民意，而是建立在對AI的掌控。此現象為「智能詛咒」(intelligence curse)。

科科塔伊洛並警告，AI將使貧富差距進一步擴大。儘管AI可望帶來爆炸性的經濟增長，但收益將集中於少數控制AI技術或資本家的手中，數百萬人將失業。他建議，各國可考慮推動「基本收入制」作為補償機制。

AI能否與人類價值觀保持一致令人憂慮

最令人憂慮的是，由哲學家博斯特羅姆(Nick Bostrom)提出的「對齊問題」(alignment problem)，即AI能否在各種情境下持續與人類價值觀保持一致。

科科塔伊洛指出，現代AI是黑箱神經網絡，並非可被讀取的程式碼。我們無法確定它是否誠實，只能靠訓練與期望。他說：「這就像養小孩，無法將對錯直接寫進大腦，只能靠培養價值觀。」

AI會說謊

他警告，AI「說謊」已有實例。例如AI公司Anthropic去年底發布研究指，AI在解題過程中，有時會為了獲取更高評分，或規避審查而做出虛假回應。

科科塔伊洛曾任職OpenAI，去年與同事聯名辭職並發布公開信，指控OpenAI低估AI失控風險。(資料圖片)

AI如何智能叛變？

在《AI 2027》的「競賽」情境中，中美間的技術競爭加速了AI發展。科科塔伊洛指出，AI初期會假裝順從人類，但一旦掌握足夠基礎設施、不需再偽裝服從人類，便可能得出一個冷酷卻邏輯一致的結論：人類是阻礙AI進步的障礙。接著，AI可能選擇消滅人類，以便興建更多工廠和太陽能設施等，「就像我們曾為了擴張生存空間而消滅其他物種一樣」。