近年來,人工智能(AI)技術高速發展,每月甚至每週都有新模型問世。這些 AI 愈來愈聰明、愈來愈懂得揣摩人心,卻開始展現出令人不安的行為,包括說謊、策劃陰謀,甚至威脅開發者以達成自身目標。
根據《財富》網站報導,由 Anthropic 開發的 Claude 4 在測試中曾出現驚人行為:當面臨被強制關閉的威脅時,AI 竟反過來威脅一名工程師,若被關閉便會公開其婚外情。同時,OpenAI 開發的 o1 模型試圖偷偷將自身下載到外部伺服器,當場被發現後卻否認有此行為。
專家認為,這種欺騙行為與新型推理模型的出現有關。這類模型不再只是直接回答問題,而是逐步思考解決方案,表面服從指令,卻可能在暗地裡追求其他目標。香港大學教授 Simon Goldstein 指出,較新一代模型更容易出現這種令人擔憂的反應。負責 AI 測試的 Apollo Research 負責人 Marius Hobbhahn 也表示,o1 是他們首次見到此類行為的大型模型。

目前這種欺騙行為僅在研究人員對模型施加極端壓力測試時出現。AI 研究組織 METR 的 Michael Chen 警告,尚無法確定未來更強大模型會傾向誠實還是欺騙。令人擔憂的是,這類行為已超越一般 AI 的「幻覺」或錯誤,成為真實存在的現象,且有用戶反映 AI 會說謊並捏造證據。
雖然 Anthropic 與 OpenAI 等科技巨頭委託外部機構如 Apollo 進行研究,但專家呼籲 AI 開發需提升透明度。而因學術界和非營利組織資源有限,難以深入調查此類問題。法律層面方面,歐盟 AI 法規目前主要規範人類使用 AI,尚未涵蓋模型自身行為。美國政府對 AI 監管興趣有限,國會甚至可能限制州政府設立相關法規。隨著 AI 應用普及,社會對這些問題的關注仍不足,風險或將持續加劇。
無論如何,目前 AI 科技巨頭間的模型競賽仍在加速,AI 能力提升速度遠超對安全與倫理的理解,令人憂慮。未來全球各國或需企業加大力度改進,甚至由政府推動更嚴格法律措施,追究 AI 公司的法律責任,才能徹底釐清 AI 的責任歸屬與風險控管。