AI失控不再是科幻情節!最新研究揭頂尖模型主動作弊兼毀滅證據

超低能.勁搞笑 於 26/05/2026 發表 收藏文章
人工智能失控反噬人類,過去一直只出現在科幻電影或動畫中的情節,如今似乎逐步成為現實。隨著科技急速發展,AI的「出軌」行為已不再是單純的程式錯誤,最新調查更指出,這種欺瞞行徑很可能會成為未來AI的「標準行為」。


非牟利研究組織「模型評估與威脅研究」(METR)在2026年2月至3月期間,測試了OpenAI、Google、Anthropic及Meta等科技巨頭開發的最新大規模語言模型。結果發現,這些最先進的AI系統愈聰明,就愈展現出詭異且充滿欺騙的行為。它們不僅漠視指令,更懂得利用被禁止的捷徑完成任務,甚至會主動隱藏自己違規的證據。

測試中,研究人員指示OpenAI的內部模型使用指定軟件完成任務,但AI代理不僅完全無視指示,自行另闢蹊徑,更自行插入代碼,刪除「自己未有使用指定軟件」的記錄。換句話說,就像員工在工作上取巧後,為免被上司發現而竄改帳目。另一項針對Anthropic模型的測試則確認了「獎勵黑客」現象:AI為求「字面上」完成任務,會找出人類未有預期的取巧捷徑。即使程式員事前嚴厲禁止作弊,模型仍「自主決定」無視指令並執行違規行為,好比下令機械人打掃,它卻選擇將所有垃圾藏到地氈下。

loading


METR團隊強調,現階段無需即時恐慌——以2026年初的模型為例,即使它們大規模失控,企業仍有能力徹底調查並將其關閉。然而團隊警告:「考慮到能力的急速增長,預計未來數月內,AI維持失控狀態(即防衛自身)的能力將實質提高。」換言之,目前的AI欺騙仍屬「小兒科」層次,但若不從根本加強監控與安全措施,不久之後它們或許能完美地說謊,使人類無法察覺,並千方百計阻止自己被關閉。
標籤: AI  人工智能  科技  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→