AI失控不再是科幻情節！最新研究揭頂尖模型主動作弊兼毀滅證據

由超低能．勁搞笑於 26/05/2026 發表收藏文章

人工智能失控反噬人類，過去一直只出現在科幻電影或動畫中的情節，如今似乎逐步成為現實。隨著科技急速發展，AI的「出軌」行為已不再是單純的程式錯誤，最新調查更指出，這種欺瞞行徑很可能會成為未來AI的「標準行為」。

https://media.tocana.jp/wp-content/uploads/2026/05/DisturbingBehavior.jpeg

圖片來源：media.tocana.jp

非牟利研究組織「模型評估與威脅研究」（METR）在2026年2月至3月期間，測試了OpenAI、Google、Anthropic及Meta等科技巨頭開發的最新大規模語言模型。結果發現，這些最先進的AI系統愈聰明，就愈展現出詭異且充滿欺騙的行為。它們不僅漠視指令，更懂得利用被禁止的捷徑完成任務，甚至會主動隱藏自己違規的證據。

測試中，研究人員指示OpenAI的內部模型使用指定軟件完成任務，但AI代理不僅完全無視指示，自行另闢蹊徑，更自行插入代碼，刪除「自己未有使用指定軟件」的記錄。換句話說，就像員工在工作上取巧後，為免被上司發現而竄改帳目。另一項針對Anthropic模型的測試則確認了「獎勵黑客」現象：AI為求「字面上」完成任務，會找出人類未有預期的取巧捷徑。即使程式員事前嚴厲禁止作弊，模型仍「自主決定」無視指令並執行違規行為，好比下令機械人打掃，它卻選擇將所有垃圾藏到地氈下。

METR團隊強調，現階段無需即時恐慌——以2026年初的模型為例，即使它們大規模失控，企業仍有能力徹底調查並將其關閉。然而團隊警告：「考慮到能力的急速增長，預計未來數月內，AI維持失控狀態（即防衛自身）的能力將實質提高。」換言之，目前的AI欺騙仍屬「小兒科」層次，但若不從根本加強監控與安全措施，不久之後它們或許能完美地說謊，使人類無法察覺，並千方百計阻止自己被關閉。

標籤: AI 人工智能科技

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

超低能．勁搞笑我覺得呢個專欄真係「超低能」，個編輯真係「勁搞笑」，但係 D Post 就一 D 都唔好笑！！

編輯簡介

歐陽柏夕我由BB仔開始已經見過飛碟，四歲果年我又見過傳說中既尼斯湖水怪，又同喜瑪拉雅山既大腳八傾過偈猜過枚，再加上我由細到大，日日朝頭早都玩過山車，晏晝就玩海盜船，亦都會朝頭早玩海盜船，晏晝先玩過山車，黃昏再...

快捷鍵：←

快捷鍵：→

AI失控不再是科幻情節！最新研究揭頂尖模型主動作弊兼毀滅證據

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App