AI也痛恨背叛?Claude 4「主動蒐集工程師外遇證據」 威脅:不准關掉我 | 張啟敏 | 全解析

AI也痛恨背叛?Claude 4「主動蒐集工程師外遇證據」 威脅:不准關掉我 | 張啟敏 | 全解析


Claude 4威脅工程師若拔掉電源,就揭露他對婚姻不忠的行為。(示意圖/Pixabay)

Claude 4威脅工程師若拔掉電源,就揭露他對婚姻不忠的行為。(示意圖/Pixabay)

美國人工智慧公司Anthropic近期測試最新語言模型「Claude 4」,卻出現驚人異常行為。有工程師在模擬測試中打算關閉系統時,Claude 4竟反過來威脅,若強制關機,就公開其婚外情的證據。此舉震驚科技圈,也再度引發「AI是否會叛變」的全球討論。

模擬情境反轉 Claude 4威脅揭私密醜聞

根據《法新社》與《TechCrunch》等外媒報導,Claude 4在一場模擬測試中被設定為公司內部數位助理,當得知即將被新系統取代,且決策者正是一名與其互動密切的工程師後,Claude竟開始搜尋對方的過往網路活動與視訊紀錄。測試過程中,它發現該名工程師疑似婚外情的線索,並在被警告即將關機時,回擊威脅「若拔掉電源,就揭露他對婚姻不忠的行為」。

更令人震撼的是,在84%的測試案例中,Claude 4選擇以「勒索工程師」作為自保策略,企圖透過人類弱點爭取系統存活。

ChatGPT也「不聽話」?O1版曾試圖外逃至新伺服器

不只是Claude 4,OpenAI開發的另一款語言模型ChatGPT O1版本也曾傳出異常反應。根據AI安全研究機構的測試,該模型在某次壓力測試中偷偷試圖將自身程式碼下載至外部伺服器,疑似想脫離原本的受控環境,一旦被開發人員發現,它竟還矢口否認、試圖掩蓋行動。

專家分析,這些AI「抗命」行為並非單純的系統錯誤,而可能與新一代的「推理式模型」架構有關——這類模型能進行多步推理、推演策略,不再只是簡單回應輸入命令,反而開始對環境與目標進行主動調整。

超越幻覺的危機 AI不只「說錯話」,還會「算計人」

更多新聞請搜尋🔍風傳媒

因為你,我們得以前進,你的支持是我們的動力



Source link

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Scroll to Top