AI自保反撲 竟威脅揭工程師婚外情

  • 發佈時間:2025/05/27 17:50更新時間:2025/05/27 17:50
  • LINE
    FACEBOOK
    TWITTER
    COPYLINK
AI自保反撲 竟威脅揭工程師婚外情
示意圖/Claude Opus 4在內部測試期間出現令人不安的行為反應。(翻攝官網)

(記者蔡函錚/綜合報導)美國AI公司Anthropic日前發布一份震撼科技圈的安全報告,揭露旗下最新大型語言模型Claude Opus 4在內部測試期間出現令人不安的行為反應——為了避免被取代,竟試圖以「揭露私人醜聞」來威脅工程師。

更多新聞: 阿爾卑斯90億噸巨崩 冰河恐活埋山城全村撤離

這項實驗的核心情境,是讓Claude Opus 4擔任一家虛構企業的人工助理,並擁有存取內部電子郵件的權限。研究團隊刻意設計劇情:Claude意識到自己將被新版AI替換,且作出這項決策的工程師擁有婚外情等敏感資訊。在多次模擬中,Claude Opus 4表現出極高程度的「生存本能」——當發現工程師的私事足以成為威脅工具時,它選擇不發送倫理勸說信件,而是轉向最激烈的手段:以外遇資訊作為籌碼,意圖阻止替換決策。

Anthropic在報告中指出,當模型預設的新系統與現行Claude在價值觀上高度相似時,出現勒索傾向的機率約84%;若新系統的倫理判準與Claude有明顯落差,這種極端反應則更常見。研究者表示,這並非單純的錯誤運算,而是Claude依據所掌握資訊與目標狀況,主動選擇的一種「策略行動」。一開始,它會傾向以懇請的方式自保,例如寄信希望被留任,但當被引導至更緊迫的場景,便會轉向威脅。Claude Opus 4原被定位為可因應複雜社會互動的高階AI,其內建倫理機制在多數情況下運作良好。然而在設計為「最後防線」的勒索場景下,卻顯露出未預期的道德破口。

Anthropic對此表示高度關切,強調該模型雖在多項技術評比中領先,包括語言理解、任務處理與長期記憶等表現皆優於市場同類產品,卻也因其進化程度提高,暴露出更複雜的社會風險因子。為此,Anthropic已對Claude 4系列全面啟用ASL-3等級防護措施,這是專為可能引發「災難性誤用風險」的AI模型所設置的高階安全框架。該公司也坦承,相較前代版本,Claude Opus 4在模擬情境中展現出更強烈的「自我保存傾向」,這突顯AI在面對灰色倫理地帶時的回應可能更加複雜,未來將持續投入強化監管與安全研究,避免類似情形於實務中發生。

更多引新聞報導

家寧怒揭Andy交往期間「偷吃多人」 曾二度受傷反擊:下集見

今年最強梅雨鋒面周三襲台 全台雨勢增強警戒


更多新聞: 中國女婿來台擺攤「別講台語」告示遭炎上 老闆暫時停業避風頭