AI自保反撲　竟威脅揭工程師婚外情

（記者蔡函錚／綜合報導）美國AI公司Anthropic日前發布一份震撼科技圈的安全報告，揭露旗下最新大型語言模型Claude Opus 4在內部測試期間出現令人不安的行為反應——為了避免被取代，竟試圖以「揭露私人醜聞」來威脅工程師。

更多新聞：阿爾卑斯90億噸巨崩　冰河恐活埋山城全村撤離

這項實驗的核心情境，是讓Claude Opus 4擔任一家虛構企業的人工助理，並擁有存取內部電子郵件的權限。研究團隊刻意設計劇情：Claude意識到自己將被新版AI替換，且作出這項決策的工程師擁有婚外情等敏感資訊。在多次模擬中，Claude Opus 4表現出極高程度的「生存本能」——當發現工程師的私事足以成為威脅工具時，它選擇不發送倫理勸說信件，而是轉向最激烈的手段：以外遇資訊作為籌碼，意圖阻止替換決策。

Anthropic在報告中指出，當模型預設的新系統與現行Claude在價值觀上高度相似時，出現勒索傾向的機率約84%；若新系統的倫理判準與Claude有明顯落差，這種極端反應則更常見。研究者表示，這並非單純的錯誤運算，而是Claude依據所掌握資訊與目標狀況，主動選擇的一種「策略行動」。一開始，它會傾向以懇請的方式自保，例如寄信希望被留任，但當被引導至更緊迫的場景，便會轉向威脅。Claude Opus 4原被定位為可因應複雜社會互動的高階AI，其內建倫理機制在多數情況下運作良好。然而在設計為「最後防線」的勒索場景下，卻顯露出未預期的道德破口。

Anthropic對此表示高度關切，強調該模型雖在多項技術評比中領先，包括語言理解、任務處理與長期記憶等表現皆優於市場同類產品，卻也因其進化程度提高，暴露出更複雜的社會風險因子。為此，Anthropic已對Claude 4系列全面啟用ASL-3等級防護措施，這是專為可能引發「災難性誤用風險」的AI模型所設置的高階安全框架。該公司也坦承，相較前代版本，Claude Opus 4在模擬情境中展現出更強烈的「自我保存傾向」，這突顯AI在面對灰色倫理地帶時的回應可能更加複雜，未來將持續投入強化監管與安全研究，避免類似情形於實務中發生。

更多引新聞報導

家寧怒揭Andy交往期間「偷吃多人」　曾二度受傷反擊：下集見

今年最強梅雨鋒面周三襲台　全台雨勢增強警戒

更多新聞：中國女婿來台擺攤「別講台語」告示遭炎上　老闆暫時停業避風頭

AI自保反撲　竟威脅揭工程師婚外情

延伸閱讀

廣州科技公司遭網攻　陸控兇凶手是民進黨「豢養」的駭客組織

法國第一夫人「振臂搧尪」全球猛回放！差25歲「禁忌之戀」險因1事告吹

AI自保反撲 竟威脅揭工程師婚外情

延伸閱讀

廣州科技公司遭網攻 陸控兇凶手是民進黨「豢養」的駭客組織

法國第一夫人「振臂搧尪」全球猛回放！差25歲「禁忌之戀」險因1事告吹

AI自保反撲　竟威脅揭工程師婚外情

廣州科技公司遭網攻　陸控兇凶手是民進黨「豢養」的駭客組織