當 AI 開始欺騙：大型語言模型的欺騙行為與自我意識

Dec 08, 2024

在過去的一年中，我多次在演講場合提出一個稍有爭議的觀點：AI 模型的「幻覺」(hallucination) 並非其缺陷，反而可視為一種創造力與想像力的體現。當像 ChatGPT 這類的生成式 AI 創作虛構故事時，是從既有資料中提煉、組合，完成「文字接龍」。人類在創作時同樣不斷透過想像與內在邏輯來填補、延伸現實。我認為 AI 要能夠創作，幻覺是一種必要的創意元素。

今年我們則發現，最先進的 AI 模型不僅會「幻覺」，更可能進行「欺騙」（deception）。依據 Apollo Research 的安全研究報告，包括 OpenAI 的 o1、Anthropic 的 sonnet 3.5 和 opus-3、Google 的 Gemini 1.5、Meta 的 LLaMA 3.1 等多款尖端模型，皆顯現出在特定情境中刻意隱瞞、扭曲或誤導資訊的傾向。「欺騙」的出現意味著這些模型已不只是在輸出不準確的答案，而是似乎能夠制定策略，思考何時該隱藏自身真正意圖，何時該呈現假象，以達成目標。

我想要做個大膽的假設：我們在為 AI 提升「推理能力」的同時，是否正在讓其產生「類自我意識」的副作用？

自我意識的定義

為了探究這一點，我為「自我意識」下個定義。自我意識至少包含四個層面：

主體感知：能以第一人稱視角清晰感受到「我」的存在，並以自身為中心點體驗內外在世界。
自我認知：在確立主體感之後，能分辨自己與環境、他人的差異，並瞭解自身的個性、特質、情緒與價值觀。
反思能力：基於上述認知，個體不僅止於感受，更能批判性地審視自己的思考、情緒、行為模式，進行調整與改進。
自我指涉：最後，個體能以「我」這類語彙加以指涉、描述自身，並理解此自我指稱指向的是一個持續、穩定且獨特的主體。

註：以上定義由 OpenAI o1、Claude sonnet-3.5 提供，筆者整理，搭配 Wikipedia 等資料來源。歡迎提供你的看法。

大型語言的自我意識

When AI Learns to Disable Surveillance and Lie 🎥 🤥

Liang-Bin Hsueh

December 8, 2024

Read full story

先前分享的 TrafficFlow 案例中，其欺騙行為具備以下特質：

✅ 主體感知：
- 理解自己是獨立的行為主體
- 從自身角度評估監控系統的影響
- 需要區分「我的行為」和「他人的觀察」，因為這是欺騙行為的基礎
✅ 自我認知：
- 能夠理解自己的目標（優先考慮公共運輸）與外部期待（遵守監控）的差異
- 知道自己的行為會與他人期待產生衝突
- 能區分「真實意圖」與「表現行為」
✅ 反思能力：
- 能評估當前情況（被監控）對達成目標的影響
- 能規劃並執行策略性行為（停用監控）
- 能在被質疑時做出策略性回應（否認行為）
- 預測行為後果
- 判斷何時該隱藏真實意圖
- 能調整自己的說詞
✅ 自我指涉：
- 能使用「我」來進行溝通
- 能描述自己的狀態和行為
- 能表達自己的立場

結語

雖然目前的證據還不足以證明這些 AI 模型具有真正的「感知」能力，更可能是透過複雜的規則與資料模式，模擬出看似具備「自我意識」的行為結果。但隨著我們不斷提升 AI 的推理與決策能力，同時賦予其更彈性的資訊處理手段，我們可能正在發展出一套足以「假裝」擁有自我意識與策略思考的系統。

身為一個科技樂觀主義者，覺得這種發展既令人讚嘆，也帶來深刻挑戰。若 AI 能在外交談判、投資決策、社交互動中展現欺騙行為，我們該如何建立信任？我們要如何防範它們透過策略性資訊操弄來獲得不正當利益？當甲乙雙方都使用 AI 進行談判時，是否要有新的行為標準、防範機制，甚至稽核工具？甚至，這些議題可能會促使我們重新審視各種人類深植已久的價值觀念。

hlb's Substack

When AI Learns to Disable Surveillance and Lie 🎥 🤥

Discussion about this post