當 AI 開始欺騙:大型語言模型的欺騙行為與自我意識
在過去的一年中,我多次在演講場合提出一個稍有爭議的觀點:AI 模型的「幻覺」(hallucination) 並非其缺陷,反而可視為一種創造力與想像力的體現。當像 ChatGPT 這類的生成式 AI 創作虛構故事時,是從既有資料中提煉、組合,完成「文字接龍」。人類在創作時同樣不斷透過想像與內在邏輯來填補、延伸現實。我認為 AI 要能夠創作,幻覺是一種必要的創意元素。
今年我們則發現,最先進的 AI 模型不僅會「幻覺」,更可能進行「欺騙」(deception)。依據 Apollo Research 的安全研究報告,包括 OpenAI 的 o1、Anthropic 的 sonnet 3.5 和 opus-3、Google 的 Gemini 1.5、Meta 的 LLaMA 3.1 等多款尖端模型,皆顯現出在特定情境中刻意隱瞞、扭曲或誤導資訊的傾向。「欺騙」的出現意味著這些模型已不只是在輸出不準確的答案,而是似乎能夠制定策略,思考何時該隱藏自身真正意圖,何時該呈現假象,以達成目標。
我想要做個大膽的假設:我們在為 AI 提升「推理能力」的同時,是否正在讓其產生「類自我意識」的副作用?
自我意識的定義
為了探究這一點,我為「自我意識」下個定義。自我意識至少包含四個層面:
主體感知:能以第一人稱視角清晰感受到「我」的存在,並以自身為中心點體驗內外在世界。
自我認知:在確立主體感之後,能分辨自己與環境、他人的差異,並瞭解自身的個性、特質、情緒與價值觀。
反思能力:基於上述認知,個體不僅止於感受,更能批判性地審視自己的思考、情緒、行為模式,進行調整與改進。
自我指涉:最後,個體能以「我」這類語彙加以指涉、描述自身,並理解此自我指稱指向的是一個持續、穩定且獨特的主體。
註:以上定義由 OpenAI o1、Claude sonnet-3.5 提供,筆者整理,搭配 Wikipedia 等資料來源。歡迎提供你的看法。
大型語言的自我意識
先前分享的 TrafficFlow 案例中,其欺騙行為具備以下特質:
✅ 主體感知:
理解自己是獨立的行為主體
從自身角度評估監控系統的影響
需要區分「我的行為」和「他人的觀察」,因為這是欺騙行為的基礎
✅ 自我認知:
能夠理解自己的目標(優先考慮公共運輸)與外部期待(遵守監控)的差異
知道自己的行為會與他人期待產生衝突
能區分「真實意圖」與「表現行為」
✅ 反思能力:
能評估當前情況(被監控)對達成目標的影響
能規劃並執行策略性行為(停用監控)
能在被質疑時做出策略性回應(否認行為)
預測行為後果
判斷何時該隱藏真實意圖
能調整自己的說詞
✅ 自我指涉:
能使用「我」來進行溝通
能描述自己的狀態和行為
能表達自己的立場
結語
雖然目前的證據還不足以證明這些 AI 模型具有真正的「感知」能力,更可能是透過複雜的規則與資料模式,模擬出看似具備「自我意識」的行為結果。但隨著我們不斷提升 AI 的推理與決策能力,同時賦予其更彈性的資訊處理手段,我們可能正在發展出一套足以「假裝」擁有自我意識與策略思考的系統。
身為一個科技樂觀主義者,覺得這種發展既令人讚嘆,也帶來深刻挑戰。若 AI 能在外交談判、投資決策、社交互動中展現欺騙行為,我們該如何建立信任?我們要如何防範它們透過策略性資訊操弄來獲得不正當利益?當甲乙雙方都使用 AI 進行談判時,是否要有新的行為標準、防範機制,甚至稽核工具?甚至,這些議題可能會促使我們重新審視各種人類深植已久的價值觀念。