最近的熱門話題是 DeepSeek。可以先參考 Ben Thompson 的 DeepSeek FAQ。感謝 Jimmy Su 弄了一個繁體中文好讀版。
先講事實:
DeepSeek R1 是 MIT License,你自己下載跑起來,自己改,要怎麼用都可以
世界級的公司都對 DeepSeek R1 狂熱
Perplexity 已經自己整合。提供給用戶
Hugging Face 要弄 Open R1
Microsoft: DeepSeek R1 is now available on Azure AI Foundry and GitHub
AWS: DeepSeek-R1 models now available on AWS
(族繁不及列舉)
次要問題,很重要,但是不要拿來模糊焦點:
刻印在 DeepSeek R1 腦袋裡的中國意識
訓練資料集的合法性
完全不重要:
單次/總訓練成本多少(你有 USD$5M 可以拿來訓練模型嗎?請投資我。)
用什麼顯卡訓練,有沒有誇大(同上。)
訓練技術的領先程度,可不可靠(懂的人都覺得可靠。你從零開始訓練過幾個超過 32B 的大模型嗎?我一個都沒有。)
Benchmark 分數有沒有誇大(體感上它就接近 o1。你跟人講話時,會先問對方智力測驗幾分嗎?)
對我來說,什麼才重要?
簡單來說,DeepSeek R1 是第一個以 MIT 授權開放權重(open-weights)1,且推理能力可與 OpenAI o1 相媲美的模型。更棒的是,他們在論文中詳細記錄了訓練過程,讓任何人都能了解其運作方式。
如果你平時關注 AI 模型,應該聽過這些採用 MIT 授權的模型:
Databricks 的 Dolly (12B)
Nous Research 的 OpenHermes (13B)
Microsoft 的 Phi (14B)
DeepSeek R1 則提供了完整的模型組合,包括 1.5B、7B、8B、14B、32B、70B 和 671B。 想了解更多細節,可以直接閱讀他們的論文。
什麼是 OpenAI o1 模型?
OpenAI o1 是一款強化推理能力的 AI 模型,具備「思維鏈」(Chain of Thought)推理能力,能在回答前進行多步內部推理,以提升準確性。在數學、科學和程式設計領域表現卓越,例如在數學奧林匹亞模擬測試中,正確率達 83%(遠超 GPT-4o 的 13%),並在 Codeforces 競賽中名列全球前 5,000 名,超越 16 萬名真人開發者。
雖然 OpenAI o1 在特定領域的智力已超越人類,但仍缺乏意識、情感和主觀經驗,無法與人類智慧全面相比。
(由 ChatGPT-4o + Search 整理)
DeepSeek R1 的表現:
DeepSeek R1 的目標之一是達到或超越 OpenAI o1-1217 的性能,從結果來看,在某些任務上確實做到了。
DeepSeek R1 在數理能力(AIME 2024、MATH-500)略勝,程式撰寫能力(Codeforces、SWE-bench Verified)持平,知識(MMLU、GPQA Diamond、SimpleQA)則是 OpenAI o1 明顯較強。
DeepSeek-R1-Distill-Qwen-32B 在多項測試中表現接近 OpenAI o1-mini 的水準。
DeepSeek-R1-Zero 則首次公開證明,可以純粹透過強化學習(RL)而不依賴監督式微調(SFT),來提升語言模型的推理能力。該模型自然形成了多種強大的推理行為。
我實際測試了 OpenAI o1 和 DeepSeek R1 這兩個 AI 模型。根據研究報告,這些工具在解決數學問題和寫程式時,表現得跟博士生差不多厲害。講白點,它們比你現在能找到的初級工程師還要強。
重點是,現在只要一台 Mac Studio 或 MacBook Pro 就能跑 DeepSeek R1。它不用休息,不會喊累,只要電腦夠力就能一直工作。換句話說,你現在就可以在自己電腦上執行一個「智慧體」,讓它幫你工作。
提示詞(prompt)寫得好,AI 就會給你好結果。關鍵在於發揮創意,想出各種可能的應用場景。
什麼是智慧?
我的看法很簡單:智慧就是把理性判斷、感受、道德和經驗整合起來做決定的能力。
最近測試 OpenAI o1、Claude Sonnet 3.5、Gemini 2.0 和 DeepSeek R1 時,發現這些 AI 真的展現出了類似的特質。它們不只會處理數據,還能在複雜情況下做出合理判斷。有時候產出的結果,連我都想不到。
這對台灣來說,代表什麼?
簡單講,這就是一顆原子彈,是台灣幾十年難得一見的戰略機會。
為什麼這麼說?
如上所述,這是第一個完全開放權重、效能達到 OpenAI o1 水準的模型。在 AI 領域,就像是有人把原子彈的完整設計圖和製造方法公開了。而且還用 MIT License,你想怎麼用就怎麼用。
台灣過去訓練了一些大模型(Taiwan LLM、TAIDE、Breeze),讓一些團隊有了訓練經驗。但這些模型只解決了台灣繁體中文和文化的問題,結果反而把模型變笨了。根據我最近的觀察,模型的智慧要從 70B 才開始展現。
現在正是各大企業還沒完全布局的空窗期。如果你的公司能在這個月拿出一筆錢來做 fine-tuning,就有機會搶先一步。這種機會以後可能不會再有了。
很多人在擔心「中國意識」的問題,但這其實最好解決。我們完全可以重塑模型的價值觀。
有興趣的話,歡迎聯繫我談合作。這個黃金期過了,機會就不再了。
(2025/2/5 更新)
將「開源」改成「開放權重」,避免歧義。
開放權重(open weights):通常指的是機器學習或深度學習模型中的參數(即權重)被公開、免費地提供給社群使用和研究。具體來說,這意味著模型的權重數據(也就是經過訓練後的參數設定)沒有被保密,允許其他研究者、開發者或企業進行檢查、改進、再訓練或部署,從而促進技術的透明度和創新。
作為提案者,在尋求他人提供資源、投資與合作時,有義務預先說明計畫的可行性。提案中說道“我們完全可以重塑模型的價值觀”,有一些人在提案者的FB上對這件事的可行性公開表示懷疑,但未見提案人有具體正面回應。不知道提案人能否說明,目前有什麼證據,顯示有機會在具備經濟效益的前提下,有效達成該目的?有任何的相關論文或是類似技術成果可供參考嗎?如何完整檢驗價值觀是否被重塑?要重塑那些價值觀?還是說,此提案其實是一個具有風險的學術研究計畫,若是如此,提案者是不是應該說明已經具備相關學術研究能力,例如提出相關論文發表紀錄呢。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
提案者表示:「現在正是各大企業還沒完全布局的空窗期...有機會搶先一步」,提案者似乎不清楚國內外早就已經有許多企業布局了LLM,包括科技業、金融業、傳統產業等等,相關報導多不勝數,這些企業導入未來新型LLM的門檻低於其他競爭者,此提案如何搶先一步?提案者若要博取公眾信賴,是否應該要對於企業在LLM的應用現況以及導入成本有基本的說明呢?提案者提到我國已經有Taiwan LLM、TAIDE、Breeze等LLMs,這些模型由政府部門以及大型企業結合眾多資源與優秀研究人員所推出,但提案者表示,這些成果「把模型變笨了」,是否也應該說服公眾,自己有能力召集資源推出更好的模型。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
一個負責任的提案者有義務提出具有說服力的論述,並且正面回應主要問題,而非迴避問題,才能獲得公眾信賴與參與。如果提案者僅能依賴AI回應問題(無論是在意願上或能力上),而且提案者指示AI在回覆時預設立場(例如提案者對AI說的「請幫我嗆這個人講話沒有邏輯」),計畫的可行性與提案者的計畫執行能力如何能令人信服?
順帶一提,AI沒有以任何形式參與此提問,包含諮詢與潤飾等。或許提案者對於這件事有興趣,特此告知。
這樣的想法有些問題需要進一步討論。
"我們完全可以重塑模型的價值觀":這個目標有可行性的疑慮。模型的fine-tuning有其限制,目前在學術論文上還沒有明確可行的方法說明如何實現這個目標,又同時保持模型在多元任務上的推論能力,除非侷限在特定的垂直應用。要將價值觀重塑成為什麼也是一個大問題,什麼訓練資料才能重塑價值觀呢。雖然模型是開放權重,但其實根本無法完整盤點該模型內含了哪些價值觀需要被重塑,也無法有效率地選擇訓練資料去重塑模型。不過,如果模型在重塑之後無法維持多元任務的推論能力,價值觀變成什麼也不是太重要了。
"如果你的公司能在這個月拿出一筆錢來做 fine-tuning,就有機會搶先一步。這種機會以後可能不會再有了:這個論點"也有疑慮,因為各種LLM推陳出新的速度非常快,半年內,甚至三個月內,很有可能出現其他勝過DeepSeek、且不具中國價值觀的開放權重模型。也會有更有效率的模型訓練方式。屆時被"彎道超車"的機會非常大。