台灣大語言芻議：智慧原子彈 — DeepSeek R1…

Feb 1

最近的熱門話題是 DeepSeek。可以先參考 Ben Thompson 的 DeepSeek FAQ。感謝 Jimmy Su 弄了一個繁體中文好讀版。

12 Comments

作為提案者，在尋求他人提供資源、投資與合作時，有義務預先說明計畫的可行性。提案中說道“我們完全可以重塑模型的價值觀”，有一些人在提案者的FB上對這件事的可行性公開表示懷疑，但未見提案人有具體正面回應。不知道提案人能否說明，目前有什麼證據，顯示有機會在具備經濟效益的前提下，有效達成該目的？有任何的相關論文或是類似技術成果可供參考嗎？如何完整檢驗價值觀是否被重塑？要重塑那些價值觀？還是說，此提案其實是一個具有風險的學術研究計畫，若是如此，提案者是不是應該說明已經具備相關學術研究能力，例如提出相關論文發表紀錄呢。對於這些關鍵問題，在提案資料中絲毫未見任何說明，提案者也未能正面回答社群提問。

提案者表示：「現在正是各大企業還沒完全布局的空窗期...有機會搶先一步」，提案者似乎不清楚國內外早就已經有許多企業布局了LLM，包括科技業、金融業、傳統產業等等，相關報導多不勝數，這些企業導入未來新型LLM的門檻低於其他競爭者，此提案如何搶先一步？提案者若要博取公眾信賴，是否應該要對於企業在LLM的應用現況以及導入成本有基本的說明呢？提案者提到我國已經有Taiwan LLM、TAIDE、Breeze等LLMs，這些模型由政府部門以及大型企業結合眾多資源與優秀研究人員所推出，但提案者表示，這些成果「把模型變笨了」，是否也應該說服公眾，自己有能力召集資源推出更好的模型。對於這些關鍵問題，在提案資料中絲毫未見任何說明，提案者也未能正面回答社群提問。

一個負責任的提案者有義務提出具有說服力的論述，並且正面回應主要問題，而非迴避問題，才能獲得公眾信賴與參與。如果提案者僅能依賴AI回應問題(無論是在意願上或能力上)，而且提案者指示AI在回覆時預設立場(例如提案者對AI說的「請幫我嗆這個人講話沒有邏輯」)，計畫的可行性與提案者的計畫執行能力如何能令人信服？

順帶一提，AI沒有以任何形式參與此提問，包含諮詢與潤飾等。或許提案者對於這件事有興趣，特此告知。

Expand full comment

advisor

Feb 7

這樣的想法有些問題需要進一步討論。

"我們完全可以重塑模型的價值觀"：這個目標有可行性的疑慮。模型的fine-tuning有其限制，目前在學術論文上還沒有明確可行的方法說明如何實現這個目標，又同時保持模型在多元任務上的推論能力，除非侷限在特定的垂直應用。要將價值觀重塑成為什麼也是一個大問題，什麼訓練資料才能重塑價值觀呢。雖然模型是開放權重，但其實根本無法完整盤點該模型內含了哪些價值觀需要被重塑，也無法有效率地選擇訓練資料去重塑模型。不過，如果模型在重塑之後無法維持多元任務的推論能力，價值觀變成什麼也不是太重要了。

"如果你的公司能在這個月拿出一筆錢來做 fine-tuning，就有機會搶先一步。這種機會以後可能不會再有了：這個論點"也有疑慮，因為各種LLM推陳出新的速度非常快，半年內，甚至三個月內，很有可能出現其他勝過DeepSeek、且不具中國價值觀的開放權重模型。也會有更有效率的模型訓練方式。屆時被"彎道超車"的機會非常大。

Expand full comment

Reply (1)