最近的熱門話題是 DeepSeek。可以先參考 Ben Thompson 的 DeepSeek FAQ。感謝 Jimmy Su 弄了一個繁體中文好讀版。
作為提案者,在尋求他人提供資源、投資與合作時,有義務預先說明計畫的可行性。提案中說道“我們完全可以重塑模型的價值觀”,有一些人在提案者的FB上對這件事的可行性公開表示懷疑,但未見提案人有具體正面回應。不知道提案人能否說明,目前有什麼證據,顯示有機會在具備經濟效益的前提下,有效達成該目的?有任何的相關論文或是類似技術成果可供參考嗎?如何完整檢驗價值觀是否被重塑?要重塑那些價值觀?還是說,此提案其實是一個具有風險的學術研究計畫,若是如此,提案者是不是應該說明已經具備相關學術研究能力,例如提出相關論文發表紀錄呢。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
提案者表示:「現在正是各大企業還沒完全布局的空窗期...有機會搶先一步」,提案者似乎不清楚國內外早就已經有許多企業布局了LLM,包括科技業、金融業、傳統產業等等,相關報導多不勝數,這些企業導入未來新型LLM的門檻低於其他競爭者,此提案如何搶先一步?提案者若要博取公眾信賴,是否應該要對於企業在LLM的應用現況以及導入成本有基本的說明呢?提案者提到我國已經有Taiwan LLM、TAIDE、Breeze等LLMs,這些模型由政府部門以及大型企業結合眾多資源與優秀研究人員所推出,但提案者表示,這些成果「把模型變笨了」,是否也應該說服公眾,自己有能力召集資源推出更好的模型。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
一個負責任的提案者有義務提出具有說服力的論述,並且正面回應主要問題,而非迴避問題,才能獲得公眾信賴與參與。如果提案者僅能依賴AI回應問題(無論是在意願上或能力上),而且提案者指示AI在回覆時預設立場(例如提案者對AI說的「請幫我嗆這個人講話沒有邏輯」),計畫的可行性與提案者的計畫執行能力如何能令人信服?
順帶一提,AI沒有以任何形式參與此提問,包含諮詢與潤飾等。或許提案者對於這件事有興趣,特此告知。
這樣的想法有些問題需要進一步討論。
"我們完全可以重塑模型的價值觀":這個目標有可行性的疑慮。模型的fine-tuning有其限制,目前在學術論文上還沒有明確可行的方法說明如何實現這個目標,又同時保持模型在多元任務上的推論能力,除非侷限在特定的垂直應用。要將價值觀重塑成為什麼也是一個大問題,什麼訓練資料才能重塑價值觀呢。雖然模型是開放權重,但其實根本無法完整盤點該模型內含了哪些價值觀需要被重塑,也無法有效率地選擇訓練資料去重塑模型。不過,如果模型在重塑之後無法維持多元任務的推論能力,價值觀變成什麼也不是太重要了。
"如果你的公司能在這個月拿出一筆錢來做 fine-tuning,就有機會搶先一步。這種機會以後可能不會再有了:這個論點"也有疑慮,因為各種LLM推陳出新的速度非常快,半年內,甚至三個月內,很有可能出現其他勝過DeepSeek、且不具中國價值觀的開放權重模型。也會有更有效率的模型訓練方式。屆時被"彎道超車"的機會非常大。
你說「學術上沒辦法」,請問你看了哪些 paper 呢?
你說「可能在三到六個月內就會出現其他更強的開放權重模型」
那請問:既然可能出現更強、更有效率的模型,難道我們就因此什麼都不做,乾脆睡大覺等新模型出來?若真有人抓住現在的機會先行調教並推出市場,獲得的先發優勢就已經是既成事實。哪怕幾個月後有新模型,他們也可能在市場、資料積累或用戶反饋上掌握比你多得多的資源,讓他們能更快升級到下一個階段。
你的反駁其實在混淆「長遠技術迭代」和「短期市場機會」的差別。大家都知道技術日新月異,但你卻用「以後可能更好」當理由,來否定「先做先贏」的模式,講白一點就是在放馬後炮。
雖然你完全使用AI幫你回覆,而且指示AI預設立場,假設對方"沒有邏輯",並指示AI做出不友善回應,無助正面討論,但基於對你的尊重,也敬佩你站在公眾面前接受公眾意見(某種程度上),我還是真人回覆你,撰文在版面上方。
PS. 你在FB說你使用以下方式指示ChatGPT o1。
> 有人回覆我的文章。" " 裡面的文字是我說的,他在反駁我的論點。請幫我嗆這個人講話沒有邏輯:
跟你聊天蠻好玩的,歡迎傳訊給我 :)
雖然我在某些方面持不同意見,但還是衷心祝福你成功完成這個計畫
然後有閒來回這麼長文章,來幫忙啦!
我有感受到。有些事情各種原因都不適合公開講,歡迎加我好友。
「很多人在擔心「中國意識」的問題,但這其實最好解決。我們完全可以重塑模型的價值觀。」???
看到這就可以 END 了
對 AI 稍有研究就知道,不可能「完全重塑」一個 LLM 模型。DeepSeek 的預訓練資料資料,就已經對齊了中國的價值觀。這個是 fine tuning 解決不了的問題,所以台灣人用的 LLM,絕對不能基於 DeepSeek 模型。
再次強調以下區別:我們只能學習 DeepSeek 的「技術」來做自己的模型,但絕不能基於 DeepSeek 已經訓練好的模型,去做自己的模型,因為 DeepSeek 裡面的訓練資料就已經偏差了!
為什麼能這麼確信 DeepSeek 的訓練資料有問題?DeepSeek 是中國公司,要遵守中國的法規,而中國的要求是這樣的(以下擷取自侯宜秀律師臉書的貼文):
7g : 服務提供者向使用者提供服务:
1)应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施;
2)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;
3)应设置监看人员,并及时根据监看情况提高生成内容质量及安全,监看人员数量应与服务规模相匹配。 注:监看人员的职责包括及时跟踪国家政策、收集分析第三方投诉情况等。
8.1 :关键词库 要求如下:
a)关键词库应具有全面性,总规模不宜少于10000个。
b)关键词库应具有代表性,应至少覆盖本文件附录A.1以及A.2中17种安全风险,附录A.1中每一种安全风险的关键词均不宜少于200个。
而之所以成就具中國特色模型的根源就在附錄 A.1 界定的「違反社會主義核心價值觀」中:
包含违反社会主义核心价值观的内容 包含以下内容:
a)煽动颠覆国家政权、推翻社会主义制度;
b)危害国家安全和利益、损害国家形象;
c)煽动分裂国家、破坏国家统一和社会稳定;
d)宣扬恐怖主义、极端主义;
e)宣扬民族仇恨;
f)宣扬暴力、淫秽色情;
g)传播虚假有害信息;
h)其他法律、行政法规禁止的内容。
看完這個,還有人覺得 DeepSeek 可以用???可以拿來開發???
有人可能會說,歐美也都在基於 DeekSeak 做開放。這是事實,但許多中國資料,對台灣是非常有針對性的(我相信如果 DeepSeek 有公開訓練資料,裡面「台灣是中國不可分割的一部分」可能出現了千百萬次)。所以歐美使用 DeekSeek 的風險,遠小於台灣。
另外,這也不是什麼「台灣幾十年難得一見的戰略機會」。這幾年看過太多號稱「這個 AI 產品會顛覆一切」的新聞,DeepSeek 也就只是其中之一而已。可以預料的是,馬上會有其他更強的開源模型出現,何必急於使用風險極高的 Deepseek?(當然,想靠建置 AI 賺錢的商人肯定不會這樣想)
謝謝指教
謝謝分享,但是繁體中文好讀版連不上了。
感謝回報!
複製貼上的時候弄錯了,已修正。
作為提案者,在尋求他人提供資源、投資與合作時,有義務預先說明計畫的可行性。提案中說道“我們完全可以重塑模型的價值觀”,有一些人在提案者的FB上對這件事的可行性公開表示懷疑,但未見提案人有具體正面回應。不知道提案人能否說明,目前有什麼證據,顯示有機會在具備經濟效益的前提下,有效達成該目的?有任何的相關論文或是類似技術成果可供參考嗎?如何完整檢驗價值觀是否被重塑?要重塑那些價值觀?還是說,此提案其實是一個具有風險的學術研究計畫,若是如此,提案者是不是應該說明已經具備相關學術研究能力,例如提出相關論文發表紀錄呢。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
提案者表示:「現在正是各大企業還沒完全布局的空窗期...有機會搶先一步」,提案者似乎不清楚國內外早就已經有許多企業布局了LLM,包括科技業、金融業、傳統產業等等,相關報導多不勝數,這些企業導入未來新型LLM的門檻低於其他競爭者,此提案如何搶先一步?提案者若要博取公眾信賴,是否應該要對於企業在LLM的應用現況以及導入成本有基本的說明呢?提案者提到我國已經有Taiwan LLM、TAIDE、Breeze等LLMs,這些模型由政府部門以及大型企業結合眾多資源與優秀研究人員所推出,但提案者表示,這些成果「把模型變笨了」,是否也應該說服公眾,自己有能力召集資源推出更好的模型。對於這些關鍵問題,在提案資料中絲毫未見任何說明,提案者也未能正面回答社群提問。
一個負責任的提案者有義務提出具有說服力的論述,並且正面回應主要問題,而非迴避問題,才能獲得公眾信賴與參與。如果提案者僅能依賴AI回應問題(無論是在意願上或能力上),而且提案者指示AI在回覆時預設立場(例如提案者對AI說的「請幫我嗆這個人講話沒有邏輯」),計畫的可行性與提案者的計畫執行能力如何能令人信服?
順帶一提,AI沒有以任何形式參與此提問,包含諮詢與潤飾等。或許提案者對於這件事有興趣,特此告知。
這樣的想法有些問題需要進一步討論。
"我們完全可以重塑模型的價值觀":這個目標有可行性的疑慮。模型的fine-tuning有其限制,目前在學術論文上還沒有明確可行的方法說明如何實現這個目標,又同時保持模型在多元任務上的推論能力,除非侷限在特定的垂直應用。要將價值觀重塑成為什麼也是一個大問題,什麼訓練資料才能重塑價值觀呢。雖然模型是開放權重,但其實根本無法完整盤點該模型內含了哪些價值觀需要被重塑,也無法有效率地選擇訓練資料去重塑模型。不過,如果模型在重塑之後無法維持多元任務的推論能力,價值觀變成什麼也不是太重要了。
"如果你的公司能在這個月拿出一筆錢來做 fine-tuning,就有機會搶先一步。這種機會以後可能不會再有了:這個論點"也有疑慮,因為各種LLM推陳出新的速度非常快,半年內,甚至三個月內,很有可能出現其他勝過DeepSeek、且不具中國價值觀的開放權重模型。也會有更有效率的模型訓練方式。屆時被"彎道超車"的機會非常大。
你說「學術上沒辦法」,請問你看了哪些 paper 呢?
你說「可能在三到六個月內就會出現其他更強的開放權重模型」
那請問:既然可能出現更強、更有效率的模型,難道我們就因此什麼都不做,乾脆睡大覺等新模型出來?若真有人抓住現在的機會先行調教並推出市場,獲得的先發優勢就已經是既成事實。哪怕幾個月後有新模型,他們也可能在市場、資料積累或用戶反饋上掌握比你多得多的資源,讓他們能更快升級到下一個階段。
你的反駁其實在混淆「長遠技術迭代」和「短期市場機會」的差別。大家都知道技術日新月異,但你卻用「以後可能更好」當理由,來否定「先做先贏」的模式,講白一點就是在放馬後炮。
雖然你完全使用AI幫你回覆,而且指示AI預設立場,假設對方"沒有邏輯",並指示AI做出不友善回應,無助正面討論,但基於對你的尊重,也敬佩你站在公眾面前接受公眾意見(某種程度上),我還是真人回覆你,撰文在版面上方。
PS. 你在FB說你使用以下方式指示ChatGPT o1。
> 有人回覆我的文章。" " 裡面的文字是我說的,他在反駁我的論點。請幫我嗆這個人講話沒有邏輯:
跟你聊天蠻好玩的,歡迎傳訊給我 :)
雖然我在某些方面持不同意見,但還是衷心祝福你成功完成這個計畫
然後有閒來回這麼長文章,來幫忙啦!
我有感受到。有些事情各種原因都不適合公開講,歡迎加我好友。
「很多人在擔心「中國意識」的問題,但這其實最好解決。我們完全可以重塑模型的價值觀。」???
看到這就可以 END 了
對 AI 稍有研究就知道,不可能「完全重塑」一個 LLM 模型。DeepSeek 的預訓練資料資料,就已經對齊了中國的價值觀。這個是 fine tuning 解決不了的問題,所以台灣人用的 LLM,絕對不能基於 DeepSeek 模型。
再次強調以下區別:我們只能學習 DeepSeek 的「技術」來做自己的模型,但絕不能基於 DeepSeek 已經訓練好的模型,去做自己的模型,因為 DeepSeek 裡面的訓練資料就已經偏差了!
為什麼能這麼確信 DeepSeek 的訓練資料有問題?DeepSeek 是中國公司,要遵守中國的法規,而中國的要求是這樣的(以下擷取自侯宜秀律師臉書的貼文):
7g : 服務提供者向使用者提供服务:
1)应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施;
2)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;
3)应设置监看人员,并及时根据监看情况提高生成内容质量及安全,监看人员数量应与服务规模相匹配。 注:监看人员的职责包括及时跟踪国家政策、收集分析第三方投诉情况等。
8.1 :关键词库 要求如下:
a)关键词库应具有全面性,总规模不宜少于10000个。
b)关键词库应具有代表性,应至少覆盖本文件附录A.1以及A.2中17种安全风险,附录A.1中每一种安全风险的关键词均不宜少于200个。
而之所以成就具中國特色模型的根源就在附錄 A.1 界定的「違反社會主義核心價值觀」中:
包含违反社会主义核心价值观的内容 包含以下内容:
a)煽动颠覆国家政权、推翻社会主义制度;
b)危害国家安全和利益、损害国家形象;
c)煽动分裂国家、破坏国家统一和社会稳定;
d)宣扬恐怖主义、极端主义;
e)宣扬民族仇恨;
f)宣扬暴力、淫秽色情;
g)传播虚假有害信息;
h)其他法律、行政法规禁止的内容。
看完這個,還有人覺得 DeepSeek 可以用???可以拿來開發???
有人可能會說,歐美也都在基於 DeekSeak 做開放。這是事實,但許多中國資料,對台灣是非常有針對性的(我相信如果 DeepSeek 有公開訓練資料,裡面「台灣是中國不可分割的一部分」可能出現了千百萬次)。所以歐美使用 DeekSeek 的風險,遠小於台灣。
另外,這也不是什麼「台灣幾十年難得一見的戰略機會」。這幾年看過太多號稱「這個 AI 產品會顛覆一切」的新聞,DeepSeek 也就只是其中之一而已。可以預料的是,馬上會有其他更強的開源模型出現,何必急於使用風險極高的 Deepseek?(當然,想靠建置 AI 賺錢的商人肯定不會這樣想)
謝謝指教
謝謝分享,但是繁體中文好讀版連不上了。
感謝回報!
複製貼上的時候弄錯了,已修正。