437. 傲慢的代價
字數:4015 加入書籤
孟繁岐並不是第一次聽說DeepSeek的名字,雖然此前DS在大眾之中不能說是完全無人知曉,但說它是籍籍無名也不為過。
比起天然擁有海量客戶的互聯網大廠們推出的A模型,DS即便免費,但終究天然地在積累用戶方麵有著巨大的劣勢。
孟繁岐此前注意到DS,主要便是因為他們的技術路線與孟繁岐的幾個設想相似。
由於在降低技術成本上頗有建樹,DS的AP價格要低於市場平均水平許多,這使得它慢慢積累了一些技術型的用戶。不過這個規模在孟繁岐眼中,還遠遠上不了桌。
前兩個月,DeepSeek已經迭代到了第三代。
逐漸縮小的性能差異並沒有引起孟繁岐足夠的重視。
而今天,詳細的技術報告以及R1版本的發布,才終於讓他明白,自己實在是後知後覺。
震撼到孟繁岐的並不是單純性能上的逼近,而是諸多技術細節透露出的海量信息。
比如,FP8的成功實現。
孟繁岐有些不相信這個事實。
半精度和FP8是他一直在大力推動的事情,而現在,DS反而成為了首個在超大規模模型上證明了FP8訓練完全可行的公司。
孟繁岐沉著臉,翻閱著DS的技術報告,他們對框架內部的操作細節並不吝嗇。
哪些核心操作做了FP8的量化,在什麽步驟應該轉回BF16,又在哪裏應該使用全精度FP32計算,標注十分詳細。
向量層、輸出層、MoE門控模塊、標準化運算和注意力運算模塊進行了精度保留,而前向,激活反向,權重反向則用FP8執行。
針對前向反向采用FP8會帶來的許多問題,報告中也知無不言。
在低精度訓練框架中,由於&bp;FP8格式的指數位較少導致其動態範圍受限,經常出現數值溢出和下溢的問題。傳統方法是將輸入張量的最大絕對值映射到&bp;FP8格式的最大可表示值,將輸入分布對齊到可表示範圍內。然而,這種方法使得低精度訓練對激活值中的極端值特別敏感,可能導致量化精度顯著下降。
孟繁岐也走到過這一步,部分FP8,部分BF16/FP32。僅僅如此是不夠的。
DS最終采用的方案是在核心算子內部EMM操作裏引入縮放因子,這同樣是孟繁岐曾經考慮過的事情。
但cloea最終沒有這樣做,因為英偉達顯卡的FP8並不直接支持這一功能。
長期居於龍頭位置的cloea程序員們並沒有選擇下苦工用其他的方式實現這一功能,而是選擇了與英偉達溝通,以求讓英偉達在下代硬件框架中支持細粒度縮放格式。
孟繁岐回憶起那個時候,欲言又止。
這稱得上是錯誤嗎?其實也不見得。
因為cloea的建議為英偉達提供了重要參考。
下一代硬件框架中支持該功能無疑是非常正確的決定。
但...沒有它真的就做不了嗎?很顯然,DS回答了這個問題,現有的條件之下,技術並不是無法實現的。
另一件讓孟繁岐感到扼腕歎息的事情,是雙方在“稀疏”這一概念上的分歧。
在FP8問題上,孟繁岐與DS是一致的。
在稀疏這一方向上,孟繁岐選擇了細粒度,矩陣層麵的稀疏。
DS則選擇了通道層麵的MoE,混合專家模型。
簡單來說,DS選擇把模型拆分為16/32個專家,就像是把一塊蛋糕均分切成16/32塊。
每一塊都是不同的味道,每一個專家更加專注於不同的知識。
根據具體的情況,會有一個門控係統,來決定哪些專家參與計算。
而孟繁岐的野心更甚,他想要從根本上將整個模型在原子級別拆分,細粒度地對所有權重進行大刀闊斧地裁減,直到原本大小的16/32分之一。
從理論上說,這種方式的上限更高,MoE的稀疏更顯得粗糙。
另一方麵,孟繁岐也有願景,想要增強國內硬件的競爭力。
因為英偉達的設備,是無法支持這種細粒度稀疏計算的。
倘若能夠先發展國內計算設備,適配這種技術,就能夠在製程等諸多硬件技術落後的情況下,達到更快的推理效果。
換言之,孟繁岐又一次將希望寄予了發展周期更長的硬件廠商,那麽在這方麵被其他人趕上,倒也不是什麽奇怪的事情了。
雖然具體實現上稍顯不同,但總體來說,DS完成了孟繁岐在技術上的兩點宏觀展望。
從其餘的許多技術細節當中,孟繁岐可以很強烈地讀到,他們的開發之路走得也並不順利。
比如說混合專家MoE,很容易讓一兩個專家變成懂王,什麽都要參與,很多其他的專家漸漸變成了掛件,貌似在參與,其實完全就是圍觀的觀眾。
如果增加額外的損失函數去調整它們,既增加了大量計算量,又極有可能影響到訓練的主要目標本身。專家們的調度問題這個小問題影響到模型的能力這個主要問題。
DS最終完美地解決了這個問題,既沒有額外增添損失計算優化,又使得各專家實現了負載均衡。
孟繁岐相信,這個最終簡潔優雅的技術方案背後一定存在許多努力與艱辛。
而現在的cloea對這種付出是越來越排斥的。
比起花費許多的努力在某一個算子上優化20-30%的速度,他們更願意多用一些顯卡,多花一些時間。
既然英偉達暫時不直接支持FP8做這樣的操作,那就先等等吧。
諸如此類的事情持續累積,使得後來者已經實質上實現了相當數量的技術超越,甚至是在孟繁岐較為關注的技術方向上。
而DeepSeek的坦率開源,也讓孟繁岐動搖了cloea是否繼續閉源的想法。
“若是我適當裁減一些已經沉迷安樂的技術人員,逐漸走向開源,對比海對麵的OpeA倒也算是奇景了。”孟繁岐想到這裏也是笑出了聲。
自從兩國關係逐漸微妙,CloeA的在美使用就收到了限製。原本標榜開源的OpeA逐漸走向閉源,而最初就閉源盈利的CloeA反而在考慮擁抱開源盛世。
這倒也稱得上是另一種雙向奔赴了。
同一時刻,比起一直在關注技術細節的孟繁岐,普通人更為在意的,則是R1這個模型,首次揭露了前沿高性能智能思考問題的邏輯脈絡。(www.101novel.com)