436. 新的衝擊 DeepSeek

字數:4324   加入書籤

A+A-




    不知不覺,又過去了兩年時間。

    對於孟繁岐個人來說,這段時間他的進展並不順利。

    A技術速度放緩的原因是多方麵的。

    首先,孟繁岐必須承認,在將前世的技術優勢全部消耗殆盡之後,他已經再也無法繼續維持持續了近十年的,那獨一檔的技術視野。

    “雖然早就做好了心理準備,卻還是感覺有些失落和無奈啊...”深夜裏,孟繁岐在辦公室的躺椅上揉著自己緊鎖的眉頭。

    自重生以來,孟繁岐一直克製著自己,在諸多學者身邊維持謙遜好學的姿態,萬不敢忘自己短處所在。

    不過在PT係列推動至極限之後,所麵對的就不僅僅是算法和技術的問題了。

    “要說起來,老黃對公司的限製,比我水平下降對公司的限製還大!”孟繁岐為此感到焦躁。

    他雖然無法像此前一樣做到步步不錯,直指要害,卻畢竟也與世界上最頂尖的群體常年接觸學習。

    此外,還手握最為龐大的資金與計算設備資源。

    在此情況之下,想要做不出成績,其實也是非常困難的。

    因為普通人要運行一年的實驗,你使用千倍的算力,也就是半天的時間就可以計算完成了。

    早上吃著早飯實驗跑起來,中午午休回來便已經可以看到結果。

    在這樣的效率加持之下,即便孟繁岐如今判斷錯誤的次數變多,也並不是什麽要緊事。

    無非就是多做些實驗,多消耗幾倍的算力罷了。

    折算成金額,一年十來億頂了天。

    對於早已財富自由的孟繁岐來說,隻要錢能解決的事情都不是事。

    可問題就在於,老黃的計算設備研發,終究還是要時間的。

    不像孟繁岐,可以提前三五年往外發新的算法技術,黃仁勳的硬件技術那是真的催不來,隻能一點點緩步推進。

    這番發展速度上的錯位,導致孟繁岐如今有力無處施展。

    “如果能有後來的H100集群,我所需要的顯卡數量可以減少至少8到10倍。”孟繁岐如今受到的一大限製,就是繼續拓展算法邊界所需要的顯卡數量實在太多了。

    卡一多,它就容易出問題,和人一樣。

    假設說一張卡訓練三個月,百分之99.99的概率都是正常的。

    當這個數字來到2000,乃至10000的時候,這個概率則會驚人地降低為82%和百分之37%。

    也就是說,當你使用萬卡集群的時候,想讓每一張卡都能順順利利地把工作給完成了,這個可能性隻有可憐的三分之一。

    而隻要一張卡出現了問題,就勢必會對整個集群產生影響,中止訓練。

    為了避免這種一卡罷工,萬卡圍觀的情況發生,孟繁岐投入了大量的資源和時間。

    可PT4o,以及具有推理功能的o1之上,使用舊有辦法繼續提升性能的空間並不太大了。

    孟繁岐這邊收效甚微,便給了追趕者們極大的機會。

    原本性能差了cloea許多的諸多大廠們,都在過去的這段時間裏大大縮短了大模型性能之間的差距。

    “從根本上來看,硬件設備對我的限製其實遠超軟件算法。”孟繁岐此前一直認為自己失去先知優勢後,無法繼續軟件上的突破將會是最大的問題。

    如今看來並非如此,隨著與孟繁岐關係親近的那個男人下台,拜老登政府限製英偉達的計算設備出口中國。

    這讓一心想要走在算法技術最前沿倍感壓力。

    雖然以他和老黃以及英偉達的關係,可以通過諸多方式繞開此禁令。可不論如何,這都稱得上是巨大的困擾。

    倍感無奈的孟繁岐開始向內尋求算法突破,以期待能夠降低自己對顯卡設備的需求。

    可原本孟繁岐比較看好的兩個技術方向,都沒有取得預期的成功。

    其一,孟繁岐很早就意識到,早期深度學習模型大多依賴於FP32(32位浮點數)的高精度計算,雖然結果準確,但計算量和存儲需求巨大。

    根據前世的經驗,孟繁岐早早就推動了FP16(16位浮點數)訓練和推理。這種格式可以節約一半的計算資源,雖然會稍稍影響模型的性能,但在針對性的優化下幾乎可以忽略不計,這也是前世的主流訓練模式。

    如今,被計算設備所限製的孟繁岐被迫探索準確度更差的FP8(8位浮點數)。

    前世的通識是,該模式計算效率極高,但精度損失更大,適用範圍非常有限。

    往往是在訓練完成之後,進行FP8的格式轉換,以節約模型的推理使用成本。直接在訓練的時候采用這種格式是從未被證實過的。

    為此,黃仁勳甚至在顯卡的硬件設計上對FP8提供了一定的優化可支持,但半年的時間過去了,孟繁岐並沒有看到自己預期的效果。

    另一方麵上,孟繁岐同時在尋求“稀疏”這一概念。這一條技術路線開啟得更早,(見368-369章)。畢竟他很早就知曉,隨著A技術的發展,兩個超級大國之間勢必會因為世界地位的爭奪而脫鉤。

    一旦形成對抗,硬件設備無疑將會被限製封鎖。

    可若要孟繁岐從根本上助力中國的硬件發展......他卻也沒有那個本事。

    能做的,唯有投資點錢罷了。

    國內的芯片技術,顯然不可能跳過幾代的製程,直接趕上英偉達。

    換句話說,孟繁岐清楚國內硬件廠商所能提供的算力必然不如英偉達,這才提議了模型“稀疏”這一概念,以求節省資源。

    模型稀疏與神經網絡一樣,都是對大腦行為的模仿。

    從生物角度上說,大腦中的神經元連接並非全連接,而是高度稀疏的。每個神經元隻與少數其他神經元相連,這種稀疏性使得大腦能夠在低能耗下高效處理信息。

    這給了大腦極高的能量效率,大腦在極低的能耗下完成複雜任務,部分得益於其稀疏的連接方式。

    人體的總功耗才70-300w,其中大腦才僅僅隻有15-30w。顯卡動輒就300-500w,卻完全無法與人腦的能力相比擬。

    孟繁岐認為這是對計算資源的極大浪費,也已經取得了一定的成果證明稀疏方向的概念,可以在不怎麽影響性能的情況下成倍地減少計算消耗。

    但這件事情,卻又被硬件的發展大大減緩了。

    傳統硬件常年來僅僅隻針對密集計算優化,難以高效處理稀疏數據。

    孟繁岐開發並證明技術的可行性,僅僅隻用了兩個多月的時間,可想要硬件良好支持,批量生產,不再等個一年,卻是不大可能。

    正在這A領域逐漸陷入沉寂,總是隻有小修小補的時刻,DeepSeek-R1的發布像是巨石入水,掀起了巨浪。

    而令孟繁岐極為懊惱的事情是,DeepSeek取得巨大成功所依賴的技術方向,竟與他本人設想相差無幾。(www.101novel.com)