436. 新的衝擊 DeepSeek是重生之AI教父最新更新章節-TXT全集下載-卡提諾小說網繁體

436. 新的衝擊 DeepSeek

A+A-

    不知不覺，又過去了兩年時間。

    對於孟繁岐個人來說，這段時間他的進展並不順利。

    A技術速度放緩的原因是多方麵的。

    首先，孟繁岐必須承認，在將前世的技術優勢全部消耗殆盡之後，他已經再也無法繼續維持持續了近十年的，那獨一檔的技術視野。

    “雖然早就做好了心理準備，卻還是感覺有些失落和無奈啊...”深夜裏，孟繁岐在辦公室的躺椅上揉著自己緊鎖的眉頭。

    自重生以來，孟繁岐一直克製著自己，在諸多學者身邊維持謙遜好學的姿態，萬不敢忘自己短處所在。

    不過在PT係列推動至極限之後，所麵對的就不僅僅是算法和技術的問題了。

    “要說起來，老黃對公司的限製，比我水平下降對公司的限製還大！”孟繁岐為此感到焦躁。

    他雖然無法像此前一樣做到步步不錯，直指要害，卻畢竟也與世界上最頂尖的群體常年接觸學習。

    此外，還手握最為龐大的資金與計算設備資源。

    在此情況之下，想要做不出成績，其實也是非常困難的。

    因為普通人要運行一年的實驗，你使用千倍的算力，也就是半天的時間就可以計算完成了。

    早上吃著早飯實驗跑起來，中午午休回來便已經可以看到結果。

    在這樣的效率加持之下，即便孟繁岐如今判斷錯誤的次數變多，也並不是什麽要緊事。

    無非就是多做些實驗，多消耗幾倍的算力罷了。

    折算成金額，一年十來億頂了天。

    對於早已財富自由的孟繁岐來說，隻要錢能解決的事情都不是事。

    可問題就在於，老黃的計算設備研發，終究還是要時間的。

    不像孟繁岐，可以提前三五年往外發新的算法技術，黃仁勳的硬件技術那是真的催不來，隻能一點點緩步推進。

    這番發展速度上的錯位，導致孟繁岐如今有力無處施展。

    “如果能有後來的H100集群，我所需要的顯卡數量可以減少至少8到10倍。”孟繁岐如今受到的一大限製，就是繼續拓展算法邊界所需要的顯卡數量實在太多了。

    卡一多，它就容易出問題，和人一樣。

    假設說一張卡訓練三個月，百分之99.99的概率都是正常的。

    當這個數字來到2000，乃至10000的時候，這個概率則會驚人地降低為82%和百分之37%。

    也就是說，當你使用萬卡集群的時候，想讓每一張卡都能順順利利地把工作給完成了，這個可能性隻有可憐的三分之一。

    而隻要一張卡出現了問題，就勢必會對整個集群產生影響，中止訓練。

    為了避免這種一卡罷工，萬卡圍觀的情況發生，孟繁岐投入了大量的資源和時間。

    可PT4o，以及具有推理功能的o1之上，使用舊有辦法繼續提升性能的空間並不太大了。

    孟繁岐這邊收效甚微，便給了追趕者們極大的機會。

    原本性能差了cloea許多的諸多大廠們，都在過去的這段時間裏大大縮短了大模型性能之間的差距。

    “從根本上來看，硬件設備對我的限製其實遠超軟件算法。”孟繁岐此前一直認為自己失去先知優勢後，無法繼續軟件上的突破將會是最大的問題。

    如今看來並非如此，隨著與孟繁岐關係親近的那個男人下台，拜老登政府限製英偉達的計算設備出口中國。

    這讓一心想要走在算法技術最前沿倍感壓力。

    雖然以他和老黃以及英偉達的關係，可以通過諸多方式繞開此禁令。可不論如何，這都稱得上是巨大的困擾。

    倍感無奈的孟繁岐開始向內尋求算法突破，以期待能夠降低自己對顯卡設備的需求。

    可原本孟繁岐比較看好的兩個技術方向，都沒有取得預期的成功。

    其一，孟繁岐很早就意識到，早期深度學習模型大多依賴於FP32（32位浮點數）的高精度計算，雖然結果準確，但計算量和存儲需求巨大。

    根據前世的經驗，孟繁岐早早就推動了FP16（16位浮點數）訓練和推理。這種格式可以節約一半的計算資源，雖然會稍稍影響模型的性能，但在針對性的優化下幾乎可以忽略不計，這也是前世的主流訓練模式。

    如今，被計算設備所限製的孟繁岐被迫探索準確度更差的FP8（8位浮點數）。

    前世的通識是，該模式計算效率極高，但精度損失更大，適用範圍非常有限。

    往往是在訓練完成之後，進行FP8的格式轉換，以節約模型的推理使用成本。直接在訓練的時候采用這種格式是從未被證實過的。

    為此，黃仁勳甚至在顯卡的硬件設計上對FP8提供了一定的優化可支持，但半年的時間過去了，孟繁岐並沒有看到自己預期的效果。

    另一方麵上，孟繁岐同時在尋求“稀疏”這一概念。這一條技術路線開啟得更早，(見368-369章)。畢竟他很早就知曉，隨著A技術的發展，兩個超級大國之間勢必會因為世界地位的爭奪而脫鉤。

    一旦形成對抗，硬件設備無疑將會被限製封鎖。

    可若要孟繁岐從根本上助力中國的硬件發展......他卻也沒有那個本事。

    能做的，唯有投資點錢罷了。

    國內的芯片技術，顯然不可能跳過幾代的製程，直接趕上英偉達。

    換句話說，孟繁岐清楚國內硬件廠商所能提供的算力必然不如英偉達，這才提議了模型“稀疏”這一概念，以求節省資源。

    模型稀疏與神經網絡一樣，都是對大腦行為的模仿。

    從生物角度上說，大腦中的神經元連接並非全連接，而是高度稀疏的。每個神經元隻與少數其他神經元相連，這種稀疏性使得大腦能夠在低能耗下高效處理信息。

    這給了大腦極高的能量效率，大腦在極低的能耗下完成複雜任務，部分得益於其稀疏的連接方式。

    人體的總功耗才70-300w，其中大腦才僅僅隻有15-30w。顯卡動輒就300-500w，卻完全無法與人腦的能力相比擬。

    孟繁岐認為這是對計算資源的極大浪費，也已經取得了一定的成果證明稀疏方向的概念，可以在不怎麽影響性能的情況下成倍地減少計算消耗。

    但這件事情，卻又被硬件的發展大大減緩了。

    傳統硬件常年來僅僅隻針對密集計算優化，難以高效處理稀疏數據。

    孟繁岐開發並證明技術的可行性，僅僅隻用了兩個多月的時間，可想要硬件良好支持，批量生產，不再等個一年，卻是不大可能。

    正在這A領域逐漸陷入沉寂，總是隻有小修小補的時刻，DeepSeek-R1的發布像是巨石入水，掀起了巨浪。

    而令孟繁岐極為懊惱的事情是，DeepSeek取得巨大成功所依賴的技術方向，竟與他本人設想相差無幾。（www.101novel.com）

章節報錯

首頁 > 重生之AI教父 > 章節目錄