第241章 巨額的隱形財富

字數:5280   加入書籤

A+A-




    前世生成式對抗網絡自出現以來,針對不同的應用領域出現了許多變體。
    這些變體相對於最原始的生成式對抗網絡都進行了一定的改進。
    這些改進有的是單純改進了結構。
    有的則是因為理論上的發展而對生成式對抗模型涉及到的一些函數或者說參數進行了一定的改進。
    1200ksw.net
    再或者就是單純就應用方麵進行了一定的創新調整。
    一項技術被頻繁改動不是說明這項技術失敗。
    剛好相反,這恰恰說明這項技術很成功。
    因為這某種程度上從側麵反映了該技術有很多的成長空間。
    事實也正是如此,前世生成式對抗網絡是相當成功且應用廣泛的。
    在很多機器學習領域都能看到生成式對抗網絡的身影。
    之所以如此大概是因為原始的生成式對抗網絡在構建的時候,先驗假設比較少。
    正是因為對數據幾乎沒有任何假設使得生成式對抗網絡具有幾乎不設限的建模能力。
    借助於生成式對抗網路可以擬合多種分布。
    此外,由於生成式對抗網路模型不甚複雜。
    很多時候在應用生成式對抗網絡的時候就不需要預先設計較為複雜的函數模型。
    在不少生成式對抗網絡的應用場景中,工程師甚至隻需要應用反向傳播算法簡單訓練一下對應的網絡。
    就可以讓生成式對抗網絡中的生成器和判別器正常工作。
    之所以將生成式對抗網絡搞得這麽比較易上手。
    跟生成式網絡的設計初衷是為了進行無監督學習也有很大的關係。
    不過事物都是有兩麵性的,正是因為原始生成式對抗網路過於自由。
    訓練過程很容易出現訓練發散的情況。
    不止於此,生成式對抗網絡還存在諸如梯度消失等問題。
    由於這些問題的存在,生成式對抗網絡是很難學習一些生成離散的分布的。
    就比如原始的生成式對抗網路就不是很擅長純粹文本方麵的處理。
    除了涉及到部分場景下會將生成式對抗網絡用於文本分割之外。
    多數時候很少將生成式對抗網絡應用於文本(特指純粹文字形式的文本)方麵。
    不過尺有所長寸有所短,雖然並不是很擅長對純粹文本信息的處理。
    但在其餘很多領域生成式對抗網路都可以大顯身手。
    在人臉識別方麵、超分辨率重建等方麵生成對抗網絡更是大有用武之地。
    甚至是在語義圖像修複方麵生成式對抗網絡同樣是可以大顯身手。
    除此之外,生成式對抗網絡還有很多應用方向。
    概括地說,生成式對抗網絡的應用前景是相當廣闊的。
    說起來因為在這個時空機器學習方麵的研究比較滯後。
    林灰想搬運生成式對抗網絡這一模型的話其實也不需要擔太多風險。
    盡管如此,在將生成式文本摘要方麵的徹底搞定之前。
    林灰也不著急將生成式對抗網絡相關的研究成果搬運出來。
    至於為什麽林灰不將生成式對抗網絡搬出來?
    林灰不想給外界其餘的學術人員一種割裂感。
    就像林灰在遊戲開發時不想給遊戲玩家一種割裂感一樣。
    雖然林灰現在已經有了一定的將生成式對抗網絡的推出邏輯基礎。
    (林灰此前搞得生成式文本摘要裏麵涉及到的生成式模型,而從尹芙·卡莉那收購來的專利中又涉及到類判別式模型,而生成式對抗網絡其組成正是包含有生成式網路和判別式網路……)
    但如果林灰貿然搞出生成式對抗網路依舊不是很好。
    畢竟生成式對抗網絡就應用層麵來說和林灰現在一向搞得自然語言處理這一學術領域其實關係不太大。
    在這種情況下,林灰莫名其妙推出一個和自然語言處理幾乎沒啥關係的模型算怎麽回事呢?
    雖然學術方麵無心插柳柳成蔭的例子很多,很多學術成果最開始問世的時候目的往往是跑偏的。
    但林灰內心信奉的原則是“吾道一以貫之”那種。
    無論是遊戲開發還是學術進展上,林灰都不想給別人一種割裂感。
    總之,林灰是覺得科技樹還是按順序點比較好。
    雖然說不按順序點科技樹也可以,但在多元化的社會下不按規矩辦事往往就意味著風險。
    亂點科技樹,自己的科技邏輯鏈沒形成。
    潛在對手卻形成了相應的發展脈絡,那麽科技成果很有可能被對手所竊取。
    這是林灰所不願意看到的。
    現在在林灰看來學術方麵他所要做的依然是深耕自然語言處理,深耕生成式文本摘要。
    通過不斷的深耕,從自然語言處理這一領域找到破局或者說點亮相鄰於此時林灰已點亮科技成果的下一個科技樹分支才是最好的。
    而且即便是一時之間未找到合適的破局點其實也關係不大,短時間內(起碼是一個月)林灰還是不虛要太擔心的。
    畢竟就生成式文本摘要這方麵取得的“突破性進展(成功的搬運)”林灰也是要消化一段時間了。
    關於生成式文本摘要這方麵的成果獲得一個碩士學位幾乎不在話下。
    其實林灰原本的估計更加樂觀。
    林灰原本是覺得將生成式文本摘要這個方向的論文搞清楚,就差不多就能博士了。
    不過通過最近跟尹芙·卡莉的交流,林灰覺得是他過於樂觀了。
    就像諾獎級成果不一定真的能獲得諾獎一樣。
    就算林灰在生成式文本摘要方麵鼓搗出的東西對於這個時空能稱得上是博士級甚至更高級別的成果。
    但想藉此一步到位獲得博士畢業論文也是很有難度的。
    畢竟此前林灰搞得學術內容其主要呈現形式都是圍繞著生成式文本摘要這樣一個算法專利的。
    這個時空西方對於專利形式的學術成果更傾向於將之視作偏向於實踐的東西。
    亦即工程上的成果。
    而僅僅依靠工程方麵的成果想要一步到位弄到博士方麵的成果是很麻煩的。
    雖然這個稍微低於林灰的預期,不過問題不大。
    學術上步子太大也不完全是好事情。
    既然短時間不搬運生成式對抗網路,那剛才關於生成式對抗網路的思考豈不是等同於白白浪費腦細胞?
    當然不是。
    關於生成式對抗網路這方麵的思考,林灰突然意識到他還有一筆巨額的隱形財富。
    那就是前世的人工標注數據。
    涉及到神經網路學習訓練或者說深度學習訓練在模型構建的時候可是需要大量的人工標注數據的。
    往往一個模型需要很多的人工標注的數據。
    例如在圖象識別裏麵,經常我們可能需要上百萬的人工標注的數據,
    在語音識別裏麵,我們可能需要成千上萬小時的人工標注的數據。
    涉及到機器翻譯更是需要數千萬語句標注數據。
    說實話作為一個來自後世的技術人員。
    涉及到人工標注數據的價值林灰還真沒太當回事。
    但現在看來,顯然不能用後世的思維來思考維妮塔。
    林灰記得在前世2017年看到的一組數據說得是涉及到人工翻譯的話。
    一個單詞的費用差不多是5—10美分之間,一個句子平均長度差不多是30個單詞。
    如果需要標注一千萬個雙語句對,也就是我們需要找專家翻譯一千萬句話,這個標注的費用差不多是2200萬美元。
    可以看到數據標注的費用是非常非常高的。
    而這僅僅是2017年的數據標注成本。
    在更早期的標注成本豈不是意味著更高的數據標注費用?
    以這個角度來衡量的話林灰所擁有的一些現成的人工標注數據豈不是一筆巨額的隱形財富?