第235章 當之無愧的強者

字數:7366   加入書籤

A+A-




    在這種情況下,往往我們隻要了解人是如何處理問題的。
    就能理解機器學習處理問題的思路或者說是方式。
    通常我們在學習東西的時候。
    或許我們的初衷是想著是將所有想學的內容一次性學懂學精。
    但因為學習時間有限、學業任務繁多或者其餘各種各樣的客觀要素。
    實際學習的時候是很難將所有的知識的學得一步到位的。
    在這種情況下,一些擅於學習的人是怎麽學習的呢?
    這些人在進行學習時可能采用的做法是先將想學的知識的共性內容搞懂。
    而後再花時間放在一些那些“疑難雜症”上。
    雖然這種做法似乎是有點“偷懶”。
    但人類一多半的智慧結晶都是因為偷懶才出現的。
    不可否認這種看似偷懶的學習方式充滿智慧。
    至少從效率角度衡量的話,這種方式很值得稱讚。
    畢竟除了像醫學等極其特殊的學科之外。
    大部分領域所涉及到的知識,80%都是能夠找出共性的。
    在找到共性之後,再去解決另外的20%複雜知識。
    這無疑是一種比較省力的思維。
    在自然語言處理這個機器學習的典型方向引入預訓練。
    無疑等同於將部分優秀學生在學習中會用到的一種特殊的技巧“移植”過來。
    這種思路很巧妙。
    可為什麽這種很巧妙的思路以前卻沒人嚐試過呢?
    尹芙·卡莉覺得未必是沒人想過這方麵。
    但別人卻無一例外的失敗了。
    涉及到知識的汲取,或許絕大多數人也知道先將80%有共性的知識搞定再搞定另外的20%可以省力。
    但從過往的學業上看,尹芙·卡莉覺得她身邊能夠做到先將知識80%的共性找出來再去攻克疑難處的人少之又少。
    甚至於除了尹芙·卡莉眼中的學霸之外根本沒啥人能做到這一點。
    尹芙·卡莉眼中的學霸又能有多少人呢?可以說是寥寥無幾了。
    也就是說這種先將80%有共性的知識搞定再搞定另外的20%這種很明智的做法實際很少有人應用。
    明明是看起來更加容易的方式。
    什麽沒多少人這麽做?
    尹芙·卡莉覺得主要原因是:
    ——大部分人並不善於找到知識的共性。
    在不善於找到知識共性的情況下,一部分人雖然會嚐試著找知識共性。
    但實際上操作的時候找到80%知識的共性完全是奢望。
    可能隻能找到30%、20%甚至更少知識的共性。
    如此一來這些人非但沒有能夠找到主體知識的共性。
    反而在找共性的時候不知不覺將其餘一些原本是普通的內容給異化成了這些人眼中的“非共性知識”。
    而非共性知識在這些人心中又被這些嚐試找共性的人心理暗示成了比較麻煩的知識。
    這些原本並不是特別難的知識,在心理暗示的debuff下。
    反而有可能成為這些嚐試尋找共性的人所需要耗費大量時間去攻克的內容。
    這種情況下,找知識的共性非但沒對他們造成幫助。
    反而成為了他們學習時候的拖累。
    就很苦逼了。
    與其出現這種情況,這些人幹脆放棄了找知識的共性。
    直接一視同仁,至少不會聰明反被聰明誤。
    類似於學習上這些人麵對的窘境。
    或許機器學習方麵的學者也是因為同樣的境遇才放棄了對訓練數據共性的尋找。
    至少在尹芙·卡莉這是因為這個原因。
    縱然是現在知道了林灰在模型訓練中引入了預訓練方式。
    尹芙·卡莉現在也不知道林灰究竟是如何做的。
    按照林灰在論文中補充內容進行的闡述。
    傳統的訓練機製下,文本摘要模型的產生思路是:
    語料訓練→模型
    而按照林灰的思路引入預訓練機製後。
    文本摘要模型的產生思路是:
    語料預訓練→預訓練模型→微調→模型
    這個思路的本身是沒問題的。
    但尹芙·卡莉麵對著這個全新的模型產生思路卻滿腦子全是問題。
    具體應用的時候究竟引入何種的預訓練方式才能夠起到事半功倍的訓練效率?
    什麽樣的預訓練模型才是預訓練的目標?
    對於預訓練模型的“微調”究竟應該如何理解呢?
    前兩個問題是就林灰鼓搗的理論而產生的疑問。
    第三個問題是因為語言方麵的闡述而產生的一些疑問。
    盡管尹芙·卡莉最近在向米娜·卡莉努力地學習漢語了。
    但漢語顯然並不是短時期內能夠速成的。
    對於預訓練模型林灰所謂的“微調”的“微”究竟應該如何理解呢?
    隻是一點點小小的調整麽?
    還是說所謂的“微”隻是因為林灰本人對這一事情難度的蔑視。
    尹芙·卡莉覺得應該是後者。
    不太可能是微小的調整。
    畢竟涉及到文本摘要方麵的模型往往都是極其複雜的。
    一個正式模型所涉及到的參數都是極其繁多的。
    更何況是預訓練產生的預訓練模型呢?
    這種先於正式模型產生的粗模型可能參數要更加複雜。
    當然,這隻是尹芙·卡莉的一點猜測。
    涉及到這些問題隻有林灰本人才可能有真正的答桉。
    自從來到林灰的身邊之後。
    原本尹芙·卡莉以為自己的問題會逐漸變少。
    但實際卻是問題愈發變得多了起來。
    至少剛才的那幾個問題在美國的時候尹芙·卡莉就從來沒疑惑過。
    但對此尹芙·卡莉並沒有灰心喪氣。
    科研方麵從來都是提出問題比解決問題更重要。
    尹芙·卡莉很清楚,雖然此時她的疑惑比在美國時候的疑惑還要多。
    但這無關緊要,至少她現在提出的問題相比於以往那些問題現在才更接近技術的本質了。
    《我有一卷鬼神圖錄》
    而這就是學術上的成長。
    尹芙·卡莉也不是一無所獲。
    原本她一向是比較好奇林灰這個此前幾乎在文本摘要方麵及及無名的人究竟是怎樣在短時間做到彎道超車的。
    畢竟涉及到語言模型的構建往往需要大量的時間。
    但現在知道林灰搞的這個預處理之後。
    尹芙·卡莉則感覺這個問題似乎不是太大問題。
    按照林灰在論文補充內容提出的預訓練機製的這個思路進行操作。
    雖然引入預訓練機製後仍然需要進行訓練。
    甚至看起來步驟要更繁瑣了一些。
    但尹芙·卡莉估計同等規模語料庫下的訓練
    引入預訓練機製的訓練要比常規的至少能夠節省50%的時間。
    模型的訓練引入預訓練的處理方式會帶來效率的提升。
    這裏麵的道理通過學習方麵的例子做類比很容易明白。
    通常情況下,通過掌握知識的共性之後再攻克疑難顯然效率上是比按部就班進行學習要高的。
    同樣的道理,機器學習的時候讓機器掌握數據的共性之後再搞剩下的標注數據也會帶來效率的提升。
    林灰一度就是尹芙·卡莉眼中絕對意義上的天才。
    在尹芙·卡莉看來天才的重點不在於“才能”,而在於“天分”
    所有人似乎都知道的走出房間要找到門,卻各種找不到門路。
    而天才就是那個在眾人茫然眼光之下信步走到門前並輕輕推開門的那個人。
    在所有人麵對著抽取式摘要算法的瓶頸而找不到走出文本摘要這個房間的方法之時。
    linhui恰到好處地出現了,在所有人的茫然下信步般推開了一扇被稱為是“生成式文本摘要”的嶄新的門。
    而現在來看,尹芙·卡莉覺得她以前的認知還是差點意思。
    事實是林灰不光是絕對意義上的天才,還是當之無愧的強者。
    如果林灰在論文中的補充內容裏所描述的內容所言非虛的話。
    這樣的人不是強者又是什麽呢?
    預訓練的提出說是對傳統的語料訓練方式的一次革命也不為過。
    這將極大的給語言模型的訓練進行助力。
    尹芙·卡莉有預感在預訓練的提出之後傳統的自然語言處理這一領域有望全麵進入到神經網絡學習的時代。
    如果真的能做到這份貢獻的話。
    那意義將是空前的。
    要知道林灰搞出來的東西可不僅僅是預訓練。
    尹芙·卡莉注意到林灰在論文中對預訓練的描述是基於遷移學習思想的預訓練。
    什麽叫遷移學習?
    借助遷移學習可以運用已有的知識來學習新的知識。
    這一思想的核心是找到已有知識和新知識之間的相似性從而舉一反三。
    在機器學習這一領域,直接對目標從頭開始學習成本太高。
    借助於遷移學習的話就不用那麽麻煩了。
    很多時候我們可以運用已有的相關知識來輔助盡快地學習新知識。
    比如,已經會了c語言,就可以類比著來學習c++;
    已經學會希臘語,就可以類比著來學習英語。
    世間萬事萬物皆有共性,合理地找尋它們之間的相似性之後。
    利用這個橋梁來幫助學習新知識,可以省卻很多新麻煩。
    如果誠然是借助於這一思想的話。
    在預訓練的數據共性學習之後。
    再對非共性標記數據進行額外學習時。
    倘若因為遷移思想的引入使得預訓練具備了舉一反三的學習能力。
    那麽在對非共性標記數據學習所花費的時間可能會更少。
    這樣的話,尹芙·卡莉覺得先前的估計有點保守了。
    同等規模語料庫下的訓練引入基於遷移思想的預訓練機製的訓練要比常規的至少能夠節省70%的時間。
    這就比較誇張了。
    而且基於遷移思想搞定的東西某種意義上講是可以“遷移”的。
    也就是可移植性。
    這特麽的就逆天了。