第236章 贏在起跑線上
字數:6047 加入書籤
如果誠然是借助於這一思想的話。
在預訓練的數據共性學習之後。
再對非共性標記數據進行額外學習時。
倘若因為遷移思想的引入使得預訓練具備了舉一反三的學習能力。
那麽在對非共性標記數據學習所花費的時間可能會更少。
這樣的話,尹芙·卡莉覺得先前的估計有點保守了。
同等規模語料庫下的訓練引入基於遷移思想的預訓練機製的訓練要比常規的至少能夠節省70%的時間。
這就比較誇張了。
而且基於遷移思想搞定的東西某種意義上講是可以“遷移”的。
也就是可移植性。
這特麽的就逆天了。
涉及到文本摘要甚至是整個自然語言處理這一領域的研究以前多多少少是有點圈地自萌的意味的。
但如果具有了遷移性那完全是有可能滲透到別的領域的。
心念及此,一時之間尹芙·卡莉感覺林灰的著眼點也一定不是自然語言處理的這個小魚塘。
林灰在下一盤大棋。
盡管和林灰相識不久,但作為一個跟林灰經常學術交流的人。
尹芙·卡莉能篤定林灰在學術方麵的野心是極大的。
此前,尹芙·卡莉就感覺林灰能開啟自然語言處理這個方向嶄新的大門。
現在看來,以後林灰所影響的方向絕對不止是自然語言處理這一個方向。
涉及到整個機器學習領域,林灰都將有很大的建樹。
甚至可能還遠遠不止於此,對於這一切尹芙·卡莉很期待。
沒有什麽比見證一位天才的雄起更興奮的了。
(如果有,那或許隻能是目睹一位“神”的破滅了。)
縱然現在的林灰還沒有什麽頭銜加持。
不過,過往林灰的成就已經足夠耀眼了。
尹芙·卡莉相信林灰會一點點將其野心所踐行的。
為什麽尹芙·卡莉能得出這樣的判斷呢?
林灰在過往在學術方麵取得的璀璨成果隻是尹芙·卡莉得出這樣推斷的原因之一。
這不是最重要的原因。
真正讓尹芙·卡莉得出林灰能將其野心踐行的原因在於林灰有自己的學術風格。
相比於看得見的學術成果。
學術風格這種東西很玄學,看不見摸不著。
聽起來很虛幻的東西。
但學術風格這東西確確實實存在。
關於“學術風格”這一名詞的討論也常常現於各種學術交流以及科研人員日常的討論中。
無論是學術路線、學術習慣這些東西某種意義上都會影響學術風格的形成。
衡量一個科研人員在學術方麵是劃水的還是水準之上的一般主要看是否有獨立的學術風格。
一般學術方麵隻是劃水的科研人員普遍都沒有自己的學術風格。
其研究成果就比較隨心所欲那種,研究課題也以“跟隨研究”為主。
而水準之上的科研人員則普遍有著穩定的學術風格。
學術風格的穩定盡管不能意味著一切。
但起碼也意味著該研究者對學術路線有著比較明確的規劃。
或許林灰本人也沒注意到他的學術風格。
但尹芙·卡莉覺得林灰是有屬於其自己的學術風格的。
而且這風格很明顯。
林灰擁有學術風格這件事也能側麵反映出其學術路線的穩定。
故而尹芙·卡莉是很相信林灰能夠按部就班實現其野心的。
而林灰是什麽樣的學術風格呢?
太具體的尹芙·卡莉暫時也無法精準描述。
但就學術習慣方麵而言,尹芙·卡莉覺得林灰有一極其鮮明的特征。
那就是林灰總是致力於贏在起跑線上。
當然贏在起跑線上隻是比喻說法,確切地表述應該是
——在解決學術問題以及實際上的工程問題的時候林灰很傾向於將可能出現的問題扼殺在萌芽狀態。
得出這一判斷,尹芙·卡莉自然有相應的依據。
就拿前不久林灰在論文補充內容中所提到的預訓練來說吧。
此前涉及到“訓練”的時候人們往往想到是對訓練生成的模型由機器學習方麵的專家進行調整。
很少有像林灰這樣的對訓練過程就有想法的。
畢竟涉及到語料訓練這已經是一個語言模型構建很靠前的問題了。
除了這個例子之外,還有此次來到中國和林灰的第一次談話。
當時兩人聊到了對“語料向量化之後再處理可能導致的維度爆炸”相關問題的處理時。
原本尹芙·卡莉設想的降維做法有將高維模型轉化為低維模型、將分析後得到的高維數據降低成低維數據等等。
而林灰提出的思路卻是將語料向量化之後得到原始高維向量數據直接進行降維處理。
而在此前涉及到維度爆炸這件事幾乎沒啥研究者想到直接對維度本就比較高的原始數據做文章。
畢竟這涉及到將語料信息抽象成向量原始數據已經差不多其對應研究中特別靠前的一個環節了。
尹芙·卡莉覺得這些都可以左證她先前的判斷。
依據她先前的判斷的話,還可以在此基礎上進一步推斷。
如果一個科研項目涉及到多個環節,每個環節都有可施為的空間。
那林灰一定會在最初的環節下主要功夫或者是最初環節還要之前的地方開辟新的賽道。
知道這個有什麽用呢?
當然有用,甚至是有大用。
此前尹芙·卡莉對林灰為什麽要收購她搞出的那項專利即《文本判斷甄別比較的一種新方法》這個專利是很不明所以的。
在林灰提出了生成式文本摘要算法之後。
現在的自動文摘實現方法主要分為抽取式方法和生成式方法:
這兩種摘要方法有很多原理和實際效能的區別。
但此二者本質上都是自動文本摘要。
舉凡是自動文本摘要,其技術框架就都可以概括為:
內容表示→權重計算→內容選擇→內容組織。
1內容表示是將原始文本劃分為文本單元的過程,主要是分字、詞、句等預處理工作;
內容表示的主要目的是通過預處理將原始文本處理成算法容易進行分析的形式。
2權重計算則是要對文本單元(即預處理後原始文本)計算相應的權重評分,權重的計算方式多樣,如基於特征評分、序列標注、分類模型等提取內容特征計算權重。
這個步驟的目的是通過這一係列計算完成對預處理後的原始文本實現初步分析。
3內容選擇是對經過計算權重後的文本單元(即經過步驟2權重分析過的文本)選擇相應的文本單元子集組成摘要候選集,可根據要求的摘要長度、線性規劃、次模函數、啟發式算法等選擇文本單元;
4內容組織是指對候選集的內容進行整理形成最終摘要,可根據字數要求按順序輸出,也有研究者提出使用基於語義信息、模板和神經網路學習的方法來產生符合要求的摘要。
從技術框架的這幾個層次的對應描述來看,可以看出無論是權重計算還是內容選擇抑或是內容組織此三者都是很重要的。
如果搞不定權重計算和內容選擇的話則根本搞不清楚摘要的時候具體對文本哪些地方進行摘要。
如果搞不定內容組織的話更是直觀影響用戶體驗。
在這種情況下,這個時空的人們在進行自動文本摘要方麵的研究時也確實是比較重視自動文本摘要的權重計算、內容選擇和內容組織這三個方麵。
曾經,按照尹芙·卡莉的思維,她是很不理解林灰為什麽會對《文本判斷甄別比較的一種新方法》這樣一個側重於內容表示的專利很感興趣的。
甚至一度無論是尹芙·卡莉還是埃瓦爾德·切瑞都認為林灰隻是單純地通過購買一些和尹芙·卡莉有關但實際上無關輕重的雞肋專利來向尹芙·卡莉示好。
但就現在來看,很明顯不是這樣的。
畢竟如果關於林灰在學術方麵的習慣推定:
即“如果一個科研項目涉及到多個環節,每個環節都有可施為的空間,
那林灰一定會在最初的環節下主要功夫或者是最初環節還要之前的地方開辟新的賽道”
成立的話。
那麽林灰在涉及到自動文本摘要的框架做動作的話反而最有可能會側重別的研究人員所澹漠的“內容表示”這一環節。
如此一來《文本判斷甄別比較的一種新方法》這樣一個專利對林灰而言非但不是雞肋專利。
反倒有可能是一項意義十分重要的專利。
以林灰幾乎從來不做無意義的事情這一習慣來說的話,尹芙·卡莉越發覺得這一判斷是正確的。
對於這樣的推斷尹芙·卡莉簡直是哭笑不得。
一項自己搞了很久的專利,在自己手中沒有發揮出真正的價值。
在別人那反而卻具有了更大的價值?
額……