第250章 論文開寫
字數:2008 加入書籤
看著兩書評論圈裏的熱鬧,以及日漲一千的點擊,心情卻是不由地好了起來。
時間還早,習慣夜貓子的他,正是興奮的時刻呢,不會這麽早就去休息的。
該幹些什麽呢?當然是開始動工手寫人工智能的論文啦!
其實嘛,英文論文那是現成的,關於負采樣訓練詞向量的,一篇是給出方法,一篇是證明出來,莫浩波需要做的,就是把它們融合起來。
方法也很簡單,就是在前世穀歌論文的基礎上,加個證明就好了。
當然,身為中國人,怎麽可能不會寫點中文的東西呢?
現在,重要的問題就是需要做實驗,就是訓練數據啦。
那些公開的數據已經從網上下載下來了的,就差工具和應用了。
13年的這個時候,成熟點的python版本當然是python2.7啦,至於經典的python3.5還沒有影子呢。
不需要使用那些複雜的架構,隻需要簡單的神經網絡就可以實現,使用numpy庫就可以了,而這,也恰恰是莫浩波發表這篇paper的原因。
很快就投入令人向往的自然語言處理(NLP工作),效率是相當快的。
參數和代碼都是現成的,不就是改個文件地址訓練麽,數據量也不大,也就500M的數據罷了。大的話,他的電腦也跑不起來。
negtive-sample的cbow大都比cbow效果好,negtive-sample的skip-gram大都比skip-gram效果好。skip-gram大多數情況,也比cbow效果好。
訓練好的詞向量各種分類啊,實體提取啊之類的比較,得出對negtive-sample方法有利的證據。
然後就是各種數據的記錄,曲線的繪製了,突出negtive-sample方法的速度性、高效性和準確率。
科學實驗嘛,工程嘛,重要的就是數據啦,這裏容不得任何的作假,那是相當嚴格的,可不是文科那樣的寫寫報告無病而呻那樣的可比擬的。
當然科研類實驗嘛,那又是相當簡單的,隻要你給出的方法,你給出的數據,能夠比當前的準確率高,即便沒有什麽道理,給不出什麽理論,那也絕對是真理啊。
科研嘛,最重要的當然是數據啦,數據是不會說謊的。
就這樣投入進去,時間過得很快,一下子就到深夜11點了,莫浩波終於記錄下了他所需要的各種數據。
接下來用這些數據,把原本論文的數據替換掉,很快,一篇關於自然語言詞向量的論文,就大功告成了。
借助英文-中文翻譯,稍微改改其中語句不通順的地方,中文論文也寫好了。
畢竟兩三千字的論文,小菜一碟嘛,莫浩波輕鬆搞定。
果斷加上作者名,第一作者,當然是我們的莫浩波啦。第二作者,莫浩波果斷地加上了思思的名字。
他已經下定決心,一定要睡服思思,要和他一起選擇這個“計算機科學與技術”的專業了。畢竟,生物工程什麽的專業,聽起來整個人都不好了,不能讓她再次中獎了。
弄完這些,便第二天早上5點了,頂著黑乎乎的眼圈,他沉沉地躺下了,就是早上日常的八點半鬧鍾,也激不起他的絲絲漣漪,果然變死豬了……(WWW.101novel.com)