第242章 超大規模標注數據
字數:8580 加入書籤
如果說在前世2017年,1000萬條雙語數據標注就要耗資兩千多萬美元。
那麽在機器學習整體比較滯後的這個時空的2014年。
同樣的1000萬條雙語數據標注需要多少錢呢?
林灰覺得1000萬條雙語標注數據怎麽著也得要個兩三億美元啊。
“兩三億美元”這個數據似乎有點嚇人。
但其實也不誇張。
之所以說不誇張有兩方麵的原因:
一、即便是在前世,數據標注也是在對偶學習之類的特殊學習技巧問世後成本才大幅下降。
而在此之前,涉及到數據標注從來就跟“便宜”兩個字不沾邊。
同樣拿此前林灰所列出的例子作為援引:
在前世2017年1000萬條雙語互譯標注的成本約為2200萬美元;
注意這僅僅是雙語互譯的標注。
“雙語互譯”隻是某兩種語言之間的互譯標注。
隻是兩種語言之間的互譯標注就需要兩千多萬美元?
那涉及到上百種語言的互譯需要多少錢呢呢?
簡單的排列組合問題:c(100,2)== 4950; 4950*0.22億美元==1089億美元;
不難看出若需支持上百種語言的互譯,人工標注訓練集的成本將達到上千億美元。
而這僅僅是理想情況下的估算,如果真要按部就班進行這樣的標注實際成本遠不止於此。
畢竟很多小語種之間的互譯成本顯然相比於主流語言之間的互譯價格還要更高。
雖然實際操作中不會真的有大怨種按部就班進行上百種語言互譯的數據標注。
但這個估算也充分說明了數據標注在相當長的一段時間內都很昂貴。
同樣的道理,在現在這個時空數據標注方麵的成本也依然是昂貴的。
而且因為這個時空機器學習方麵研究進展的滯後,現在涉及到數據標注這方麵的成本甚至還要高於前世同一時期的。
二、時代是在飛速發展的,要知道現在隨便一個文體店就能很方便買到的科學計算器其實際效率、可靠程度、易用性甚至可以全方位吊打上個世紀五六十年代花費上千萬美元搞出來的占地幾百甚至是上千平方米的計算機。
這種情況下後世很便宜的計算器拿到幾十年前縱然是要價上百萬美元同樣是有市場的,而且可能還會相當有競爭力。
舉這個例子並不是說林灰要再往前幾十年去賣計算器。
林灰隻是想藉此說明時代的車輪是向前的,科技也是在飛快發展的。
尤其是在中後互聯網時代,科技的發展說是日新月異也絲毫不為過。
在這種情況下,往後幾年一些不怎麽被人過分重視的技術在幾年前能夠換取大額的財富是很正常的。
更何況還是利用數據標注這個相當長一段曆史時期內都隻能是土豪公司才玩得轉的東西去換取財富?
總之,林灰沒覺得“在現在1000萬條雙語標注數據怎麽著也得要個兩三億美元”這個估算的有什麽問題。
甚至於,即便是“兩三億美元的價格”,這個價格的估算可能還有點保守。
在人工智能的產業結構中,主體包含有應用層、技術層和基礎層。
應用層包含有解決方桉和產品服務。
技術層包含有應用技術、算法理論和平台框架。
而基礎層則包含有基礎設施和數據。
從這個角度來衡量的話,某種程度上甚至可以將數據是人工智能的基石。
事實也正是如此。
涉及到人工智能的三駕馬車算法、算力、算據(數據)。
算法看起來很重要,但要知道很多時候,沒有優質數據存在,就很難訓練出優質的算法。
數據這東西雖然通常情況下看不見摸不著,但任誰也不能忽視數據的重要性。
尤其是標注數據更是相當重要。
在時下有監督的機器學習仍然是當前神經網路學習訓練的主要方式。
而有監督的機器學習是離不開標注數據的。
有監督的機器學習需要被標注數據作為先驗經驗。
在有監督的機器學習裏未被標注的數據和被標注數據以比例劃分為訓練集和測試集。
機器通過對訓練集的學習得到一個模型,再對測試集進行識別,就可以到的該模型的準確率。
算法人員根據測試結果找到模型的短板,並將數據問題反饋給數據標注人員,再重複流程,直到得到的模型指標符合上線需求……
在時下幾乎沒啥無監督學習的應用的情況下,大規模、高質量的人工標注數據集甚至可以說是現在機器學習產業發展的剛需。
在這種情況下,把數據以及標注數據看得再重要也不為過。
因此才有了林灰所謂的估值估低了的說法。
不過所謂的估值也不重要了,真涉及到標注數據的出售的話具體價格完全可以慢慢談。
林灰是需要很多錢,但如果是將來同一些超級巨頭進行談判的話,林灰也未必一心要錢。
用林灰感興趣的資源進行交換也不是不可以。
說實話這些頂尖巨頭的部分資源對林灰還是相當有誘惑力的。
具體到林灰現在所擁有的標注數據。
曾經涉及到網文翻譯的時候,林灰當初幾乎是第一時間想到了前世那部手機裏siplet這個軟件是前世林灰所在公司開發測試的一款軟件。
這個軟件不怎麽為人所知是因為該軟件還處於α內測階段。
α測試的目的是評價軟件產品的功能、局域化、可用性、可靠性、性能和支持。
尤其注重產品的界麵和特色。
α測試的時間可以從軟件產品編碼結束之時開始。
也可以在模塊(子係統)測試完成之後開始。
還可以在確認測試過程中產品達到一定的穩定和可靠程度之後再開始。
siplet達到一定的穩定和可靠程度之後才開始的。
所以說雖然simplet尚在內測。
但這款軟件的技術水平也是相當成熟了,幾乎離正式麵世隻差一輪公測。
林灰原本想過待時機合適將這樣一個軟件複刻出來去進軍軟件翻譯市場的。
在留心到標注數據所擁有的特殊價值的情況下。
林灰同樣差不多是第一時間想到了simplet這一軟件。
畢竟作為一個主打ai翻譯的軟件,其訓練過程中自然是同樣用到大量的雙語互譯標注數據的。
而simplet這款未正式上市的軟件作為前世公司寄予厚望的產品之一。
對這款軟件在實際開發中所用到的標注數據林灰相信肯定能在前世企業數據裏翻找到的。
這種情況下似乎現在直接拿曾經公司在調教simplet這款軟件所用到的標注數據去換錢豈不是事半功倍?
雖然simplet這款軟件在架構的時候同樣沒有進行全語種的互譯數據標注。
但最起碼涉及到中、英、俄、法、西、日這些常見語種之間的互譯數據標注肯定是要有的。
縱然這些語種之間的互譯數據不是所有的語種之間都能達到千萬條的互譯標注規模。
但最起碼中-英、英-中互譯標注數據肯定還是相當有規模的。
在這種情況下,林灰估算了一下前世simplet這款軟件所用到的標注數據在今天起碼也要擁有七八億美元的價值。
這無疑是一筆相當巨額的財富。
最關鍵的是即便林灰拿了這些語種之間的互譯標注數據去換錢。
也不妨礙林灰到時候將simplet這個軟件推向翻譯市場。
呃,雖然有點奸商的作風。
但怎麽說呢,一雞多吃才是互聯網時代下的典型商業特色。
盡管短時間內林灰不大可能去突然涉及到翻譯領域的互譯標注。
但林灰手中的標注數據可不僅僅是翻譯領域。
以林灰此時所耕耘的自然語言處理這個方麵吧。
盡管林灰在此前的生成式文本摘要模型的構建中主要是使用無監督訓練的方式進行的大量數據獲取以及相應的模型訓練。
但林灰手中確確實實是有自然語言處理方向的標注數據。
而且是超大規模的文本標注數據。
這更是一筆相當大的財富。
雖然這種文本數據標注相比於雙語互譯文本標注(標注起來門檻更高)的數據其價值肯定是要打折扣的。
但在形成規模的情況下縱然是一般的標注數據一樣是一筆不容小視的財富。
僅僅是涉及到文本摘要有關的一些普通標注數據林灰估計在這個時空換取幾千萬美元的話完全沒問題。
如果對這些標注數據加以一定包裝並且足夠幸運能夠遇到一些識(yuan)貨(da)人(tou)的話。
商業談判時如果談判的人很會的話談到近億美元也是有可能的。
如果對標注數據進行一定的包裝,林灰估計忽悠個上億美刀也是完全沒問題的。
對這些標注數據加以一定的包裝是什麽意思呢?
就是美化標注數據的質量。
嚴格來講的話,同樣是標注數據也是可以區分為專家標注和眾包的。
所謂的“專家標注”也不是真的專家去進行標注。
“數據標注”聽起來似乎蠻高大上的,但實際上呢?
進行數據標注過程往往非常複雜,涉及到數據量特別多的時候,對人工勞動力會有很高的要求。
雖然不能說低端吧,但這種機械而繁複的工作至少跟高端是沒啥關係的,磚家教授肯定是不會去幹這活的。
所謂的專家標注一般都是由苦逼的算法工程師進行兼職。
或者由專門的算法數據標注員進行標注。
所謂的數據標注員是一種新興職業。
前世,隨著大數據以及人工智能時代的到來,為了應對數據標注的工作在互聯網上出現了一種新型職業——數據標注員。
數據標注員的工作是使用相應的工具從互聯網上抓取、收集數據,包括文本、圖片、語音等等。
然後對抓取的數據進行整理與標注。
這些數據標注員工具體的工作流程一般很明確:
首先,標注人員經過培訓,確定需要標注的樣本數據以及標注規則;
而後,根據事先安排好的規則對樣本數據進行打標;
其次,對標注完以後的結果進行合並。
而算法數據標注員稍稍有別於一般的數據標注員。
相比於一般的數據標注猿,算法數據標注猿往往在完成以上的步驟之後。
還要通過標注的數據喂模型進而調試模型。
盡管工作流程隻是多了這一步,但專業的算法數據標注員依舊是鳳毛麟角。
從先前羅列的任務也可以看出算法數據標注員的任務不僅僅是數據標注。
往往還需要根據標注的數據進一步評估算法模型。
如此一來很多時候對書記標注員的要求是這些人不光要進行數據標注。
還得懂相應的算法。
而這樣的人很多時候可以說是鳳毛麟角。
而且因為這種專業標注的人員很少。
往往專家級標注隻能夠勝任小量級的數據。
對於大規模數據標記和超大規模數據的標記任務想要依靠專家標記很多時候隻能是力不從心。
對於大規模數據標記和超大規模數據標記往往隻能尋求眾包了。
眾包模式是將零散的個人(包括兼職)、小標注團隊,整合到平台上,完成一個完整項目的服務模式。
這種模式的主要優勢成本很低,且比較靈活。
盡管前世機器學習長期所致力於的工作就是能夠以眾包數據或者幹脆是無標數據取代專家標注。
但真要問專家標注和眾包數據哪個受歡迎。
那自然是前者。
這種情況下誇大標注數據中專家標注所占的比例很容易收獲到更高的溢價。
聽起來似乎很奸商。
但也僅僅隻是聽起來而已。
如果林灰所大肆讚美的標注數據和現在的專家標注水平真的區別很大的話。
那林灰吹破大天也沒用。
畢竟打鐵還需自身硬。
林灰既然敢宣稱標注數據中專家標注所占的比例很高自然有底氣。
怎麽說呢?
往後幾年即便是一些非專家標注的數據,在行業標準化、規範化的情況下。
很多時候,就算是眾包的數據也未必比現在的行業尚未完全標準化以及規劃化的專家標注的水平差。
就算林灰拿往後幾年的非專家標注數據去忽悠人。
想來這個時空也會有人去買賬。
沒辦法,技術強勢就是可以為所欲為。