第242章 超大規模標注數據

字數:8580   加入書籤

A+A-




    如果說在前世2017年,1000萬條雙語數據標注就要耗資兩千多萬美元。
    那麽在機器學習整體比較滯後的這個時空的2014年。
    同樣的1000萬條雙語數據標注需要多少錢呢?
    林灰覺得1000萬條雙語標注數據怎麽著也得要個兩三億美元啊。
    “兩三億美元”這個數據似乎有點嚇人。
    但其實也不誇張。
    之所以說不誇張有兩方麵的原因:
    一、即便是在前世,數據標注也是在對偶學習之類的特殊學習技巧問世後成本才大幅下降。
    而在此之前,涉及到數據標注從來就跟“便宜”兩個字不沾邊。
    同樣拿此前林灰所列出的例子作為援引:
    在前世2017年1000萬條雙語互譯標注的成本約為2200萬美元;
    注意這僅僅是雙語互譯的標注。
    “雙語互譯”隻是某兩種語言之間的互譯標注。
    隻是兩種語言之間的互譯標注就需要兩千多萬美元?
    那涉及到上百種語言的互譯需要多少錢呢呢?
    簡單的排列組合問題:c(100,2)== 4950; 4950*0.22億美元==1089億美元;
    不難看出若需支持上百種語言的互譯,人工標注訓練集的成本將達到上千億美元。
    而這僅僅是理想情況下的估算,如果真要按部就班進行這樣的標注實際成本遠不止於此。
    畢竟很多小語種之間的互譯成本顯然相比於主流語言之間的互譯價格還要更高。
    雖然實際操作中不會真的有大怨種按部就班進行上百種語言互譯的數據標注。
    但這個估算也充分說明了數據標注在相當長的一段時間內都很昂貴。
    同樣的道理,在現在這個時空數據標注方麵的成本也依然是昂貴的。
    而且因為這個時空機器學習方麵研究進展的滯後,現在涉及到數據標注這方麵的成本甚至還要高於前世同一時期的。
    二、時代是在飛速發展的,要知道現在隨便一個文體店就能很方便買到的科學計算器其實際效率、可靠程度、易用性甚至可以全方位吊打上個世紀五六十年代花費上千萬美元搞出來的占地幾百甚至是上千平方米的計算機。
    這種情況下後世很便宜的計算器拿到幾十年前縱然是要價上百萬美元同樣是有市場的,而且可能還會相當有競爭力。
    舉這個例子並不是說林灰要再往前幾十年去賣計算器。
    林灰隻是想藉此說明時代的車輪是向前的,科技也是在飛快發展的。
    尤其是在中後互聯網時代,科技的發展說是日新月異也絲毫不為過。
    在這種情況下,往後幾年一些不怎麽被人過分重視的技術在幾年前能夠換取大額的財富是很正常的。
    更何況還是利用數據標注這個相當長一段曆史時期內都隻能是土豪公司才玩得轉的東西去換取財富?
    總之,林灰沒覺得“在現在1000萬條雙語標注數據怎麽著也得要個兩三億美元”這個估算的有什麽問題。
    甚至於,即便是“兩三億美元的價格”,這個價格的估算可能還有點保守。
    在人工智能的產業結構中,主體包含有應用層、技術層和基礎層。
    應用層包含有解決方桉和產品服務。
    技術層包含有應用技術、算法理論和平台框架。
    而基礎層則包含有基礎設施和數據。
    從這個角度來衡量的話,某種程度上甚至可以將數據是人工智能的基石。
    事實也正是如此。
    涉及到人工智能的三駕馬車算法、算力、算據(數據)。
    算法看起來很重要,但要知道很多時候,沒有優質數據存在,就很難訓練出優質的算法。
    數據這東西雖然通常情況下看不見摸不著,但任誰也不能忽視數據的重要性。
    尤其是標注數據更是相當重要。
    在時下有監督的機器學習仍然是當前神經網路學習訓練的主要方式。
    而有監督的機器學習是離不開標注數據的。
    有監督的機器學習需要被標注數據作為先驗經驗。
    在有監督的機器學習裏未被標注的數據和被標注數據以比例劃分為訓練集和測試集。
    機器通過對訓練集的學習得到一個模型,再對測試集進行識別,就可以到的該模型的準確率。
    算法人員根據測試結果找到模型的短板,並將數據問題反饋給數據標注人員,再重複流程,直到得到的模型指標符合上線需求……
    在時下幾乎沒啥無監督學習的應用的情況下,大規模、高質量的人工標注數據集甚至可以說是現在機器學習產業發展的剛需。
    在這種情況下,把數據以及標注數據看得再重要也不為過。
    因此才有了林灰所謂的估值估低了的說法。
    不過所謂的估值也不重要了,真涉及到標注數據的出售的話具體價格完全可以慢慢談。
    林灰是需要很多錢,但如果是將來同一些超級巨頭進行談判的話,林灰也未必一心要錢。
    用林灰感興趣的資源進行交換也不是不可以。
    說實話這些頂尖巨頭的部分資源對林灰還是相當有誘惑力的。
    具體到林灰現在所擁有的標注數據。
    曾經涉及到網文翻譯的時候,林灰當初幾乎是第一時間想到了前世那部手機裏siplet這個軟件是前世林灰所在公司開發測試的一款軟件。
    這個軟件不怎麽為人所知是因為該軟件還處於α內測階段。
    α測試的目的是評價軟件產品的功能、局域化、可用性、可靠性、性能和支持。
    尤其注重產品的界麵和特色。
    α測試的時間可以從軟件產品編碼結束之時開始。
    也可以在模塊(子係統)測試完成之後開始。
    還可以在確認測試過程中產品達到一定的穩定和可靠程度之後再開始。
    siplet達到一定的穩定和可靠程度之後才開始的。
    所以說雖然simplet尚在內測。
    但這款軟件的技術水平也是相當成熟了,幾乎離正式麵世隻差一輪公測。
    林灰原本想過待時機合適將這樣一個軟件複刻出來去進軍軟件翻譯市場的。
    在留心到標注數據所擁有的特殊價值的情況下。
    林灰同樣差不多是第一時間想到了simplet這一軟件。
    畢竟作為一個主打ai翻譯的軟件,其訓練過程中自然是同樣用到大量的雙語互譯標注數據的。
    而simplet這款未正式上市的軟件作為前世公司寄予厚望的產品之一。
    對這款軟件在實際開發中所用到的標注數據林灰相信肯定能在前世企業數據裏翻找到的。
    這種情況下似乎現在直接拿曾經公司在調教simplet這款軟件所用到的標注數據去換錢豈不是事半功倍?
    雖然simplet這款軟件在架構的時候同樣沒有進行全語種的互譯數據標注。
    但最起碼涉及到中、英、俄、法、西、日這些常見語種之間的互譯數據標注肯定是要有的。
    縱然這些語種之間的互譯數據不是所有的語種之間都能達到千萬條的互譯標注規模。
    但最起碼中-英、英-中互譯標注數據肯定還是相當有規模的。
    在這種情況下,林灰估算了一下前世simplet這款軟件所用到的標注數據在今天起碼也要擁有七八億美元的價值。
    這無疑是一筆相當巨額的財富。
    最關鍵的是即便林灰拿了這些語種之間的互譯標注數據去換錢。
    也不妨礙林灰到時候將simplet這個軟件推向翻譯市場。
    呃,雖然有點奸商的作風。
    但怎麽說呢,一雞多吃才是互聯網時代下的典型商業特色。
    盡管短時間內林灰不大可能去突然涉及到翻譯領域的互譯標注。
    但林灰手中的標注數據可不僅僅是翻譯領域。
    以林灰此時所耕耘的自然語言處理這個方麵吧。
    盡管林灰在此前的生成式文本摘要模型的構建中主要是使用無監督訓練的方式進行的大量數據獲取以及相應的模型訓練。
    但林灰手中確確實實是有自然語言處理方向的標注數據。
    而且是超大規模的文本標注數據。
    這更是一筆相當大的財富。
    雖然這種文本數據標注相比於雙語互譯文本標注(標注起來門檻更高)的數據其價值肯定是要打折扣的。
    但在形成規模的情況下縱然是一般的標注數據一樣是一筆不容小視的財富。
    僅僅是涉及到文本摘要有關的一些普通標注數據林灰估計在這個時空換取幾千萬美元的話完全沒問題。
    如果對這些標注數據加以一定包裝並且足夠幸運能夠遇到一些識(yuan)貨(da)人(tou)的話。
    商業談判時如果談判的人很會的話談到近億美元也是有可能的。
    如果對標注數據進行一定的包裝,林灰估計忽悠個上億美刀也是完全沒問題的。
    對這些標注數據加以一定的包裝是什麽意思呢?
    就是美化標注數據的質量。
    嚴格來講的話,同樣是標注數據也是可以區分為專家標注和眾包的。
    所謂的“專家標注”也不是真的專家去進行標注。
    “數據標注”聽起來似乎蠻高大上的,但實際上呢?
    進行數據標注過程往往非常複雜,涉及到數據量特別多的時候,對人工勞動力會有很高的要求。