第254章 沒人比我更懂挖數據
字數:7298 加入書籤
雖然林灰內心深處有很多線上辦公軟件不錯的命名方案了。
但眼下租賃的f.fsg這個線上遠程辦公軟件注定了隻會是一個臨時應急之用。
這樣的一個臨時湊數的東西縱然在同時代對比的話還算是比較靠前梯隊裏麵的。
但以往後幾年的眼光看,這玩意別說80分了,就是打60分都堪憂,總之就不及格的產品。
不要說深度協同能做得多麽到位,就連最起碼的信息降噪之類的東西都尚待完善。
這種情況下,林灰其實對這玩意也沒過於看重。
太正式的命名似乎也沒什麽必要。
之所以提到命名這問題隻是因為現在名為“f.fsg”的軟件在林灰看來確實有點不倫不類。
反正林灰是沒搞懂現在這個命名是什麽含意。
還是換個名字的好,不過具體換什麽名字姑且就完全就給黃靜去辦吧。
林灰對黃靜說道:“這事讓他們開發團隊來斟酌,或者幹脆你來安排就好了。”
黃靜點了點頭,並且一定會按照林灰的交代將林灰的想法充分轉達。
至於林灰是什麽想法?
雖然林灰似乎什麽也沒說,但這並不妨礙黃靜去揣測。
一般來說涉及應用適配給客戶往往需要是是代入客戶的真實使用場景,從而進一步分析客戶需求。
具體到客戶雖然千變萬化,但無非也就是分為專家型客戶、主流客戶和隨意型客戶。
專家型客戶往往指的是願意探索你的產品和服務、舍得花時間研究新產品的。
這類客戶通常是有很強大的軟件開發實力的。
很多時候這類用戶不需要軟件的原始團隊對她們單獨適配。
甚至於原始軟件的疏漏和不足的地方還會的bug反而會激發這類客戶diy的樂趣。
隨意型客戶指的是有喜歡使用一些新奇的功能,對這類客戶往往隻要簡單適配就可以了。
而骨幹行型主流客戶不會被你產品的技術所吸引,使用產品的目的是為了完成某項任務。
對於這類客戶往往是要進行深度適配的。
一般來說客戶並不會在這幾個標簽之間反複橫跳。
像林灰現在這種情況明顯是屬於骨幹型客戶,對於這樣的客戶不進行深度適配是不可能的。
反正黃靜覺得林灰之所以提到中文命名這件事不僅僅隻是顧念一個名稱這件事。
畢竟一個臨時湊數的應用似乎沒什麽必要在名稱上浪費精力。
黃靜覺得林灰是在含蓄地向黃靜轉達下讓海外的原創團隊多搞一些符合中國用戶習慣的設計。
同時在設計上要盡量照顧一下中國的用戶。
之所以林灰先前在訂製任務裏麵沒明說?
黃靜覺得林灰隻是顧念她和f.fsg這個線上辦公軟件的原創團隊認識而已。
於是林灰沒當著黃靜的麵提出過多的方案修改意見。
能如此體恤下屬的情緒,黃靜越發覺得追隨林灰是個正確的選擇。
當然黃靜內心深處的自我攻略,林灰對此是並不知曉的。
林灰之後和黃靜也沒聊線上辦公。
而是又聊了一些美國科技巨頭的訊息。
雖然基本都是八卦之類的無聊消息,不過也不是所有信息都是八卦。
至少林灰不是一無所獲。
從跟黃靜的後續談話中林灰從黃靜那得知了一個頗為重要的信息。
那就是蘋淉方麵似乎致力於在謀求一筆總額大概在兩億美元到三億美元大宗數據交易。
對於這條消息黃靜在描述的時候有點含糊其辭。
似乎生怕不小心坑了林灰似的。
以前黃靜描述的信息往往都言之鑿鑿。
很少出現不自信的情況。
涉及到這宗交易黃靜先說是數據交易後來又說不是數據交易。
搞得林灰都有點糊塗。
即便是小道消息林灰也很看重相應的價值,畢竟很多時候無風不起浪。
至於黃靜說得這個訊息到底是什麽,經過進一步的詢問以及多方查驗。
以及更進一步的一番推敲,林灰還是搞明白了。
所謂的兩三億美元的數據交易交易的確實是數據,但又不是一般類型的數據交易。
蘋淉方麵此次謀求的數據收購的目標指向的實際是“暗數據”。
暗數據有時候也被稱為塵埃數據。
暗數據或者說“塵埃數據”是由所有冗餘的、經常被遺忘的數據組成的。
這些數據是公司和組織在其活動過程中收集的,但隨後又不使用。
這些信息往往是無結構、無標記、無分析的信息。
通常這類數據幾乎是被無視的,畢竟這類數據存在於網絡和服務器中,隻會占據了寶貴的空間。
一般來說,暗數據主要有三種類型:
第一種是傳統的基於文本的數據。這可能包括電子郵件,日誌和文檔。
第二種類型是非傳統數據。
這包括未標記的音頻和視頻文件、靜止圖像和聲音文件。
第三種類型是深度數據。
這包括深層網絡中搜索引擎無法觸及的信息。
這些深度數據大多是私有的,由政府或私人機構控製。
它包括由學者、政府機構和當地社區策劃的數據、醫療記錄、法律記錄、財務信息和組織特定數據庫。
以上這些數據都可以稱之為暗數據。
暗數據這類數據雖然相比傳統意義上數據雖然要更隱晦一些。
暗數據這種未標注過的數據雖然不能拿來直接用吧。
但卻不能否定這種東西的潛力。
反正絕對不能說這些信息不重要。
至於果子為什麽對這類東西感興趣。
因為收集這類一貫不被視為數據的數據。
實際上通過深耕是能得到跟傳統數據差不多的功效的。
而且使用這類數據的話,通過一些概念性的教育消費者甚至可以形成一種企業從來不涉足一般數據的印象。
這對於樹立企業形象豈不是很有妙用??
總之,對於既當又立的企業不能說是沒有誘惑力。
反正林灰覺得從暗數據入手這倒是符合很多科技巨頭的行事風格。
類比林灰以前估量的價格。
如果說幾千萬美元就能買上千萬條雙語標注數據。
可想而知像蘋淉所謀求的價值兩三個億美元的暗數據肯定是一筆相當龐大的數據。
涉及到標注數據跟暗數據一大區別在於標注數據是結構化進行過一定處理的數據。
而暗數據很大程度上是未被結構化處理甚至很是“亂糟糟”的數據。
結構化的數據一般是即有固定格式和有限長度的數據。
例如填的表格就是結構化的數據。
比如說“國籍,種花家,民族:漢,性別:男,姓名:張三,年齡:……”
這種央視的都叫結構化數據。
這類數據很容易以固定的格式存儲到數據庫裏。
而半結構化數據值得是一些 xl 的格式的數據。
對這類數據當根據需要可按結構化數據來處理,也可抽取出純文本按非結構化數據來處理。
所謂的非結構化的數據:就是不定長、無固定格式的數據。
例如網頁,郵件,有時候非常長;有時候非常短,幾句話就沒了,這類就是典型的非結構化數據。
子啊比如說例如 word 文檔、語音,視頻、圖片都是非結構化的數據。
而半結構化數據和非結構化數據,一般合二為一統稱為“暗數據”。
這個詞語也不是林灰定義的。
相比於標注數據這種結構化數據,暗數據同標注數據此二者的價值是不可同日而語的。
單位標注數據的價值往往幾十倍甚至於幾百倍於單位暗數據。
兩三億美元就算是換取較為昂貴的跨語種語言類標注數據都能換上幾億條。
更何況說拿幾億美元去換暗數據呢?
可想而知,兩三億美元涉及到的暗數據是一筆相當可觀的暗數據。
林灰那有很多前世的信息。
但也絕不可能有滿足蘋淉胃口的暗數據。
不要說是林灰前世那點信息了。
就是像國內有的忝居互聯網巨頭之列外強中幹的互聯網公司所擁有的暗數據規模也未必能滿足蘋淉的胃口。
這種情況下如果林灰對蘋淉的這筆巨額收購感興趣的話似乎隻能去收集暗數據了。
156n.net
至於如何去收集呢?
暗數據的收集方式多種多樣。
因為暗數據包括用戶活動日誌、客戶對話或電子郵件記錄、服務器監控日誌、視頻文件、物聯網產生的機器和傳感器信息。
暗數據還可能包括由於存儲在過時設備上而無法再訪問的數據。
這種情況下很多時候清理活動日誌或者說收集存儲碎片的時候都有可能順手牽羊搞到一些暗數據。
除此之外還有很多種收集暗數據的方式。
說起來雖然很容易。
但正所謂拋開劑量談毒性都是耍流氓。
同樣的道理拋開數據規模談咋挖掘數據同樣是耍流氓。
像蘋淉所圖規模的暗數據肯定不是傳統的數據挖掘方式能滿足的。
似乎時下也沒太好的挖掘暗數據的方式。
傳統的公司,在處理暗數據的時候,采用的是笨辦法,想辦法把非結構化的數據轉換成結構化數據。
這種方法費時費力。
不過也僅僅隻是對於時下的科技公司來說。
對於林灰來說他還是有很多數據挖掘方式的。
沒人比林灰更懂如何挖掘數據了。
對於大規模的數據挖掘,似乎最方便的方式就是借助於人工智能來挖了。
甚至於林灰前世電腦裏有一些現成的挖掘暗數據的方式。
雖然效率受限於時下的硬件可能會大打折扣。
但相比於現在傳統的挖掘方式也是降維打擊般的存在了。
不過新的問題又來了,從哪挖掘暗數據呢?
前麵提到了像有些屬於私有的,由政府或私人機構控製的深度數據。
這類包括由學者、政府機構和當地社區策劃的數據、醫療記錄、法律記錄、財務信息和組織特定數據庫在內的數據。
就算是屬於暗數據。
借林灰十個膽子林灰也不敢去挖。
畢竟這玩意另一個名字叫國家機密。