第四十六章 搜索引擎的研發

字數:5084   加入書籤

A+A-


    隋波安撫好了左清泉之後,也答應她,等考試周之後,會讓她負責一些相對輕鬆的工作。

    比如公司現在還沒有專門的行政部門。

    <101nove.comeo辦公室,兼管公司內部行政綜合事務,像法務、公關、後勤、文件報告匯總之類的事情。

    這也是一種鍛煉。

    可以從這些內部的職能工作,讓他們全麵的熟悉和理解公司正規化運作的流程和模式。

    等左清泉離開之後,隋波想了想,還是覺得應該去看看王川團隊的研發進展。

    隨著這段時間各項目展開,無論是龐勇還是周楓、王川他們都覺得技術力量不夠,又各自從學校裏拉了一些同學進入團隊,整個技術團隊擴張的很快。

    當時隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。

    周楓、許朝軍帶領的校內網開發團隊和王川帶領的搜索引擎研發團隊,都從原來的辦公室分了出來,易趣那個辦公室裏隻留了電商團隊。

    新業務的研發團隊分別在兩個新辦公室裏閉關。

    一推開門,隋波有些驚訝的看到,不大的房間裏,中間是一張長桌,長桌上一個緊挨一個的擺放著十幾台電腦,將長桌擠得滿滿的。

    一幫少年們頭發亂糟糟,眼圈發黑,眼睛發光的盯著電腦屏幕,渾然忘我的劈裏啪啦敲打著鍵盤。

    桌上的電腦之間就算稍微有點空隙,也都擺滿了方便麵火腿腸之類的速食品。

    要不是那些電腦屏幕上,顯示的一行行代碼,簡直就是一個小型黑網吧的現場!

    王川坐在最靠裏的一台電腦前,眉頭緊鎖,盯著屏幕,似乎正在思索什麽難題。

    別看這個場麵,看起來好像是一群泡吧的頹廢網癮少年。

    隋波可是清楚,這幫少年們都是計算機天才!

    王川直接從學校裏拉了不少水木計算機國家集訓隊的隊友來,組成項目團隊攻關搜索引擎!

    隋波想了想,回去找左清泉。

    讓她找附近的餐廳預訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、麵包餅幹之類的小食品,放到幾個研發團隊的辦公室裏。

    估計不僅王川團隊,龐勇、周楓他們那兒也都一樣。

    這幫技術男們敲起代碼來,都是沒日沒夜的。

    沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室裏,和他專門交流研發情況。

    目前搜索引擎項目最大的困難在於,沒有可供參考的對象。

    雖然可以參考一些國外的資料和論文,但因為涉及到一些核心技術,是無法通過網絡查找到的,都需要自行開發。

    隋波點頭表示同意。

    這個時候google還不存在呢,要到9月份的時候,布林和佩奇才會在加州一個車庫裏開始創業。

    百度更是沒影的事兒,老李還在搜信裏混呢。

    現階段,無論是國外的lyos、altavista、infoseek(搜信),雅虎搜索引擎;還是國內搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄為主的網站檢索服務。

    說是搜索引擎,其實更像是目錄導航網站……

    盡管其中一些搜索引擎已經有了網頁關鍵詞檢索、用戶點擊量排序等一些創新,但本質上,還是需要大量的人工編輯的目錄式搜索引擎(diretory searh engine)。

    而隋波希望王川團隊開發的,則是全新的,通過技術程序,自動在互聯網上通過超鏈接網頁進行全文檢索的機器人搜索引擎(robot searh engine)。

    這樣的話,就需要從頭做起,開發一整套完整的技術體係。

    <101nove.comrawler)服務、索引服務、緩存服務、日誌服務等幾大模塊,各模塊之間互相影響,構成了整個搜索引擎體係。

    從開發量上,技術難度是遠遠大於目錄式檢索技術的。

    首先說網絡爬蟲,也稱網絡蜘蛛(web spider),這項技術是基於web的自動化瀏覽程序,通過網頁鏈接(url),爬蟲不斷的通過互聯網中獲得新的網頁數據,下載頁麵數據形成後台數據庫。

    可以說,網絡爬蟲抓取數據是搜索引擎工作流程的第一步。

    爬蟲的體係架構直接關係到搜索引擎每天數據的采集量,而抓取策略則關係到搜索結果的數據質量,數據的更新策略則關係到係統資源的利用率。

    這隻是第一步,采集了大量數據信息之後,還需要通過自然語言處理(nlp),將文本信息分解為結構化數據和價值性數據。

    這裏麵就又存在一個問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。

    所以,在中文分詞這一部分,就需要技術團隊單獨進行開發。

    通過建立詞庫、采用條件隨機概率分布模型、詞性標注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關鍵詞中文的語義,才能提高搜索的準確性和查全率。

    這還隻是其中比較小的開發困難。

    比如,搜索引擎的核心就是通過海量數據抓取後的快速檢索,而抓取的數據越多,當龐大的數據存儲在數據庫裏,就需要構建快速存取數據的分布式存儲架構。

    再比如,為了讓用戶在最短的時間內獲得想要的搜索結果,就需要後台係統不斷的執行數據抓取和建立索引等操作。

    這就需要建立分布式實時計算係統,以及對索引結構的構建……

    王川估計也是最近開發中有些鬱悶了,一說起來就滔滔不絕。

    隋波雖然不太懂他說的一些技術術語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識。

    他安靜的聽著王川不斷的講述團隊麵臨的一個個困難,又是怎麽想辦法克服的。

    不時提問兩句,顯得聽的很認真。

    腦子裏卻不斷的在回憶,當初google和百度是有哪些創新的舉措,才一舉成功的?

    印象最深的,就是那句“百度更懂中文”,這應該就是剛才王川所提的中文分詞了,這塊王川已經考慮到了。

    至於是不是更進一步,先弄個智能輸入法出來?……

    現在團隊的研發壓力已經很大了,暫時先略過不提。

    還有就是百度快照,不過好像這個功能雖然對用戶而言很有價值,但爭議很大……

    還有就是google獨創的pagerank技術。

    這是一種根據網頁之間的鏈接結構來評價判斷網頁重要性的排序算法。

    想到這裏,隋波就提了一下,是否在搜索結果的排序算法上,可以采用這種模式?

    從網頁的鏈接數量、權威性、主題相關性、網頁內容的匹配性等多個方麵,綜合分析,進行搜索結果的排序。

    王川聽了以後若有所思:“這個算法我回去研究一下,應該沒問題。”

    隋波笑道:“技術上我沒辦法給你太大的幫助,不過我可以從公司激勵政策和後勤上為團隊鼓勁!

    你回去和大家說一下,搜索引擎項目的團隊項目獎金定在10萬,而且根據每個人的表現,到時候還有個人獎勵。

    我已經讓清泉給你們做好後勤,每天會定時讓樓下餐廳送飯菜過來。

    另外給你們弄一個休息間,裏麵準備好啤酒、咖啡、飲料和小吃,保證供應。

    嗯……,再讓她給你們辦公室裏配一個沙發,大家累了可以躺下休息一會。

    王川,這個項目將會是公司除了電商平台,最核心的業務,還要你多辛苦了!”

    王川點頭,一臉的倔強:“波總,你放心,我有信心把這個搜索引擎搞出來!實際上每當解決一個技術難題,大家的那種快樂都是無法言表的,公司又給我這麽大的支持力度,我一定全力以赴!”

    隋波拍拍他的肩膀:“我相信你,你也別著急,和團隊成員要勞逸結合,注意休息,別搞壞了身體,我們還有足夠的時間來成長!”