一個搜索引擎,還有比這更棒的東西麼?
凱瑟琳未來自己經常登陸的網站,大多都是透過“百度一下”而知道的。凱瑟琳覺得,自己很有必要弄出一個搜索引擎來……如果要追溯的話,搜索引擎的“歷史”比WorldWideWeb還要長。早在Web出現之前,網際網路上就已經存在許多旨在讓人們共享的資訊資源了。這些資源當時主要存在於各種允許匿名訪問的FTP站點。
就目前而言,大多數網站都是大學的門戶網,其他的網站實在是太少了,於是搜索引擎的存在意義就被淡化了。
但是未來肯定不會如此。
且不說自己想要將這網上這些蛋疼的人分開,從另一方面而言,因為和《洛杉磯時報》的合作也快要開始了,綜合型別的網站總是會出現的,於是搜索引擎就會變得必要起來。
“也許這是一個不錯的注意……”凱瑟琳撐著下巴,然後在思考著。
而艾爾莎看看時間,已經快到下午三點了,於是就去泡紅茶了。
“什麼主意?”
艾爾莎一邊在拿著茶餅,一邊問著。
“一個搜索引擎,一個能夠讓我們知道各種網站的一個好東西。”
“我們可以將自己想要的網頁搜尋出來?”
“對,就是這樣。”
“這能辦得到嗎?”
“當然……”
雖然是肯定的回答,但是凱瑟琳最後的語氣卻變得有些奇怪。
搜索引擎依靠的是網路蜘蛛,即Web-Spider。
這是一個很形象的比喻,就如同網路被人稱為“Net”一樣(Net就是“網”的意思)。
準確一點來說,網路蜘蛛就是透過網頁的連結地址來尋找網頁,從網站首頁開始讀取網頁的內容,找到在網頁中的其它連結地址,然後透過這些連結地址尋找下一個網頁,這樣一直迴圈下去,直到把這個網站所有的網頁都抓取完為止。如果把整個網際網路當成一個網站,那麼網路蜘蛛就可以用這個原理把網際網路上所有的網頁都抓取下來。簡而言之,網路蜘蛛就是一個爬行程式,一個抓取網頁的程式。
未來的“百度”、“谷歌”等等網站,都是建立在這樣的一個基礎之上的。
可是凱瑟琳突然想到自己似乎根本就沒有瞭解過“網路蜘蛛”這個東西,雖然知道原理,但是想要弄出來……似乎還有些麻煩。
“看來還給成立一個工作組才行。”
開始了抱著雙手站了起來。
“我覺得我們公司的人才已經夠緊張的了。”艾爾莎將紅茶和茶餅放在了凱瑟琳的桌上。
“沒關係,到了五月份,這種情況就能得到緩解。”Intel與斯坦福大學的合作培養的第一批學生已經快要畢業了,有了他們的加入,公司的人才緊缺的問題必然能夠得到一定程度的緩解。
“至少在未來十年內,我們公司的人才都有可能是供不應求,這是一個急速擴張的產業,和那些傳統行業是不一樣的。”
——直到21世紀,這些行業對於人才的渴求依然是強烈的。
當然,中國除外——因為那裡的人實在是太多了,乃至於都有了“IT民工”的說法。
凱瑟琳坐了下來,然後喝了一口紅茶。
她一邊喝著茶,一邊在思考著應該如何寫一個網路蜘蛛的程式出來。
評價一個網路蜘蛛的好壞,有三個方式,一個是覆蓋率,網路蜘蛛的首要目標是抓取網際網路上所需的資訊。因此,有價值的資訊是否都收錄,收錄的比例是網路蜘蛛的基本評價指標;第二個則是時效性,即事件發生並在網際網路上傳播後(以新聞、論壇、部落格等各種形式),使用者需要透過搜索引擎儘快能檢索到相應內容。而索引的前提是收錄,因此需要網路蜘蛛儘快的抓取網際網路上最新出現的資源;最後則是重複率,網際網路上重複的內容很多,如何儘早的發現頁面重複並消除之,是網路蜘蛛需要解決的問題。除轉載導致的重複外,重複總能體現為各種不同的模式,站點級重複,目錄級重複,CGI級重複,引數級重複等等,及早發現這些模式並進行處理,能節省系統的儲存、抓取、建庫和展現資源。
第一個問題最好解決,因為美國電信的根伺服器就在諾亞。網頁的覆蓋率永遠都是100%。
需要解決的是第二和第三個問題。
事實上這也不是個大問題,原理很容易解決,最重要的一環在於需要一個高效率的程式。
光憑自己一個人的話,可能需要不少的時間。凱瑟琳一直夢想的是當一個甩手掌櫃,這事怎麼能夠發生呢?——於是,找人就是必須的。
【新章節更新遲緩的問題,在能換源的app上終於有了解決之道,這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】
最後,凱瑟琳決定從微軟的Phoenix-Stargate開發組抽調了三個人出來,幫助開發這個網路蜘蛛程式。
反正星門系統的開發已經差不多了,這個時候自己抽調一些人出來開發網路蜘蛛完全不是問題。
網路蜘蛛是搜索引擎的一個最核心的部分。有了這個程式之後,搜索引擎的建立就會非常簡單了。
那……自己的這個網站應該叫什麼名字呢?
百度?
她首先就想到了這個名字。
凱瑟琳搖了搖頭,與其叫百度,還沒有谷歌來得更有味道。畢竟,後者可是全球性的搜索引擎,而前者只能侷限在中國大陸地區嘛……而且更重要的一員原因是,凱瑟琳對於百度的某些功能非常的有怨念,而且還不能翻牆。
在這上面,谷歌的搜尋就方便多了——前提是用國外版,好孩子片什麼的,很容易就可以找到。雖然這是上輩子的情感,但是凱瑟琳覺得還是谷歌稍微要好那麼一點點。
最後,凱瑟琳決定將自己的這個網站命名為Google,也就是谷歌。
不過凱瑟琳並不打算如同歷史上的那個谷歌公司一樣去涉及各種的產業,什麼手機、辦公都一網打盡。
自己已經有了專門的手機部門,微軟也是自己的,谷歌公司所要做的事情,就是扮演好一個搜索引擎自己的角色。
這方面凱瑟琳覺得還是去參考一下百度,還是一個不錯的選擇。
貼吧、知道、百科,這些都是必須的。
“谷歌貼吧……谷歌知道……谷歌百科……”凱瑟琳在筆記本上將關鍵詞一一寫下。
“唔……維基百科似乎也不錯……算了,還是谷歌吧。”
凱瑟琳決定不去佔用“維基”的名字,看著阿桑奇如何將這些政府的醜態全部挖出來,似乎挺有趣的。
但是如果自己佔用了“維基”的名字,萬一以後阿桑奇做出了些什麼事情,那城門失火,殃及池魚,自己可就糟了。
“谷歌?那是什麼?”
艾爾莎將茶具收走。
“搜尋網站的名字。”
“哦。”
有了搜尋網站,大家就能夠找到和自己臭味相投的網站了,而那個時候,網路上面的火藥味大概也就不會這麼濃烈了。
“Google……”
凱瑟琳在筆記本上寫下了谷歌的幾個字母。
“這就是你說的那個谷歌?”
“是的,不僅僅只有一個搜索引擎而已,這應該是一個綜合性的網站……當然,這個網站的大部分內容以搜尋為主。”
貼吧、知道、百科,這些都是必不可少的。
“我的這個谷歌,在除去了搜尋功能之外,還應該擁有替人們解決問題的功能。例如,大家有問題了,他們就可以到我們的谷歌網站來,然後就可以找到他們的問題的解決方法。”
“聽著可真不錯……是為了使用者的依賴度嗎?”
艾爾莎似乎看出了些什麼。
“對,對。使用者的粘性很重要。”凱瑟琳擺出了一副“孺子可教”的表情。
“我們可以在谷歌知道讓使用者提問,他們遇到了難以解決的問題,就可以在這邊尋求解決方案……當然,我們公司自身並不提供解決方案的辦法,而是讓網友們自己來,從而形成一種互動。而我們的谷歌百科,則是類似於百科全書的存在,大家想要找什麼知識,只要到我們的谷歌百科來就好了。”
“那……貼吧又是什麼呢?”艾爾莎注意到凱瑟琳似乎好像沒有提及貼吧的功能。
“貼吧應該是和論壇差不多的功能,但是性質有些不太一樣。谷歌將會成為我們未來很重要的一個產品!”
貼吧和論壇是存在很大不同的,但是凱瑟琳不知道怎麼和艾爾莎說明。
“谷歌……這名字越聽越覺得順耳,真不錯。”艾爾莎摸著下巴想了想。
“這是必須的。”
除了谷歌,Facebook也是一個不錯的東西,但是開設一個Facebook的網站……這根本不可能。現在的計算機根本不可能將人臉的照片給完美的弄成圖片,影象會有巨大的損失。更重要的是,現在根本沒有網路攝像頭。
“凱特,你似乎很重視谷歌?”
“當然,我連廣告詞也想好了。”
“廣告詞?”
“谷歌一下,你就知道。”