搜索引擎基礎(chǔ)篇,了解搜索引擎是如何進(jìn)行排序。在2011年的一篇文章當(dāng)中,Google的官方文章曾經(jīng)說(shuō)道:
“給搜索結(jié)果排序是非常困難的,比大多數(shù)人認(rèn)為的要困難得多。其中一方面原因在于語(yǔ)言本身就具有模糊性,容易產(chǎn)生歧義。而網(wǎng)頁(yè)本身的規(guī)則也不一樣。如何表達(dá)信息著實(shí)沒(méi)有標(biāo)準(zhǔn),因此我們需要理解所有的網(wǎng)頁(yè),不管是誰(shuí)寫(xiě)的,是什么目的創(chuàng)作出這些文件。而這樣做也僅僅能解決一部分問(wèn)題。我們還需要了解人們所使用的查詢(xún)關(guān)鍵詞,通常少于三個(gè)字,并將其映射到我們對(duì)所有文件的理解上。況且不同的人有不同的需求,這一點(diǎn)更不用提了。我們需要在幾毫秒內(nèi)做的所有事情就是……據(jù)估計(jì),編程員/科學(xué)家對(duì)搜索引擎已經(jīng)研究了很長(zhǎng)的時(shí)間。盡管如此,創(chuàng)新的速度還沒(méi)有減慢。”
“谷歌搜索的時(shí)間通常只持續(xù)不到半秒鐘,然而其中卻涉及很多個(gè)不同的步驟。這些步驟在查詢(xún)信息的人得到搜索結(jié)果之前必須完成。”
搜索引擎根據(jù)多種因素來(lái)決定如何排列網(wǎng)站內(nèi)容。在較高層面上,搜索引擎將各類(lèi)內(nèi)容和它們認(rèn)為和內(nèi)容相關(guān)的一系列關(guān)鍵詞聯(lián)系起來(lái)。
搜索者在進(jìn)行查詢(xún)時(shí),搜索引擎會(huì)搜集和該查詢(xún)相關(guān)的所有網(wǎng)頁(yè),并按照相關(guān)度和有用性對(duì)其進(jìn)行排序(基于以下因素:指向這些網(wǎng)頁(yè)的外部相關(guān)鏈接數(shù)目、外部鏈接文本以及意圖估測(cè)等——例如,如果搜索者打算購(gòu)買(mǎi)某個(gè)東西,那么搜索引擎會(huì)盡量提供更多的電子商務(wù)網(wǎng)站),然后確保得到的網(wǎng)頁(yè)比較多樣化(這并不包括復(fù)制網(wǎng)站,也不只包含單一類(lèi)型的網(wǎng)站)。
例如當(dāng)用戶(hù)搜索一款手機(jī)的時(shí)候,搜索引擎需要知道用戶(hù)是想了解這方面的信息還是想找到賣(mài)這款手機(jī)的網(wǎng)站。由于要猜測(cè)搜索者的意圖,才能給用戶(hù)返回最相關(guān)的結(jié)果。所以,搜索引擎的技術(shù)當(dāng)中有語(yǔ)義分析,搜索分詞,不斷索引各種網(wǎng)站等。
搜索引擎工作流程圖:
Copyright@ 2011-2016 版權(quán)所有:大連千億科技有限公司 遼ICP備11013762-3號(hào) google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區(qū)中山路692號(hào)辰熙星海國(guó)際2317 客服電話(huà):0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉(zhuǎn)載本站內(nèi)容等行為者,本站保留追究其法律責(zé)任的權(quán)利! 隱私權(quán)政策聲明