說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預警
實時把握輿情動態(tài)精準追溯信息源頭
隨著科技的進步和發(fā)展,互聯(lián)網(wǎng)在現(xiàn)代社會中,廣泛被人們認可和重視。網(wǎng)絡(luò)營銷也掀起了一次高潮。在所有網(wǎng)絡(luò)推廣方法中,搜索引擎是大家談?wù)摱嗟模谑俏覀兊耐茝V之旅也將從這里開始。
確實,搜索引擎是網(wǎng)絡(luò)推廣中的一個非常強大的武器,如果我們想很靈活的掌控它,那么我們首先必須先了解它。
我們要了解它是如何工作、如何分類、如何查詢等一系列問題,而且搜索引擎像人一樣各不相同,所以對于如此特別重要的引擎來說,我們還需要了解它的個性。
1、兩個基本的詞匯:搜索引擎(SearchEngine)是通過運行一個軟件,該軟件在網(wǎng)絡(luò)上通過各種鏈接,自動獲得大量站點頁面的信息,并按照一定規(guī)則進行歸類整理,從而形成數(shù)據(jù)庫,以備查詢。這樣的站點(獲得信息==>整理建立數(shù)據(jù)庫==>提供查詢)我們稱之為“搜索引擎”。而所使用的軟件一般叫做“Spider”、“crawlers”等。分類目錄(Directory):通過“人工方式”將站點進行分類而建立數(shù)據(jù)庫,以提供查詢,這樣的站點叫著“分類目錄”。典型的搜索引擎如AltaVista、Excite、HotBot、Inktomi等,而重要的分類目錄是 Yahoo。
實際上無論“搜索引擎”還是“分類目錄”,目標都一樣:獲得網(wǎng)站資料,建立數(shù)據(jù)庫提供查詢。只不過使用的方法不同。
“搜索引擎”因為依靠軟件自動進行,因此,其數(shù)據(jù)庫的容量非常龐大,但是伴隨著查詢結(jié)果往往不夠;而“分類目錄”由于依靠人工分類,查詢得到的信息要準確些,但收集的內(nèi)容非常有限。
我們平時把這兩類統(tǒng)稱為“搜索引擎”,在下面的討論中我們將以“自動”的搜索引擎為主,至于“人工”的如Yahoo,我將會在“中文Yahoo”中單獨討論。
2、主要的搜索引擎:
七個主要的搜索引擎及各自包括的頁面數(shù):引擎AltaVistaNorthernLightInktomiExciteLycosInfoseekWebCrawler頁面數(shù)(百萬頁)1501251105550452(以上數(shù)據(jù)為1999年2月1日統(tǒng)計值)
3、搜索引擎的主要工作:
步是“Spider”軟件訪問一個站點,并通過其中的鏈接閱讀該站點的頁面,而且“Spider”會不時的自動回訪該站點以檢查變化情況;該 “Spider”獲得的站點信息形成一個巨大的網(wǎng)絡(luò)信息庫,如同整個網(wǎng)絡(luò)上已經(jīng)訪問站點的備份,當然記錄的不是所有的內(nèi)容;這也是我們所說的數(shù)據(jù)庫。第二步是查詢服務(wù)。這是通過查詢軟件實現(xiàn)的,當你輸入查詢內(nèi)容,該軟件會在其數(shù)據(jù)庫中找到相關(guān)內(nèi)容,然后按照“它的”規(guī)則進行排序。
4、搜索引擎在查詢時是如何排名的:
這個主要的是根據(jù)一個站點的內(nèi)容與查詢詞的關(guān)聯(lián)程度,但是一個站點的內(nèi)容搜索引擎又是如何確定的呢?
——標題(Title)、關(guān)鍵詞(Keywords)、描述(Description)、頁面開始部分的內(nèi)容以及這些內(nèi)容本身之間的關(guān)聯(lián)程度。而且現(xiàn)在絕大部分搜索引擎都支持MetaTag。
另一個主要因素是一個站點在整個網(wǎng)絡(luò)上的關(guān)聯(lián)程度,也是說一個站點在網(wǎng)絡(luò)中其他站點出現(xiàn)的次數(shù)(LinkPopularity)。
雖然不同的搜索引擎有各自的“游戲規(guī)則”,但是請記住“關(guān)聯(lián)程度”這個詞,包括站內(nèi)和站外的(整個網(wǎng)絡(luò))。
接下來我們來談一談搜索引擎的原理是什么?
搜索引擎的原理基本分做三步:
步:從互聯(lián)網(wǎng)上搜集信息
網(wǎng)絡(luò)蜘蛛Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。
第二步:整理信息、建立索引數(shù)據(jù)庫
由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁所在網(wǎng)址鏈接、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等信息,根據(jù)一定的相關(guān)度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
第三步:在索引數(shù)據(jù)庫中搜索排序、接受查詢
當用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。
,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址、頁面內(nèi)容摘要等內(nèi)容,組織起來返回給用戶。網(wǎng)絡(luò)蜘蛛(spider)一般按照各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率,要定期重新訪問所有網(wǎng)頁,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況會以更新的形態(tài),反映到用戶搜索查詢的結(jié)果中。
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732