說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
轉自:百度搜索研發部
我們向搜索引擎網站提交處理一個查問,搜索引擎網站會從先到后列出數量多的結果,這些個結果排序的標準是啥子呢?這個看似簡單的問題,卻是信息檢索們研討的中心困難的問題之一。
為理解釋明白這個問題,我們來研討一個比搜索引擎網站更加古老的話題:求醫。譬如,假如我牙疼,應當去看怎樣的醫生呢?如果我只有三種挑選:
A醫生,既治眼病,又治胃病;
B醫生,既治牙病,又治胃病,還治眼病;
C醫生,專治牙病。
A醫生肯定不在思索問題之列。B醫生和C醫生之間,貌視更應當挑選C醫生,由于他更專注,更適應我的病情。如果再加一個條件:B醫生內行,有二十年從醫經歷,醫療技術高超,而C醫生只有五年從醫經驗,這個問題不那末容易判斷了,是優先挑選更加專注的C醫生,仍然優先挑選醫療技術更加高超的B醫生,確實成了一個需求仔細衡量的問題。
至少,我們獲得了一個論斷,擇醫需求思索問題兩個條件:醫生的專長與病情的適配程度;醫生的醫療技術。大家肯定感到這個論斷不容置疑,并且可以很天然地聯想到,搜索引擎網站排序不也是這么嗎,既要思索問題網頁內部實質意義與用戶查問的般配程度,又要思索問題網頁本身的品質。不過,怎么把這兩種因素接合起來,獲得一個,而不是兩個或多個排序標準呢?如果我們把這兩種因素表達成數字,的排序根據是把這兩個數字加起來,仍然乘起來,或是按決策樹的方法把他們團體起來?若是加起來,是簡單相加,仍然帶權重加呢?
我們可以依據直覺和經驗,經過試錯的方法,把這兩個因素接合起來。但更好的方法是我們能找到一個明確的根據,能跟算術這么堅實的學科結合起來。提起來,根據素樸的經驗,人的總稱在古代能建筑出高樓;但要建筑出高達數百米的 挨天大廈,假如沒有建造力學、材料力學這么堅實的學科作為后盾,則是十分十分艱難的。同理,根據素樸的經驗構建的搜索引擎網站算法,用來處置上萬的網頁聚齊應當是沒問題的;但要檢索上億的網頁,則需求更為堅固的理論基礎。
求醫,病人會優先挑選診斷正確、醫治效果好的醫生;對于搜索引擎網站來說,普通按網頁滿意用戶需要的幾率從大到小排序。假如用q表達用戶給出了一個特別指定的查問,用d表達一個特別指定的網頁滿意了用戶的需要,那末排序的根據可以用一個條件幾率來表達:
P(dq)
這個簡單的條件幾率,將搜索引擎網站排序算法與幾率論這門堅實的學科結合了起來,這像在滄海中航行的船舶裝備了南針同樣。利用貝葉斯公式,這個條件幾率可以表達為:
可以明白地看見,搜索引擎網站的排序標準,是由三個局部組成的:查問本身的屬性P(q);網頁本身的屬性P(d);兩者的般配關系P(qd)。對于同一次查問來說,全部網頁對應的P(q)都是同樣的,因為這個排序時可以不思索問題,即
公式左面,是已知用戶的查問,求網頁滿意該用戶需要的幾率。搜索引擎網站為了增長響應用戶查問的性能,需求事前對所要等待查問的網頁做預處置。預處置時,只曉得網頁,不曉得用戶查問,因為這個需求倒過來計算,即剖析每個網頁能滿意哪一些需要,該網頁分了多大比例來滿意該需要,即獲得公式右面的第1項P(qd),這相當于上文紹介的醫生的專門程度。譬如,一個網頁專門紹介牙病,另一個網頁既紹介牙病又紹介胃病,那末對于“牙疼”這個查問來說,前一個網頁的P(qd)值便會更高一點。
公式右面的第二項P(d),是一個網頁滿意用戶需要的幾率,它反映了網頁本身的好壞,與查問無關。如果要向一個陌陌生人引薦網頁(我們并不曉得他需求啥子),那末P(d)相當于某個特別指定的網頁被引薦的幾率。在傳統的信息檢索板型中,這一個量不太被看得起,如傳統的矢量空間板型、BM25板型,都打算只依據查問與文檔的般配關系來獲得排序的權重。而其實,這個與查問無關的量是十分關緊的。如果我們用網頁被過訪的頻次來估計它滿意用戶需要的幾率,可以看出對于兩個不一樣的網頁,這個量有著非常很大的差別:有的網頁每日只被過訪一兩次,而有的網頁每日被過訪成千累萬次。能夠供給這么很大差別的量,竟長時期被傳統的搜索引擎網站疏忽,一直到Google創造了pagerank并讓它參加到排序中。Pagerank是對P(d)值的一個不賴的估計,這個因素的參加使搜索引擎網站的效果迅即升漲到達一個新的階梯。
這個公式一樣應答了上文提出的問題,網頁與查問的般配程度,和網頁本身的好壞,這兩個因素應當怎樣接合起來參加排序。這個公式以不可以反駁的理由奉告我們,假如網頁與查問的般配程度用P(qd)來表達,網頁本身的好壞用P(d)來表達,那末應當按他們的乘積來施行排序。在現代經濟活動搜索引擎網站中,需求思索問題更多更細節的排序因素,這些個因素有可能有結果百上千個,要把他們合成一體起來是更加復雜和難題。
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732