我們把某個關鍵詞提交到搜索引擎框的時候,中文的搜索引擎必須通過分詞技術得到用戶需要的信息,并反饋給用戶。這篇文章,JOHN帶領大家了解這個關鍵詞查詢過程和原理。在查詢的時候,一般我們分四種情況:
一、搜索引擎后臺根據分隔符或分詞詞典來進行密切的切分
用戶在搜索引擎敲入關鍵詞并按回車后,搜索引擎后臺首先判斷這個詞中是否有空格、標點符號等,如果有,搜索引擎會把這個關鍵詞再一次的分解成幾個小的關鍵詞進行分析,如果沒有分隔符則按照后臺的分詞詞典進行關鍵詞切分。
我來舉個例子,比如我們在百度搜索“力洋SEO”,點擊排名第一的網站快照,百度會在快照把兩個詞用不同顏色標注出來,如“廣州”是黃色,“SEO”是淡藍色,
這個實例就告訴我們,我們在搜索“力洋SEO”的時候,百度把它分解成了“寧波”和“SEO”拿來查詢。中間如果是“,”查詢的結果其實是一樣的。這就是為什么在寫超過兩個關鍵詞的時候建議大家用半角英文逗號來分割,這樣就是能避免搜索殷勤進行重復解析。中文的分詞技術相對與其他語言要難的多,因為它是不分詞沒有空格的,不像英文每個單詞都有空格,這就給搜索引擎帶來非常大的困難,完全沒有我們想象的簡單。目前在中文分詞技術上,百度還是優于谷歌的。
二、當出現重復詞搜索引擎是怎么處理的
比如你在搜索“力洋seo seo”和“力洋seo”的結果是一樣的。這說明在百度出現重復詞的情況下,會直接舍棄,保留一個,所以出現的結果都是一樣的。但是谷歌不同,搜索這兩個詞組的排名是不同的,說明谷歌在這個方面加強了運算參數。
如果你在百度查詢“seo 力洋seo”和“力洋seo”,得出的結果也是一樣的,這也說明百度直接忽略前后關系。但是在谷歌的搜索結果中就不同,說明谷歌引入了前后關系參數。
三、當搜索英文詞的時候搜索引擎怎么處理
當用戶輸入英文詞的時候,這個英文詞會貝當作一個詞來切分,然后以這個英文詞為界,再分前后的次級關鍵詞。比如你在搜索“蘋果MAC系統”的時候,搜索引擎會把他們切分成“蘋果”“MAC”“系統”三個詞,并且會把MAC當做一個重要詞保留,不管這個詞在這個詞組中語法怎樣。
四、搜索引擎會的查詢擴展處理會提高信息檢索的召回率
搜索引擎會根據用戶搜索的關鍵詞來判斷潛意詞和同意詞。比如,你搜索“爸爸”和“媽媽”,”WEB”和“互聯網”,“和諧”和“社會”,搜索引擎將會當做同義詞來處理。另外,搜索引擎在檢索的時候,還會根據主題來歸類,比如你搜索“廣州網站建設”,網站設計也會顯示紅色