FavoriteLoading
0

搜索引擎原理 SEO原理全解——SEO工作者必須明確的知識點

一個SEO從業人員必須要了解搜索引擎,所謂知其然不知其所以然,不知道搜索引擎的原理,你就是在為SEO而SEO,做的好做的不好都沒有反饋,也不會知道為什么。

搜索引擎原理

SEO是針對搜索引擎的優化,必須要站在搜索引擎的角度去想,他想要解決什么樣的問題,遇到了什么困難,為了最好的結果,他是怎么做取舍的。本質上來說,SEO就是盡量減少搜索引擎的工作量,使得蜘蛛能夠更輕松的工作,快速收錄頁面,更準確地提取內容。

搜索引擎的工作主要分為三個階段:
  • 爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問網頁,獲得頁面HTML代碼存入數據庫。

搜索引擎用來爬行的程序叫蜘蛛(spider),也叫做機器人(bot),為了盡可能多的抓取更多的鏈接,搜索引擎會跟蹤一個頁面的鏈接到下一個鏈接,然后把網頁的HTML代碼存入數據庫。理論上看到,小蜘蛛會爬取所有的網頁,然而事實并非如此,受制于計算能力和存儲能力,搜索引擎爬取的其實是相當小的一部分網頁,因此,SEO人員需要做的就是吸引蜘蛛的注意,這也就是我們經常在做的,比如提高網站權重,保持內容的更新,從外部導入鏈接,與首頁的點擊距離等。

  • 預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引等處理,以備排名程序調用。

到這里,搜索引擎抓取的只是HTML代碼,還不能直接用于排序處理,所以需要預處理這個過程,來為最后的排名做好準備。

首先是文字的提取,去除html代碼和一些無意義的停止詞,就剩下網頁的正文內容,然后對內容進行中文分詞,分詞的過程比較復雜,運用了詞典比對和習慣比對等方法,最后的結果就是一個網頁被切割成一個一個詞匯或者短語,很多個網頁都按照這方式處理,就是正向索引,其結果就是你會得到一個個網頁,每個網頁對應n個關鍵詞的數據庫

正向索引還不能直接用于排名,比如我們要搜索關鍵詞“網賺”,系統就要掃描所有索引然后找出關鍵詞2的文件,再進行相關性計算,非常耽誤事,所以最后一步,還要進行倒排索引,也就是通過大量文件的重新整理,編排,建立一個一個關鍵詞對于n個的數據庫。給最后搜索詞和關鍵詞的對應找到聯系。

(3)排名:用戶輸入關鍵詞后,排名程序調用索引庫數據,計算相關性,然后按一定格式生成搜索結果頁面。

經過上面一個步驟,我們得到了用戶的搜索詞和網頁關鍵詞的對應關系,但是文件量那么大,不可能隨意或者全部展示,這里面就涉及到網頁的篩選和排序。

SEO原理

先建立一個初選的子集,就是我們平常看到的百度只能顯示78頁的內容,這個選擇一般是按照網站權重高的優先,然后再進行相關性計算,這部分是SEOer最感興趣的,它涉及到幾個方面:

  • 關鍵詞常用程度
  • 詞頻及密度(在沒有關鍵詞堆砌的情況下)
  • 鍵詞位置及形式(標題標簽,黑體,H1等關鍵位置)
  • 關鍵詞距離。切分后的關鍵詞完整匹配地出現,說明與搜索詞最相關。比如搜索“減肥方法”時,頁面上連續完整出現“減肥方法”四個字是最相關的。如果“減肥”和“方法”兩個詞沒有連續匹配出現,出現的距離近一些,也被搜索引擎認為相關性稍微大一些。
  • 鏈接分析及頁面權重。頁面有越多搜索詞為錨文字的導入鏈接權重越高。

最后就是排名顯示。

從中我們可以看到,我們的大部分工作,本質上就是利用搜索引擎的機制,達到自己的目的,所以了解搜索引擎的工作原理是必要的。

尼尼網上賺錢博客,互聯網引流,網絡賺錢。博客地址:www.czv18.com,掃描下面二維碼添加微信:網上賺錢項目和經驗分享,全自動腳本引流課程
網絡兼職賺錢