日日夜夜精品免费视频,欧美高清性色生活片,另类自拍偷拍

網(wǎng)站首頁>建站大學>企業(yè)新聞 >網(wǎng)站優(yōu)化排名TF-IDF百度算法

網(wǎng)站優(yōu)化排名TF-IDF百度算法

添加時間：2019-02-17 21:05:54 編輯：成都網(wǎng)站建設文章內(nèi)容： 1437個字閱讀時間：約4分鐘

任何企業(yè)都在建網(wǎng)站，到底網(wǎng)站建設起啥作用的呢？網(wǎng)站在百度上如何獲得免費流量的呢，到底百度有哪些算法，今天啄木鳥建站就和大家分享百度其中的一種算法TF-IDF算法。

1、百度百科

很多人向我們反映百度給自己的產(chǎn)品有很好的排名，是百度人工干預對自己的產(chǎn)品比較喜歡，我們都是公認的百度百科有權(quán)威性，到底是怎么的樣，是不是百度喜歡自己的產(chǎn)品的呢，其實不然，我個人感覺這個不是主要的因素，百度的終止是向用戶提供有價值的產(chǎn)品，為啥有很多的百度百科沒有排名的呢，這里就是百度采用了TF-IDF算法，我們在做網(wǎng)站優(yōu)化的時候，要多了解百度的算法，網(wǎng)站優(yōu)化其實就是一場游戲，我們只有了解優(yōu)化的規(guī)則，才能戰(zhàn)勝對手，才有一個主動權(quán)。

網(wǎng)站優(yōu)化百度百科

TF-IDF算法是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF的意思是詞頻(Term - frequency),IDF的意思是逆向文件頻率（inverse Document frequency）.TF-IDF是傳統(tǒng)的統(tǒng)計算法，用于評估一個詞在一個文檔集中對于某一個文檔的重要程度。它與這個詞在當前文檔中的詞頻成正比，與文檔集中的其他詞頻成反比。首先說一下TF（詞頻）的計算方法，TF指的是當前文檔的詞頻，，在這個公式中，分子表示的是改詞在某一文檔中出現(xiàn)的次數(shù)，分母表示在該文檔中所有關鍵詞出現(xiàn)的次數(shù)之和。然后來說下IDF(逆向詞頻)的計算方法，IDF指的是某個詞匯普遍性的度量。，這個公式中，log內(nèi)的部分，分子表示的是文檔集中文檔的個數(shù)，分母表示的是包含當前關鍵詞的文檔的個數(shù)，對于這個分數(shù)取對數(shù)，得到的就是，當前詞匯的IDF的值。下面，我來介紹下通過python對TF-IDF算法的設計及實現(xiàn)：

對象1：文章集（屬性：文章對象的集合，包含關鍵字的文章數(shù)）

對象1：文章（屬性：關鍵詞對象的集合；關鍵詞出現(xiàn)的總次數(shù)；關鍵詞對應對象的字典）

對象2：文章-關鍵詞（屬性：關鍵詞名稱；關鍵詞在當前文章中出現(xiàn)的次數(shù)；TF_IDF）實現(xiàn)流程：

1、創(chuàng)建文章對象，初始關鍵字的Map集2、遍歷關鍵字，每遍歷一個關鍵字，2.1、關鍵詞出現(xiàn)的總次數(shù)加一

2.2、判斷文章關鍵字中是夠存在當前關鍵字，如果存在，找出他，加一，如果不存在，創(chuàng)建一個文章關鍵字對象，塞到文章的關鍵字的集中去；

2.3、若果這個關鍵字是第一次出現(xiàn)，則記錄關鍵字出現(xiàn)的文章數(shù)(如果關鍵字在關鍵字-文章數(shù) 字典中存在，則文章數(shù)+1，否則將其加入到關鍵字-文章數(shù)字典中，并賦初始值1)

2.4、遍歷完成，文章的關于關鍵詞的Map集裝載完成，然后將當前的文章add到文章集的對象中去

3、遍歷文章集，計算出關鍵字對應的TF-IDF，并輸出實現(xiàn)代碼：（實現(xiàn)代碼以讀取一個文件模擬多個文檔）

在企業(yè)網(wǎng)站中TF-IDF的運用是一樣，有很多的奧秘之處，我們看看下面這個網(wǎng)站的網(wǎng)頁情況就是運用很多的TF-IDF百度的算法參與其中，才能在短期內(nèi)獲得一個百度的免費引流，獲得很多的咨詢量

網(wǎng)站優(yōu)化運用TF-IDF算法