關於 TF-IDF 的常見誤解
Posted: Thu Dec 12, 2024 7:16 am
五十年後,人們仍然不理解術語頻率逆文檔頻率 (TF-IDF)。好吧,也許我可以幫助消除一些困惑。關於 TF-IDF,您可能不了解以下五件事,但您認為您了解。
1. TF-IDF 是「一項新興技術」。
沒有。甚至還差得遠。事實上,已經快50歲了!它是基於 Hans Peter Luhn (1957) 在詞頻方面的工作和 Karen Spärck Jones (1972) 在逆文檔頻率方面的工作。只有恐龍才會認為半世紀才剛過去!
但公平地說,五十年前它是一項新興技術,是一項重要 瑞士電話號碼數據 進步,就像托尼霍爾的快速排序演算法一樣。請記住,這就是創建 TF-IDF 時計算機的樣子。
來源
從那時起我們已經取得了一些進展。
機器學習工程師將 TF-IDF 視為探索語料庫和預處理文字的有用方法。 SEO 將其延伸為「讓您的頁面在 SERP 中排名更好」。 #SEO
點擊發推文
2. TF-IDF 透過將關鍵字詞組與大量文件中該關鍵字的頻率進行比較來衡量該關鍵字詞組的重要性。
這既是誤導,也是過於簡化。頻率並不意味著重要性(或更重要的是)語意相關性。此外,IDF(逆文檔頻率)試圖抑制出現頻率過高的單字的影響。
讓我們快速看一下免費 TF-IDF 工具和 MarketMuse 的輸出之間的差異,後者使用更複雜的方法。讓我們將它們與“開始播客”一詞進行比較。
MarketMuse 研究應用
MarketMuse 的輸出按相關性排序,最相關的出現在頂部。數字範圍指的是提及的分佈。請注意,經常提到的主題不一定位於清單的頂部。
3.“目前還不清楚Google是否在其演算法中使用了TF-IDF”
嗯,這已經是顯而易見的事了!更不用說谷歌沒有AN演算法。它有很多演算法,複數。 TF-IDF 可以在該整體中發揮重要作用。例如,它是一種有效的停用詞刪除方法。這些字在人類語言中經常出現,但幾乎沒有資訊價值(例如and、or、but、the、a、an)。
但是,從概念上講,TF-IDF 是一個非常簡單的數學公式。因此,爭論 Google 是否使用 TF-IDF 有點像爭論他們是否使用乘法、除法、加法和減法。它的作用(如果有的話)也將是次要的。
4.“將其納入您的頁面搜尋引擎優化策略是一個很好的做法。”
不,不是。絕對不是。我以前寫過這個。使用 TF-IDF 可能會讓您感覺良好,但這是誤導性的。如果您對此還不清楚,請參閱上面的比較。
5.“當您將這些短語和單字添加到您的內容中時,它會使您的文章具有主題相關性,並幫助您的頁面在 SERP 中排名更高。”
那隻是一廂情願的想法。使用諸如“獲取、開始、需要、製作、一個、只是、新”之類的 TF-IDF 建議不會使一篇關於啟動播客的文章更具主題相關性;不僅僅是使用術語“a、and、the、but”will。
而且,您不需要 TF-IDF 來告訴您使用「播客、節目、錄音、劇集、麥克風」等術語。如果一篇文章排名較高,那麼它可能不是來自 TF-IDF。相關性不是因果關係。
最後的話
在機器學習、文字分析和主題建模領域,TF-IDF 經常被提及,因為它是探索語料庫和預處理文本的有用方法。在 SEO 領域,這被延伸為「讓你的頁面在 SERP 中排名更好」。
1. TF-IDF 是「一項新興技術」。
沒有。甚至還差得遠。事實上,已經快50歲了!它是基於 Hans Peter Luhn (1957) 在詞頻方面的工作和 Karen Spärck Jones (1972) 在逆文檔頻率方面的工作。只有恐龍才會認為半世紀才剛過去!
但公平地說,五十年前它是一項新興技術,是一項重要 瑞士電話號碼數據 進步,就像托尼霍爾的快速排序演算法一樣。請記住,這就是創建 TF-IDF 時計算機的樣子。
來源
從那時起我們已經取得了一些進展。
機器學習工程師將 TF-IDF 視為探索語料庫和預處理文字的有用方法。 SEO 將其延伸為「讓您的頁面在 SERP 中排名更好」。 #SEO
點擊發推文
2. TF-IDF 透過將關鍵字詞組與大量文件中該關鍵字的頻率進行比較來衡量該關鍵字詞組的重要性。
這既是誤導,也是過於簡化。頻率並不意味著重要性(或更重要的是)語意相關性。此外,IDF(逆文檔頻率)試圖抑制出現頻率過高的單字的影響。
讓我們快速看一下免費 TF-IDF 工具和 MarketMuse 的輸出之間的差異,後者使用更複雜的方法。讓我們將它們與“開始播客”一詞進行比較。
MarketMuse 研究應用
MarketMuse 的輸出按相關性排序,最相關的出現在頂部。數字範圍指的是提及的分佈。請注意,經常提到的主題不一定位於清單的頂部。
3.“目前還不清楚Google是否在其演算法中使用了TF-IDF”
嗯,這已經是顯而易見的事了!更不用說谷歌沒有AN演算法。它有很多演算法,複數。 TF-IDF 可以在該整體中發揮重要作用。例如,它是一種有效的停用詞刪除方法。這些字在人類語言中經常出現,但幾乎沒有資訊價值(例如and、or、but、the、a、an)。
但是,從概念上講,TF-IDF 是一個非常簡單的數學公式。因此,爭論 Google 是否使用 TF-IDF 有點像爭論他們是否使用乘法、除法、加法和減法。它的作用(如果有的話)也將是次要的。
4.“將其納入您的頁面搜尋引擎優化策略是一個很好的做法。”
不,不是。絕對不是。我以前寫過這個。使用 TF-IDF 可能會讓您感覺良好,但這是誤導性的。如果您對此還不清楚,請參閱上面的比較。
5.“當您將這些短語和單字添加到您的內容中時,它會使您的文章具有主題相關性,並幫助您的頁面在 SERP 中排名更高。”
那隻是一廂情願的想法。使用諸如“獲取、開始、需要、製作、一個、只是、新”之類的 TF-IDF 建議不會使一篇關於啟動播客的文章更具主題相關性;不僅僅是使用術語“a、and、the、but”will。
而且,您不需要 TF-IDF 來告訴您使用「播客、節目、錄音、劇集、麥克風」等術語。如果一篇文章排名較高,那麼它可能不是來自 TF-IDF。相關性不是因果關係。
最後的話
在機器學習、文字分析和主題建模領域,TF-IDF 經常被提及,因為它是探索語料庫和預處理文本的有用方法。在 SEO 領域,這被延伸為「讓你的頁面在 SERP 中排名更好」。