資訊檢索模型

如果你需要讓使用者在搜尋框、對話視窗中的關鍵字,可以查到數據庫中的內容;或是希望透過使用者看過或喜歡的產品的紀錄,推薦出其他相似的產品;又或是希望分析評論或意見調查中,精準找到顧客的重點是什麼…,那就要讓系統去分析文字

YehsonTech延伸科技是如何用TF-IDF統計模型來分析文字?

TF-IDF (Term Frequency-Inverse Document Frequency) 可以用來衡量一個”關鍵字”對於整個”文件內容”中的重要程度。

更具體地說,TF-IDF 可以做這些事情:

目的說明
關鍵字找出一段文字內容中的關鍵字
分類將文字內容做分類 (EX: 判斷內容是不是18禁? 調查顧客是否在抱怨?)
相似度比較兩個文字內容相似度
檢索找出最相關的數據庫中的內容
文本摘要搭配其他演算法,找出文章的核心句子

在 1960~70 年代,那時圖書館會在書上貼上標籤來管理書籍。但隨著電腦出現,圖書館開始研究如何用電腦去搜尋書籍。

一位資訊學家 Karen Spärck Jones(1972) 提出了IDF (Inverse Document Frequency) 的概念。她發現”在很多文字內容,其實有90%的詞都不重要”,這個看似簡單的觀察,後來成為TF-IDF的基礎。

下面簡單介紹TF-IDF統計模型的概念與如何用來計算關鍵字之間的相似度。

TF-IDF 的核心是兩個部分

TF(Term Frequency,詞頻)

衡量某個字詞在文件中出現的頻率,我們可以簡單的說TF(t,d)=詞語 t 在文件 d 中出現的次數 / 文件 d 的總詞數

IDF(Inverse Document Frequency,逆文檔頻率)

衡量字詞 t 在整個文件中出現的頻率,可以表示IDF(t)=log(N/df(t)​),N表示總文件數,df(t)表示包含字詞 t 的文件數

因此,TF-IDF統計模型 就可以計算 TF-IDF(t,d)=TF(t,d)×IDF(t)

概念其實就是這麼簡單!將每個文件表示成一個向量,向量的每個維度對應一個詞彙的 TF-IDF 值。

https://www.kdnuggets.com/2022/10/tfidf-defined.html