資訊檢索模型(TF-IDF) – 延伸科技有限公司

資訊檢索模型

如果你需要讓使用者在搜尋框、對話視窗中的關鍵字，可以查到數據庫中的內容；或是希望透過使用者看過或喜歡的產品的紀錄，推薦出其他相似的產品；又或是希望分析評論或意見調查中，精準找到顧客的重點是什麼…，那就要讓系統去分析文字。

YehsonTech延伸科技是如何用TF-IDF統計模型來分析文字?

TF-IDF (Term Frequency-Inverse Document Frequency) 可以用來衡量一個”關鍵字”對於整個”文件內容”中的重要程度。

目的	說明
關鍵字	找出一段文字內容中的關鍵字
分類	將文字內容做分類 (EX: 判斷內容是不是18禁? 調查顧客是否在抱怨?）
相似度	比較兩個文字內容相似度
檢索	找出最相關的數據庫中的內容
文本摘要	搭配其他演算法，找出文章的核心句子

在 1960～70 年代，那時圖書館會在書上貼上標籤來管理書籍。但隨著電腦出現，圖書館開始研究如何用電腦去搜尋書籍。

一位資訊學家 Karen Spärck Jones(1972) 提出了IDF (Inverse Document Frequency) 的概念。她發現”在很多文字內容，其實有90%的詞都不重要”，這個看似簡單的觀察，後來成為TF-IDF的基礎。

下面簡單介紹TF-IDF統計模型的概念與如何用來計算關鍵字之間的相似度。

TF-IDF 的核心是兩個部分

衡量某個字詞在文件中出現的頻率，我們可以簡單的說TF(t,d)=詞語 t 在文件 d 中出現的次數 / 文件 d 的總詞數

IDF（Inverse Document Frequency，逆文檔頻率）

衡量字詞 t 在整個文件中出現的頻率，可以表示IDF(t)=log(N/df(t))，N表示總文件數，df(t)表示包含字詞 t 的文件數

因此，TF-IDF統計模型 就可以計算 TF-IDF(t,d)=TF(t,d)×IDF(t)

概念其實就是這麼簡單！將每個文件表示成一個向量，向量的每個維度對應一個詞彙的 TF-IDF 值。