資訊檢索模型
如果你需要讓使用者在搜尋框、對話視窗中的關鍵字,可以查到數據庫中的內容;或是希望透過使用者看過或喜歡的產品的紀錄,推薦出其他相似的產品;又或是希望分析評論或意見調查中,精準找到顧客的重點是什麼…,那就要讓系統去分析文字。
YehsonTech延伸科技是如何用TF-IDF統計模型來分析文字?
TF-IDF (Term Frequency-Inverse Document Frequency) 可以用來衡量一個”關鍵字”對於整個”文件內容”中的重要程度。
更具體地說,TF-IDF 可以做這些事情:
目的 | 說明 |
---|---|
關鍵字 | 找出一段文字內容中的關鍵字 |
分類 | 將文字內容做分類 (EX: 判斷內容是不是18禁? 調查顧客是否在抱怨?) |
相似度 | 比較兩個文字內容相似度 |
檢索 | 找出最相關的數據庫中的內容 |
文本摘要 | 搭配其他演算法,找出文章的核心句子 |
在 1960~70 年代,那時圖書館會在書上貼上標籤來管理書籍。但隨著電腦出現,圖書館開始研究如何用電腦去搜尋書籍。
一位資訊學家 Karen Spärck Jones(1972) 提出了IDF (Inverse Document Frequency) 的概念。她發現”在很多文字內容,其實有90%的詞都不重要”,這個看似簡單的觀察,後來成為TF-IDF的基礎。
下面簡單介紹TF-IDF統計模型的概念與如何用來計算關鍵字之間的相似度。
TF-IDF 的核心是兩個部分
TF(Term Frequency,詞頻)
衡量某個字詞在文件中出現的頻率,我們可以簡單的說TF(t,d)=詞語 t 在文件 d 中出現的次數 / 文件 d 的總詞數
IDF(Inverse Document Frequency,逆文檔頻率)
衡量字詞 t 在整個文件中出現的頻率,可以表示IDF(t)=log(N/df(t)),N表示總文件數,df(t)表示包含字詞 t 的文件數
因此,TF-IDF統計模型 就可以計算 TF-IDF(t,d)=TF(t,d)×IDF(t)
概念其實就是這麼簡單!將每個文件表示成一個向量,向量的每個維度對應一個詞彙的 TF-IDF 值。
