語意分析模型

不管是社群媒體或是購物網站,或是市場調查中收到的顧客訊息,YehsonTech延伸科技都可以透過大數據分析並且整理出文字的意義,辨識出一段文字的語意主題情緒等。

詞袋模型 (BoW) 的TF-IDF,可以將文字內容轉成詞頻向量,藉由重要的關鍵字去分析語意,它的概念是去計算每個單字在這段文字內容中的重要性 (尤其是辨別高頻且少見的字) 比如:

我愛延伸科技

TF-IDF會將每個單字都有一個權重,去代表這些詞在這段話中的重要程度,比如”愛”、”延伸科技”權重就比較高分,而像”我”這種非常常見的字權重就很低。透過這種權重去判斷這段內容背後的意義。

常見的還有Latent Dirichlet Allocation (LDA) 模型,它的概念是從大量不同的內容中,分類出主題。以及Word2Vec模型,它的概念是把單字變成向量,進而去量化單字之間的語意相似度

然而,這種傳統模型適合針對提取關鍵字主題,且計算成本較低。如果希望真正完整理解內容,可以再考慮深度學習的自然語言模型