Category: knowledge

  • 語意分析模型(Text Similarity)

    語意分析模型 不管是社群媒體或是購物網站,或是市場調查中收到的顧客訊息,YehsonTech延伸科技都可以透過大數據分析並且整理出文字的意義,辨識出一段文字的語意、主題、情緒等。 詞袋模型 (BoW) 的TF-IDF,可以將文字內容轉成詞頻向量,藉由重要的關鍵字去分析語意,它的概念是去計算每個單字在這段文字內容中的重要性 (尤其是辨別高頻且少見的字) 比如: “我愛延伸科技“ TF-IDF會將每個單字都有一個權重,去代表這些詞在這段話中的重要程度,比如”愛”、”延伸科技”權重就比較高分,而像”我”這種非常常見的字權重就很低。透過這種權重去判斷這段內容背後的意義。 常見的還有Latent Dirichlet Allocation (LDA) 模型,它的概念是從大量不同的內容中,分類出主題。以及Word2Vec模型,它的概念是把單字變成向量,進而去量化單字之間的語意相似度。 然而,這種傳統模型適合針對提取關鍵字、主題,且計算成本較低。如果希望真正完整理解內容,可以再考慮深度學習的自然語言模型。

  • 資訊檢索模型(TF-IDF)

    資訊檢索模型 如果你需要讓使用者在搜尋框、對話視窗中的關鍵字,可以查到數據庫中的內容;或是希望透過使用者看過或喜歡的產品的紀錄,推薦出其他相似的產品;又或是希望分析評論或意見調查中,精準找到顧客的重點是什麼…,那就要讓系統去分析文字。 YehsonTech延伸科技是如何用TF-IDF統計模型來分析文字? TF-IDF (Term Frequency-Inverse Document Frequency) 可以用來衡量一個”關鍵字”對於整個”文件內容”中的重要程度。 更具體地說,TF-IDF 可以做這些事情: 目的 說明 關鍵字 找出一段文字內容中的關鍵字 分類 將文字內容做分類 (EX: 判斷內容是不是18禁? 調查顧客是否在抱怨?) 相似度 比較兩個文字內容相似度 檢索 找出最相關的數據庫中的內容 文本摘要 搭配其他演算法,找出文章的核心句子 在 1960~70 年代,那時圖書館會在書上貼上標籤來管理書籍。但隨著電腦出現,圖書館開始研究如何用電腦去搜尋書籍。 一位資訊學家 Karen Spärck Jones(1972) 提出了IDF (Inverse Document Frequency) 的概念。她發現”在很多文字內容,其實有90%的詞都不重要”,這個看似簡單的觀察,後來成為TF-IDF的基礎。 下面簡單介紹TF-IDF統計模型的概念與如何用來計算關鍵字之間的相似度。 TF-IDF 的核心是兩個部分 TF(Term Frequency,詞頻) 衡量某個字詞在文件中出現的頻率,我們可以簡單的說TF(t,d)=詞語 t 在文件 d 中出現的次數 / 文件 d 的總詞數 IDF(Inverse Document Frequency,逆文檔頻率) 衡量字詞 t 在整個文件中出現的頻率,可以表示IDF(t)=log(N/df(t)​),N表示總文件數,df(t)表示包含字詞 t 的文件數 因此,TF-IDF統計模型…

  • 機器學習技術(MachineLearning Techniques)

    機器學習技術 機器學習 (Machine Learning)到底是什麼? 機器學習跟AI有什麼關係? 在說明這些內容之前,必須要有一個非常重要的觀念,就是 人工智慧 (AI) 的一切都是建立在數據 (Data) 上 就像人類一樣,一定是基於學習了基礎的知識後,才會去應用、推理、延伸出更多的想法與知識。 用最簡單的方式說,機器學習就是一種技術。 YehsonTech延伸科技在分析行為模式或是預測市場趨勢時,第一步就是將數據(Data)分成訓練數據 (Training Data) 與測試數據 (Test Data) 兩部分。 舉例來說,我們有大量的數據是關於不同年齡的男性點擊過不同產品的數據。訓練數據會將一部份用來建立模型,從這些訓練數據的模式、特徵,並調整內部參數後,讓模型可以輕易地預測出訓練數據中的結果,比如訓練數據顯示點擊”PS5″的都是20~30歲的男性。 接著用剩下的部分當做測試數據,用來評估上一步建立出來的模型的表現。比如在測試數據中驗證是否點擊”PS5″產品都是20~30歲的男性,也就是測試模型的泛化能力。 當測試模型後,會得到模型的準確率 (Accuracy) 或者其他評估指標 (如F1分數、精確率、召回率等)。比如測試數據中的確顯示91%點擊”PS5″產品都是20~30歲的男性,而我們設定的目標是90%,就可以認為這個模型是可行的,這個模型就可以開始應用到市場並做出預測。 如果要販售”PS6″,就針對20~30歲男性喜歡的款式、這些男性常出現的地點放廣告。 機器學習技術,就是一種讓系統從大量數據中自動學習和改進模型的技術,不需要明確的定義公式、編寫程式規則,而是通過從大量數據中識別模式。 機器學習技術可以分成以下幾個種類: 監督學習(Supervised Learning):從已標註的數據中學習,常見的算法有線性回歸、支持向量機(SVM)、決策樹等。 無監督學習(Unsupervised Learning):從無標註數據中找出隱藏的模式,常見算法包括聚類(如K均值)、降維(如PCA)等。 強化學習(Reinforcement Learning):通過與環境的交互來學習,讓模型根據獲得的回報來調整策略,應用於自駕車、遊戲等領域。 半監督學習(Semi-supervised Learning):結合監督學習和無監督學習,通常處理標註數據有限的情況。 遷移學習(Transfer Learning):將一個領域學到的知識應用於另一個相關領域。