博碩士論文查詢聯邦系統首頁 聯絡信箱 關於我們 加入我們

本論文已被瀏覽 209 次, [ 造訪詳細資料與全文 ] 11 次,[ 回到前頁查詢結果 ] [ 重新搜尋 ]

使用貝氏潛在語意分析於文件分類及資訊檢索

Bayesian Latent Semantic Analysis for Text Categorization and Information Retrieval

作者:吳佳昇
畢業學校:國立成功大學
出版單位:國立成功大學
核准日期:2005-07-19
類型:Electronic Thesis or Dissertation
權限:Copyright information available at source archive--National Cheng Kung University....

中文摘要

  隨著資料集的大量增長,引用統計式文件模型於資訊檢索上之研究重要性與日俱增。機率式潛在語意分析(probabilistic latent semantic analysis, PLSA)模型為一種可有效率擷取語意及其統計量的文件模型方法。而機率式潛在語意分析在實際應用時,對於新領域文件連續地更新具有高敏感性。本論文中,提出了一個新穎的貝氏機率式潛在語意分析的架構,本研究方法著重於利用遞增式學習演算法,解決新文章加入時的模型更新(updating)問題的方法。本演算法藉由即時遞增式萃取以及學習最新的潛在式語意資訊,以期望提升文件模型之效能,並獲得符合線上資料改變後的新文件模型。在設定上,藉由一個適當的Dirichlet機率密度函式作為PLSA模型參數的事前機率。而擁有相同形式的事後機率分布使得模型得到一個可重複產生的事前/事後機率機制,以求達到累積資料的遞增式學習。本方法提出近似貝氏(quasi-Bayes, QB)機率式潛在語意分析模型以達到累進學習的目的。參數求解過程是採用Expectation-Maximization(EM)演算法推導出來的。在這樣的線上PLSA檢索系統中,為求達到更強健的參數估測同時也建構於超參數(hyperparameter)的更新。相較於原始的最大相似度估測,本論文提出的QB方法,擁有動態增加文件建立索引的能力,在本論文中也同時提出最大化事後機率(maximum a posteriori, MAP)的機率式潛在語意分析模型用於更正型的批次模型訓練(corrective training)方法。在實驗驗證上,利用文件檢索以及文件分類驗證貝氏機率式潛在語意分析之優越性。

英文摘要


口試委員 - 王新民

召集委員 - 陳信宏

口試委員 - 盧文祥

口試委員 - 吳宗憲

指導教授 - 簡仁宗

口試委員 - 簡立峰


 

計畫贊助者: