分類不一致對文件自動分類效果之影響
| 序號 | 1 |
| 刊名 | 大學圖書館 |
| 年份 | 2005 |
| 出版月份 | 3月 |
| 卷期 | Vol.9 No.1 |
| 作者 | 曾元顯 |
| 作者任職單位 | 輔仁大學圖書資訊系 |
| 摘要 |
本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即便高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即便過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。 |
| 關鍵字 | 一致性 / 主題分析 / 分類測試集 / 文件分類 / 複本偵測 |
| 頁碼 | 2-19 |
| 全文 | 全文下載 |
| DOI | |
| Review | |
| Title | The Effect of Inconsistency in Training Data on Automatic Text Categorization |
| Author | Yuen-Hsien Tseng |
| Author's title | Department of Library and Information Science, Fu-Jen University |
| Abstract |
This article discusses the effect of inconsistency in training data on the performance of text classifiers. Our experiments show that the inconsistency, even reaching a level as high as 34%,hardly affects the effectiveness of he classifiers.Better classifiers perform better independent of duplicates and label inconsistency.The implication is that past experiments(especially on the Reuters-21578 collection) remain valid. In the experiment process,the author proposes a duplicate detection technique that is far more effective than previous ones.A new Chinese test collection for text categorization is also introduced for deneral free download. |
| Keywords | Consistency / Document classification / Duplicate detection / Subject analysis / Test collection for categorization / |
| fulltext | 全文下載 |
| DOI | |