主題分析

中文標題檢索效益之研究 

序號 9
刊名 大學圖書館
年份 1998
出版月份 1月
卷期 Vol.2 No.1
作者 曾繁絹
作者任職單位 國立臺灣大學圖書館採訪組
摘要

標題是圖書館提供目錄查詢的檢索點之一,藉由標題概念及標題款目的規範,使檢索者之資訊需求與專業人員之主題分析獲得充分溝通與協調後,能夠獲得最大的檢索效益。為了解目前中文標題能夠達成之檢索效益及可能產生的缺失,本研究以國立臺灣大學線上公用目錄系統之檢索者為研究對象,共蒐集48份有效樣本,分析其中文標題檢索行為與檢索效益,冀能對於中文標題款目結構與線上公用目錄標題檢索設計提出具體改善建議。

關鍵字 中文標題主題分析主題檢索
頁碼 100-123
全文 全文下載
DOI
Review
Title The Study of Retrieval Effectiveness in Chinese Subject Headings: A Case Study of National Taiwan University TULIPS System
Author Fan-chuan Tseng
Author's title Acquisitions Dept., National Taiwan University Library
Abstract

Subject heading is one of the access points enabling subject searchers to retrieve the best available materials in the library. This paper uses 48 collected samples concerning the Tulips system (National Taiwan University Library Information Processing System) to analyze user searching behavior and the effectiveness of retrieval under the Chinese Subject Headings. On the one hand, the paper tries to provide some suggestions to improve the structure of the Chinese Subject Headings, and on the other hand to enhance system features of online catalogues.

Keywords Chinese Subject HeadingsSubject analysisSubject searching
fulltext 全文下載
DOI

分類不一致對文件自動分類效果之影響

序號 1
刊名 大學圖書館
年份 2005
出版月份 3月
卷期 Vol.9 No.1
作者 曾元顯
作者任職單位 輔仁大學圖書資訊系
摘要

本文探討分類不一致對自動分類成效的影響。經由近似文件的自動偵測,以及兩種分類方法針對兩個測試文件集做的比較實驗,本文發現:訓練資料的分類不一致性,即便高達34%,幾乎也不會影響分類器的成效。此項發現,其重要的意涵是,即便過去的研究使用了一致性不高的測試集做實驗,其結論仍舊是有效的。當然,分類不一致性高的資料,拿來訓練後,不管分類器好壞,其得到的分類成效都是比較低的。除了以上發現外,本文也介紹了一套中文分類測試集,免費提供各界研究使用。另外,作者也提出了一套偵測複本或相似文件的可靠方法,與過去的方法比較,此方法可以偵測過去方法所無法偵測到的相似文件。

關鍵字 一致性主題分析分類測試集文件分類複本偵測
頁碼 2-19
全文 全文下載
DOI
Review
Title The Effect of Inconsistency in Training Data on Automatic Text Categorization
Author Yuen-Hsien Tseng
Author's title Department of Library and Information Science, Fu-Jen University
Abstract

This article discusses the effect of inconsistency in training data on the performance of text classifiers. Our experiments show that the inconsistency, even reaching a level as high as 34%,hardly affects the effectiveness of he classifiers.Better classifiers perform better independent of duplicates and label inconsistency.The implication is that past experiments(especially on the Reuters-21578 collection) remain valid. In the experiment process,the author proposes a duplicate detection technique that is far more effective than previous ones.A new Chinese test collection for text categorization is also introduced for deneral free download.

Keywords ConsistencyDocument classificationDuplicate detectionSubject analysisTest collection for categorization
fulltext 全文下載
DOI
訂閱文章