分类筛选
分类筛选:

关于语义论文范文资料 与基于语义扩展数字文献自动分类方法有关论文参考文献

版权:原创标记原创 主题:语义范文 科目:职称论文 2024-04-15

《基于语义扩展数字文献自动分类方法》:此文是一篇语义论文范文,为你的毕业论文写作提供有价值的参考。

〔摘 要〕针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法.该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类.实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能.

〔关键词〕数字文献;短文本分类;特征选择;语义扩展;分类性能

DOI:10.3969/j.issn.1008-0821.2015.09.013

〔中图分类号〕G2507 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0070-05

〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.

〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance

数字图书馆的主要业务数据是馆藏的各种类型的文献资源,即使在大数据环境下,其核心业务仍然是针对这些种类众多的文献进行组织和安排,使各种类型的文献能够在数字图书馆中统一实现分类和检索.然而,针对数字文献的分类标引工作长期以来都是由编目人员手工去完成,既费时又费力.且由于信息的模糊性以及数字文献种类、数量的剧增,仅靠提高编目人员的业务素质来保证文献分类标引的准确性是不现实的,有必要将信息自动化技术引入图书编目、数字文献元数据的分类或主题标引之中.利用机器学习实现数字文献的自动分类已成为数字图书馆建设中亟待解决的关键问题之一[1].

自动分类技术是指在给定的分类体系情况下,根据文本内容自动判定到相应预定义类别的过程[2].目前主要采用向量空间模型进行文本信息结构化的表示,然而基于该模型下由于数字文献文本特征缺失会导致向量空间的高维和稀疏,且包含大量无效、冗余的特征,从而降低数字文献分类的精度.另外,基于该词频向量的表示方法忽略了文本中特征词的含义以及词项间潜在语义关系,如同义词、冗余和蕴涵等信息.面对短文本数据集特征缺失带来的问题,相关学者提出借助外部词典/知识库进行特征扩展的方法,以弥补短文本特征不足的缺陷,提高最终的分类性能.如Phan[3]等人通过外部网络数据源扩展短文本的词条信息来解决词特征的稀疏性问题;Ferragina[4]等人借助ODP(Open Directory Project)、WebKB等手工标注的知识库计算查询词、网页片段等短文本的相似度;Wang[5]等人通过将文档词向量中的每个词匹配到维基百科概念,利用上层概念、关联等实现向量语义相关性扩充;Milne[6]等人根据维基百科中文档链接关系对某概念进行语义扩展,并提供给检索引擎实现检索关键词的语义扩展.范云杰[7]等人提出基于维基百科的链接结构和类别体系进行概念的关联度计算对社区问答数据集进行分类;翟延冬[8]等人综合考虑文本的概念、句法等信息,提出一种基于WordNet的短文本语义相似度计算方法;王盛[9]等人利用“知网”词典中的上下位关系扩展文本的特征向量来实现短文本的分类.实验结果表明通过引入外部词典/知识库来对特征向量的语义扩展,一定程度上能有效解决特征的缺失问题,提高短文本的分类性能.为此,本文提出在TF-IDF模型的基础上,采用“知网”语义词典以及维基百科知识库对数据文献的文本特征进行语义扩展,以提高数据文献分类的分类效果.

语义论文参考资料:

结论:基于语义扩展数字文献自动分类方法为关于本文可作为相关专业语义论文写作研究的大学硕士与本科毕业论文语法,语用,语义论文开题报告范文和职称论文参考文献资料。

和你相关的