关于科研人员本体论文范文资料与基于科研人员本体的知识产出自动获取方法和技术有关论文参考文献-论文写作网

《基于科研人员本体的知识产出自动获取方法和技术》：这是一篇与科研人员本体论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

摘要：集成第三方系统中已有的知识产出元数据是机构知识库内容建设的重要途径.文章分析了常见的知识资源管理系统中元数据共享方式,并确定了三种内容采集策略.对采集到的知识产出元数据,结合科研人员本体等语义网技术尝试解决作者同名问题.最后,系统使用WOS提供的元数据共享接口,对整体方案进行了检验.测试结果表明基于科研人员本体的知识产出自动获取方法能够最大可能地从多种类型的资源管理系统中获取知识产出元数据,基于科研人员本体的作者唯一辨识也较好地解决了作者重名问题.

关键词：自动获取人名消歧科研人员本体语义网

中图分类号： G252；G255.76 文献标识码： A 文章编号： 1003-6938（2014）01-0089-07

Research on Methods and Techniques of Automatic Knowledge Output Acquisition Based on Researcher Ontology

Abstract Extracting existed knowledge output metadata belonging to institute members from other systems is an important way for building institutional repositories. This article analyses the methods of metadata sharing of some common knowledge resource management systems, provides three metadata acquisition strategies. Attempts are made to solve the problem of author disambiguation combining with technologies of semantic web. Finally, the system collects metadata form WOS for testing. The result shows the automatic metadata acquisition method based on the researcher ontology can do the greatest possible to collect metadata form other systems, and which is a good solution for author disambiguation.

Keywords automatic acquisition； author disambiguation； researcher ontology； semantic web

1 引言

长期以来,以保存与管理科研机构自身知识产出为宗旨的机构知识库（Institutional Repository,IR）,一直未能有效解决内容收集难与作者唯一标识问题.

在IR的内容建设方面,机构已有的知识产出中很大一部分都已经被数字化,且分散保存在多个其它数字资源系统中,例如大型的数字出版系统、学科知识库、机构其它数字资源系统等.因此,在构建IR过程中,对这些知识产出的重复建设势必会造成人力、物力的浪费,其更好的解决方案是加以重用.对外部系统中知识产出的复用,一般有人工采集与机器自动采集两种途径.人工采集相对难度高、花费时间多,当数据量大时,机器自动采集明显优于人工采集.

此外,IR从多个外部系统汇集知识产出元数据时,面临着作者的唯一标识问题.由于不同系统名称规范、编码方式、数据格式等的不同,普遍存在着作者同名、同一作者多个名称的现象.当前,国内外已有一些项目对名称规范问题展开了研究.如JISC的Names Project[1]尝试从已有的数据源中搜集名称方面的数据并自动产生相当规模的名称规范数据；ReasercherID[2]在全球范围内通过给每个注册用户分配一个唯一的标识符,以解决用户名称的冲突问题,并支持获取特定作者的引文信息.类似的还有国际标准组织ISO的ISPI[3]、ORCID[4]以及OpenID[5]等.已有的名称规范解决方案虽然一定程度起到了区分用户主体的作用,但缺少与科研人员其他背景信息的语义关联,在使用时过多地依赖于人工操作,无法实现对科研人员主体的机器自动推理、匹配,难以扩展.语义网技术的兴起,为解决这一问题提供了可能.

本文在研究知识产出自动获取方法与技术的基础上,结合科研人员本体等语义网技术,最终将通过机器采集获取到的知识产出与其作者主体间建立真正的对应关系.

2 知识产出资源存储系统及其采集方法分析

通过机器方式自动获取外部系统中的知识产出元数据时,根据源系统是否提供了程序访问接口可将其划分为两种类型,同时对应两种不同的采集方法.如果源系统提供了程序接口,采集程序可通过接口批量获取到格式化的数据集；如果没有,一般需要通过解析网页HTML源文件来获取元数据.

2.1 机器接口自动获取

目前,一些主流的数字资源系统或出版集团已经提供了知识产出元数据或全文的开放共享接口.WOS（Web of Science）的元数据共享Web Service接口,支持机构注册用户使用该接口获取WOS收录的本机构科研人员的知识产出[6].BMC（BioMed Central）为知识库提供基于SWORD协议的知识产出自动存缴服务,科研机构首先在BMC网站注册登记, 之后BMC会自动将此科研机构在BMC最新出版的期刊文章提交到机构知识库中[7].arXiv为了便于机器访问网站元数据,提供了无限制、基于Atom的查询接口[8].源系统的开放接口一般是基于一种或多种协议,常见的用于开放知识产出元数据接口的协议有OAI-PHM、SWORD、SOAP、RESTful、Atom、SRU等.不同的接口类型对应的数据返回格式不一,为了实现程序自动采集,需要针对各个源系统的接口开发专门的采集程序.由于不同系统往往使用的元数据描述框架不同,从源系统获取到数据集后,需要通过映射并转换为当前系统的标准元数据并保存.

科研人员本体论文参考资料：

结论：基于科研人员本体的知识产出自动获取方法和技术为适合不知如何写科研人员本体方面的相关专业大学硕士和本科毕业论文以及关于科研人员本体论文开题报告范文和相关职称论文写作参考文献资料下载。