分类筛选
分类筛选:

关于文献论文范文资料 与中文事件抽取文献之算法效果分析有关论文参考文献

版权:原创标记原创 主题:文献范文 科目:硕士论文 2024-01-22

《中文事件抽取文献之算法效果分析》:本论文主要论述了文献论文范文相关的参考文献,对您的论文写作有参考作用。

〔摘 要〕事件抽取是指识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参和的某动作的事件.首先对我国关于事件抽取研究的文献进行了总结,给出事件抽取的主要方法及模型.并针对文献中对这些事件抽取方法的效果进行统计分析,探讨各种事件抽取方法或模型的效果及适用性.经过对现有研究文献的统计,结论为:当前有关事件抽取的研究仍在继续,主要集中于金融资讯、会议信息、突发事件、个人简历等来自网页、微博微信等自媒体信息或军事法律等专业文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚类算法等;CRF算法应用和个人简历事件抽取效果最好,采用模式匹配算法的有效文献量相对较多,触发词方法的综合效果较优于模式匹配算法,但较多领域存在触发词算法的查全率较低的问题.

〔关键词〕中文事件;事件抽取;信息抽取;统计分析;情报分析

DOI:10.3969/j.issn.1008-0821.2015.12.001

〔中图分类号〕G2531〔文献标识码〕A〔文章编号〕1008-0821(2015)12-0003-08

当各种新闻充斥着互联网时,人们常常容易迷失方向,因此迫切希望能够直接浏览到从新闻中提取出来的简单直接的结构化的事件以及和之相关的后续事件,以备决策分析,而不是一堆辞藻堆砌的信息.事件抽取正是在这样的背景下产生的,它是信息抽取领域的重要研究方向之一,主要由计算机程序自动识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参和的某动作的事件.由于事件抽取涉及命名实体识别、命名实体之间的关系识别、事件之间的关系识别等技术,且由于中文具有博大精深的文化含义和语法灵活性,使得中文事件抽取的难度更大,至今仍是ACE(Automatic Content Extract)会议的主要研究目标之一[1].本文首先介绍中文事件抽取的基本思想及识别效果测评方法,进而介绍几种常用的事件抽取方法,最后对现有的研究中文事件抽取的重要文献中设计的算法效率进行统计分析,以期对中文事件抽取提供一些参考性的意见,促进特殊文本事件提取研究的发展.

1事件抽取

11基本思想

事件抽取就是要将某句子文本中所描述的非结构化的事件识别出来.其基本流程如图1所示:

情报分析领域还需对事件类型进行区分或将事件的元素进一步提取出来进行结构化表示供决策分析用.

信息抽取研究领域(Information Extraction)判断句子文本是否为事件句的依据一般为:该句文本中包含时间、地点、人物、动作、主题等基本的事件元素,如“周华健2008年新年倒计时演唱会12月31日在上海举行”,由事件元素“周华健2008年新年倒计时演唱会”、“12月31日”、“在上海”、“举行”构成事件句.ACE(Automatic Content)会议则依据句子文本中是否含有事件触发词和描述事件结构的元素来判断事件句[2-3],如“ 1893年出生于湖南湘潭”,由事件触发词“出生”及事件元素“ ”、“1893年”、“湖南湘潭”构成事件句.表面上看,两者的主要差别在于是否含有事件触发词,而事件触发词一般以动词或介词为主,因此两种判断依据基本一致.

由于语言表达的多样化及生动性需要,事件句中的事件元素往往存在不同的特征和模式,不同主题事件所包含的事件元素不同(如:识别句子中的场景描述[4]),其识别难度也不同,因此现有的研究一般针对具体的文本或事件主题设计识别任务,各种任务采用不同的方法.一般有两类基本方法:基于规则的方法或基于统计的方法.

2话题追踪和事件抽取

话题追踪(Topic Detection Tricking,TDT)涉及多个相关事件抽取,任务的目的是以大规模新闻流为研究和操作对象,通过监控新闻报道描述的话题,发现某类核心事件并跟踪其后续报道事件,由美国国防高级研究计划局(Defense Advanced Research Projects Agency)于1996年提出[6].其中,话题包括一个核心事件或活动(一个相互关联的事件集),以及所有和之直接相关的事件或活动.此处的事件是由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个特例.这类任务一般首先将新闻语料流切分成独立的报道,从报道中进一步识别某话题的多个事件子句,除报道切分及话题表示模型技术外,事件抽取也是关键技术之一[7].

13命名实体识别和事件抽取

命名实体是指文本中具有特定意义的实体,主要包括人名(Person)、地名(Location)、机构名(Organization)、日期(Data)、时间(Time)、百分数(Percentage)、货币(Money value)[8]及身份、领域专业特有的术语,如:物质或蛋白质名称、化学分子式、生物化学反应、检测方法、化学仪器、药品名称、剂量等.事件的主要构成为事件元素,不同的事件识别任务中事件元素的类别不完全相同,除常用的人名、机构名、物质名、地点等命名实体外,还有其他的命名实体(演唱会名称)、事件动作、事件发生原因及其引起的后果等.因此,一些研究借助命名实体识别事件句[9].另一方面,由于某些领域事件句具有相对明显的特征,也有研究将命名实体识别的任务建立在事件句模板的基础上,首先识别事件句,进而依据事件句模板识别其中的命名实体[10-11].

14效果测评

在事件抽取应用中通常采用两种不同的效果评价方法:基于召回率(记为R)准确率(记为P)的微平均(记为F)值法或基于丢失率(记为L)误报率(记为M)的错误识别代价(记为C)法.其中,

F等于2*PR/(P+R)

C等于Cmiss*L*Ltar+Cfa*M*(1-Ltar)

文献论文参考资料:

文献检索网站

论文中怎么引用文献

文献

外文文献网站

书籍参考文献

英文参考文献格式举例

结论:中文事件抽取文献之算法效果分析为适合不知如何写文献方面的相关专业大学硕士和本科毕业论文以及关于文献检索网站有哪些论文开题报告范文和相关职称论文写作参考文献资料下载。

和你相关的