关于信息检索论文范文资料与中文拼音首字母在标准信息检索中应用有关论文参考文献-论文写作网

《中文拼音首字母在标准信息检索中应用》：本论文可用于信息检索论文范文参考下载，信息检索相关论文写作参考研究。

【摘要】标准题录检索是我国标准信息检索的主要内容,中文拼音首字母检索作为中文检索的重要补充,能有效提高检索效率,是传统标准题录检索的一种创新.

【关键词】信息检索标准题录拼音首字母

【DOI编码】 10.3969/j.issn.1674-4977.2016.11.001

“信息检索”一词出现于20世纪50年代,来源于人们对图书馆图书信息的参考咨询和文摘索引工作.从19世纪下半叶的手工检索,到20世纪50年代的脱机批量检索及60年代以后的联机检索,发展到90年代以后的网络化联机检索,信息检索成为人们获取知识、丰富生活的重要方式.标准信息作为信息行业的一个分支,在检索方法上也在不断发展变化.

标准题录检索是我国标准信息检索的主要内容,根据输入内容可分为数字、英文字符、中文字符、其他可显示的字符（如“-”）等.例如,检索国家标准《GB/T 1.1-2009 标准化工作导则第1部分：标准的结构和编写》时,按照标准号检索,需输入数字、英文字符、空格、横线“-”、点“.”；按照标准名称检索,需输入数字、中文字符、空格和冒号“：”.除中文字符外,其他符号或字符都可以直接从键盘上找到并输入,中文字符则需要转换成中文输入法后,再输入拼音找到相应汉字,并且输入的字符数量较多,国标GB/T 1.1-2009的中文名称按全拼方式需输入55个英文字符.有没有更直接、更简单的输入方式代替中文输入呢?答案是有.中文拼音首字母是一种代替中文字符进行检索的更好方式.目前,主要的标准综合服务平台还没有使用拼音首字母进行检索,希望拼音首字母能成为今后标准检索的必备方式.

1 中文拼音首字母检索原理

我们以最常用的GB 2312字符集为例,说明拼音首字母代替中文字符进行检索的原理.GB 2312字符集是ASCII字符集的扩展,有一级汉字3755个,按拼音排序,二级汉字3008个,按部首排序,覆盖国内汉字99.75%的使用频率.它采用国标码或者区位码对应一个唯一的汉字或符号,国标码是一个4位十六进制数,区位码是一个4位十进制数.汉字的国标码范围从B0A1到F7FE,如“标准”两个字的国标码分别是B1EA、D7BC.在一级汉字中,找到每个拼音首字母汉字所在的国标码位置,其余汉字和相邻两个拼音首字母汉字的国标码位置进行比较,就能获得该汉字的拼音首字母.一级汉字中,不同拼音首字母的第1个汉字在GB 2312字符集中的位置参见表1.二级汉字则需采用国标码位置和首字母一一对应方式查找,因数量较多,本文不再一一列出.

2 实现方法及相关技术

使用中文拼音首字母检索標准的具体过程如下：首先在标准题录信息表中添加要检索的中文拼音首字母字段,根据要检索的中文内容确定增加的字段数量,如中文标准名称、中文摘要、起草单位、起草人等都可增加对应的拼音首字母字段.在检索界面中,可以增加独立的拼音首字母输入栏,也可和中文输入栏同时使用而用软件判断输入的是中文还是英文.标准检索软件根据输入的拼音首字母,直接检索对应的拼音首字母字段,找到匹配的标准信息,展现给使用者.

通过获取汉字国标码数值,取得该汉字的拼音首字母.在不同的软件语言中,获取一个汉字的GB 2312国标码位置的函数和数值不尽相同,因此,表1中列出了3种数值供参考.如C#编程语言使用short函数获取某个中文字的国标码位置（十进制数值）；而powerbuilder编程语言使用asc函数获取单字节字符的国标码位置,汉字是双字节字符,因此要获取2个数值,使用十进制二维数组数值.常用计算机编程软件获取中文国标码的函数参见表2.

以国家标准GB/T 1.1-2009为例,检索中文“标准化工作导则”和拼音首字母“BZHGZDZ”信息,采用目前较流行的ACCESS和SQL SERVER作为标准题录信息数据库,安装在同一台计算机上,笔者做了一组对比试验.Stdinfo1_t、Stdinfo2_t、Stdinfo3_t表存放标准题录信息,分别有6万、16万、26万条数据量,有标准号、标准中文名、拼音首字母3个字段.检索标准中文名称和拼音首字母的效率参见表3.

从表3可以看出,在Access和SQL Server数据库中,无论有无索引,检索拼音首字母信息均比检索中文信息的速度快,无索引时,提升的检索效率更高.设无索引的中文检索速度为Va,有索引的为Vb；无索引的拼音首字母检索速度为Vc,有索引的为Vd.无索引且数据量分别为6万、16万、26万时,Access中的提升效率按（Va-Vc）/Vc[×]100%计算,分别为27%、6%、194%；SQL Server中的提升效率按（Vb-Vd）/Vd[×]100%计算,分别为181%、77%、72%.有索引且数据量分别为6万、16万、26万时,Access中的提升效率分别为38%、3%、77%；SQL Server中的提升效率分别为20%、7%、6%.

我国国家标准和行业标准数量已超过20万条,公开声明企业标准数量约20万条,每年动态增加标准数量10多万条,使用拼音首字母检索可以有效提高检索效率.标准题录信息中,起草单位、起草人、标准摘要、公开标准企业名称、企业地址、企业声明等常用中文信息通常没有索引,使用拼音首字母检索的效率更是成倍增加,从而提高网络平台响应速度,减少检索人员等待时间.

3 结束语

近年来,标准信息越来越广泛应用于我国社会各行各业,许多专业机构投入巨资建设标准综合服务平台,标准题录信息检索是这些平台的主要服务内容,如何为标准人员提供更快捷、更简便、更全面的检索方式,是平台改进的重要内容.本文提出中文拼音首字母检索,希望能为标准服务业人员抛砖引玉,不断探索进一步完善标准服务方式和丰富标准服务内容,为广大标准从业人员提供更好、更优质的服务.

参考文献

[1] 于双成.科技信息检索和利用[M].北京：清华大学出版社,2012.

[2] 花芳.文献检索和利用（第2版）[M].北京：清华大学出版社,2014.

作者简介

张广庆（1971-）,男,山东巨野人,质量高级工程师,学士,主要从事组织机构代码、大数据、软件、信息化、标准等领域研究.

朱登峰（1971-）,男,湖北荆州人,工程师,学士,主要从事大数据、云计算、核信息化等领域研究.

刘冬梅（1978-）,女,从事标准化科研宣传工作多年,目前就职于辽宁省质监局后勤服务中心.

信息检索论文参考资料：