分类筛选
分类筛选:

关于发现论文范文资料 与在线用户评论的主题发现有关论文参考文献

版权:原创标记原创 主题:发现范文 科目:职称论文 2024-04-13

《在线用户评论的主题发现》:这篇发现论文范文为免费优秀学术论文范文,可用于相关写作参考。

〔摘 要〕在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息.本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验.实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关.

〔关键词〕中文分词;主题发现;拉普拉斯评分;信息增益;支持向量机

DOI:10.3969/j.issn.1008-0821.2015.09.012

〔中图分类号〕 〔文献标识码〕A 〔文章编号〕1008-0821(2015)09-0063-07

〔Abstract〕Online users reviews are important for e-business website,and finding the topic of these reviews can help both websites and businesses pay close attention to users feedbacks.Based on word segmentation,this paper separately used laplacian score(LS)and information gain(IG)to find text topic,and then support vector machine(SVM)method was used to verify the classification accuracy.The results showed that it is effective to select the text topic and the accuracy is related to the number of topic and the core function used.

〔Key words〕word segmentation;topic discovery;LS;IG;SVM

我国电子商务市场起步较晚但发展迅速.根据2014年5月由中国互联网协会与中国互联网络信息信息中心(CNNIC)联合编纂发布的《中国互联网发展报告》(2014)显示,2013年,我国互联网用户已达到618亿,其中电子商务用户达到302亿,相比2012年增长5 987万人,4890%的网民使用网络渠道进行购物消费,电子商务的市场规模也达到了99万亿.蕴藏巨大潜力的市场使得各大网站不断完善自身建设,而在线用户评论模块则是网站建设中不可忽视的一环.Double Click Inc研究了美国旅游业、计算机硬件业、运动健身行业以及服装业的网络用户行为,发现将近一半的用户会在购买前在网络中搜索产品的相关信息及用户评价等[1].

目前学者们对在线用户评论的研究主要集中在主题发现研究(商品或用户的特征发现)[2-8]、评论质量检测[9-12]、情感倾向识别[13-15]及相关内容推荐[16-17]等方面,其中,主题发现研究是后续研究中较基础的部分,也引起了很多学者的关注.

APons-Pottata[2]利用将层次聚类和划分聚类相结合的方式进行主题发现;Blei[3]对LDA(latent Dirichlet allocation)模型进行全面的解释后,由于概率主题模型出色的文档建模和维度削减能力,主题模型在文本挖掘领域得到了迅速的发展;阮光册[4]针对网络在线用户评论信息内容短、信息量少的特征,提出了基于LDA主题发现模型,结合HowNet知识库进行信息分析的方法,实现了对在线用户评论信息主题的挖掘;李慧、张舒等[5]为准确挖掘用户评论中的有用信息,提出了采用页面分块与信息熵的迭代计算技术的用户评论抽取算法,实现了评论块的自动发现与抽取;陈友、程学旗等[6]提出了一种利用特征抽取技术提取内容特征,利用结构特征去发现高质量主题的框架,并提出了一种基于遗传算法、禁忌搜索与机器学习的特征选择算法,用来评价被抽取特征的重要性;吕韶华、张亮等[7]主要针对餐馆评论提出了一种基于LDA的排序方法,通过抽取、过滤、计算评分、回归等步骤确定排序模型;罗辉停[8]为克服应用LDA模型挖掘在线用户评论热点方法不能自动确定热点话题的数目的问题,提出了应用中餐馆模型来挖掘在线用户评论热点.

以上学者对在线用户评论主题挖掘的研究,主要集中在使用LDA及其改进模型以及针对评论特征的算法实现等方面的研究.本文利用图像特征选择的LS方法和IG方法,应用到在线用户评论文本的主题发现上,并对主题发现结果通过SVM分类方法进行比较分析,发现IG对在线用户评论效果比LS方法效果好.

1 相关理论

11 中文分词

与英文天然分开的单词不同,中文的词语之间没有明显的分割标识,并且中文的语言环境更加复杂.所谓中文分词是将中文序列分成一个个有意义的词.现有的中文分词算法可分为四大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法[18],也有不少学者提出了许多改进算法,如基于改进最大匹配算法的中文分词粗分算法[19]、基于互信息的串扫描分词方法[20]、基于字词联合解码的分词方法[21]等.

目前常用的开源中文分词器有IKAnalyzer、Jieba、mmseg4j、Ansj、Paoding等.本文实验采用了R语言环境下的Rwordseg作为分词工具,它使用rJa调用Ja分词工具Ansj.

12 拉普拉斯评分

拉普拉斯评分是一种无监督的特征选择算法,可以用于实现主题选择.给定数据集X等于[X1,X2,等,Xn]∈Rd×n,并假定fri(i等于1,2,等,n)为第i个样本Xi的第r个特征词的词频(r等于1,2,等,d),第i个样本和第j个样本Xj之间的相似系数为Wij等于e|xi-xj|2t(t为一个适当的常数),第r个特征的方差为var(fr),则第r个特征的拉普拉斯评分可用公式(1)表示如下:

发现论文参考资料:

和发现杂志

发现杂志

结论:在线用户评论的主题发现为关于对不知道怎么写发现论文范文课题研究的大学硕士、相关本科毕业论文发现论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

和你相关的