分类筛选
分类筛选:

关于贝叶斯论文范文资料 与基于贝叶斯网络分类器财务信息失真识别有关论文参考文献

版权:原创标记原创 主题:贝叶斯范文 科目:论文模板 2024-02-27

《基于贝叶斯网络分类器财务信息失真识别》:本文是一篇关于贝叶斯论文范文,可作为相关选题参考,和写作参考文献。

【摘 要】企业财务信息失真识别越来越多地受到关注.本文使用条件高斯函数代替边缘高斯函数的乘积进行叠加,给出新的多元高斯核函数,在此基础上,建立扩展的连续属性朴素贝叶斯分类器,并将该分类器用于企业财务信息失真识别,实验结果显示,这种分类器具有良好的分类性能.

【关键词】财务信息失真识别 朴素贝叶斯分类器 高斯函数 贝叶斯网络 依赖扩展

一、引言

如何有效识别上市公司会计信息真伪一直受到广泛关注,已成为会计和其它学科交叉研究的热点.但会计指标具有复杂性、非线性、不确定性和高噪声性等特征,使得对会计信息失真进行可靠识别非常困难.对这样复杂的问题需要进行跨学科和多种技术的综合研究,提高会计信息失真识别的可靠性.分类器技术是融合了多学科理论和方法而形成的模拟人类概念学习的实用技术,是会计信息失真识别的有力工具,会计信息失真识别的科学化和智能化被认为是其发展的必然趋势.

贝叶斯分类器(Bayesian classifier, BC)是一个基础概率分类器,由满条件概率的不同计算方法可产生一系列贝叶斯衍生分类器(Bayesian derivative classifier, BDC),朴素贝叶斯分类器(naive Bayesian classifier, NBC)是最简单的BDC,以高效率和良好的分类准确性而著称,但这种分类器不能有效地利用属性之间的依赖信息,而这种信息也是分类的重要信息,因此,对NBC进行依赖扩展便成为BDC研究的一条主线.其中主要是针对离散属性BDC的研究.本文研究不离散化连续属性的NBC和依赖扩展(需要估计属性密度),其研究结果可推广到混合属性的情况.在属性密度估计方面,John和Langley使用高斯函数和高斯核函数估计属性边缘密度建立了GNBC(Gaussian naive Bayesian classifier)和 FBC(flexible Bayesian classifier)两种分类器,虽然分类效果并不理想,但奠定了基于密度估计研究连续属性贝叶斯衍生分类器的基础.Pérez和 Larranga等通过为高斯核函数引入平滑参数,以及基于高斯函数和高斯核函数的连续属性互信息计算对NBC进行依赖扩展,使分类器的分类准确率得到改进,但当属性较多时,协方差矩阵的计算非常困难.夏战国等将高斯过程用于具有不均衡类的半监督分类器学习,取得了较好的分类效果.Liu等对复杂和简单的高斯过程分类器进行理论分析和实验比较,认为复杂的高斯过程分类器往往能够取得更好的分类效果.

使用高斯核函数能够估计复杂的属性密度,使分类器充分拟合数据,而且通过平滑参数调整又能够避免和数据集的过度拟合.但目前多元高斯核函数采用边缘高斯函数的乘积进行叠加,实质上也蕴含着条件独立性假设,因此会丢失属性之间的依赖信息,从而降低分类器的可靠性.为提高分类器的学习和分类效率.本文使用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加,建立新的二元高斯核函数,对NBC进行一阶依赖扩展(将扩展后的分类器简记为OKNB),最后使用UCI数据和企业财务数据进行实验和分析.

二、KBDC概述

(一)分类器结构

NBC具有星形结构(用S表示),KBDC一般不再具有星形结构(用T表示),而是约束树或约束森林,两种分类器的结构如图 (1)所示.

依据贝叶斯公式、贝叶斯网络理论和图 (1)(b)(c) 量之间的条件独立性关系,可以得到:

(二)属性条件密度估计

本文使用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积,建立新的二元高斯核函数,并使用新的二元高斯核函数来估计属性条件密度.

定理1. 假设Xi和它的父结点服从联合高斯分布,那么给定、C和数据集D,Xi的条件密度估计为:

(三)KBDC结构学习和优化

KBDC结构学习就是在NBC的基础上,发现每一个属性新父结点的过程.首先根据Quinlan的信息增益率为属性排序;然后以分类准确性为标准,按照属性的顺序依次进行贪婪搜索来发现属性的新父结点,建立KBDC结构.

三、KBDC可靠性分析和应用

(一)KBDC的可靠性分析

在UCI中选择30个连续属性的分类数据集用于实验和分析,删除具有丢失数据的记录,数据集中记录的位置也进行随机初始化.选取十二个分类器,其中前四个是离散属性分类器(对连续属性采用Fayyad和Irani(1993)方法进行离散化),后八个是连续属性分类器,将其和KBDC进行分类准确性比较实验.用于比较的分类器的具体情况依次是:离散属性NBC(DNB);基于Quinlan(1986)的信息增益率为属性排序,按照属性顺序对NBC进行链依赖扩展而得到的分类器(DCNB);Friedman 等(1997)给出的TAN分类器(DTAN);采用属性排序和贪婪打分-搜索方法所建立的约束贝叶斯网络分类器(DCBN),其中属性排序采用Quinlan(1986)的信息增益率,打分函数使用MDL(minimal description length)标准;基于高斯函数估计属性条件边缘密度而建立的NBC(GNB);使用Pérez等(2009)方法建立的NBC(GKNB);使用Pérez等(2006)方法建立的连续属性树结构分类器(CTAN);基于高斯函数估计属性联合密度,并结合分类准确性标准和前向贪婪属性选择而建立的完全贝叶斯分类器(GFB);使用高斯核函数估计属性联合密度,并结合分类准确性标准和贪婪搜索进行单平滑参数优化而建立的完全贝叶斯分类器(GKFB);最近邻域分类器(NNC);Quinlan(1986)的决策树分类器(C4.5);支持向量机分类器(SVM, libsvm, http://www.csie.ntu.edu.tw/);基于二元高斯核函数估计属性密度的一阶贝叶斯衍生分类器(KBDC).

贝叶斯论文参考资料:

罗密欧和朱丽叶论文

俄狄浦斯王论文

小福尔摩斯杂志

结论:基于贝叶斯网络分类器财务信息失真识别为适合不知如何写贝叶斯方面的相关专业大学硕士和本科毕业论文以及关于贝叶斯统计论文开题报告范文和相关职称论文写作参考文献资料下载。

和你相关的