分类筛选
分类筛选:

关于决策树论文范文资料 与基于SAS决策树方法应用综述有关论文参考文献

版权:原创标记原创 主题:决策树范文 科目:本科论文 2024-03-07

《基于SAS决策树方法应用综述》:本论文为免费优秀的关于决策树论文范文资料,可用于相关论文写作参考。

【摘 要】决策树作为数据挖掘技术中一种重要的分类研究方法,其出色的数据分析效率、直观易懂的结果展示,倍受廣大用户的青睐.在此过程中,往往需要借助一些数据挖掘工具如:SAS的Enterprise Miner.本文对基于SAS的决策树方法的行业应用进行综述.

【关键词】SAS 数据挖掘 决策树

一、前言

随着科学技术飞速的发展,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据.怎么样从这大量数据中挖掘有价值的信息,成为了巨大的挑战,数据挖掘就是在这种情况下应运而生的.

在数据挖掘的过程中,往往需要借助一些数理统计分析工具.SAS工具具有完备的数据访问、管理、分析、呈现及应用开发功能,并能运用统计分析、时间序列、运筹决策等科学方法进行质量控制、财务管理、生产优化、风险管理、市场调查和预测.

二、相关知识

(一)SAS/EM数据挖掘方法论

SAS/EM是SAS软件包中的一个组件,是一个图形化界面、菜单驱动的、拖拉式操作、对用户非常友好且功能强大的数据挖掘集成环境.SAS的数据挖掘方法论是SEMMA,其包括5个步骤:Sample(数据抽样)、Explore(数据探索)、Modify(数据修改)、Model(建立模型)、Assess(模型评估).

(二)决策树原理及相关算法

决策树(Decision Tree)是一种主要解决实际应用中分类问题的数据挖掘方法.其基本思路是找出最有分辨能力的属性,把数据划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一子集递归调用分枝过程,直到所有子集包含同一类型的数据.

目前比较流行的决策树算法主要有C4.5、CART、CHAID,其中较常用的C4.5算法是通过SAS/EM工具,根据数据的特点建立相应的函数来尽可能地正确分类所有的观察.

从表2.1我们可以看出:所列出的软件尽管都具有决策树功能,但各个软件所采用的算法又各有所侧重,以便其在同类软件的比较和竞争中具有一定的优势.通过上面的比较来看Enterprise Miner、Mine Set拥有较为全面的决策树算法.

三、国内外文献综述

(一)医疗卫生领域

数据挖掘是近年来刚刚兴起的一门新技术,国外已有不少成功应用的案例,但其在医疗卫生领域的应用尚处于起步阶段.

侯晓智(2004)[1]运用数据挖掘工具SAS Enterprise Miner,利用决策树技术建立模型,研究了数据挖掘在肝胆恶性肿瘤单病种医疗费用方面的应用.朱宝(2012)[2]利用SAS9.1进行决策树分析,构建病例组合模型,找到控制重点,为今后制定医疗费用控制政策提供依据.陈龙(2014)[3]利用SAS软件的决策树模型,对高血压患者住院费用进行DRGs分组的方法学探索,得出在当地进行DRGs的相关研究总体上可行的结论.

(二)客户流失问题

客户流失,指某企业现有的客户中止继续购买其商品或服务,转而购买其竞争对手的商品或服务.据统计电信运营商每年高达35%~50%的客户流失,造成约数百亿美元的经济损失;而获取1位新客户的成本是保留1位老客户的5~6倍.因此,国内外学者对客户流失问题展开了大量研究.

Chiu-Ping Wei(2002)[4]开发了以决策树方法为基础、可以在合同水平上识别潜在流失者的分类组合预测技术;熊国民(2014)[5]以分析决策树等理论和分类为原则,运用SAS9.2进行Logistic 逐步回归运算,得出流失概率值,从中选取部分客户为预测流失概率值较大的作为最终流失客户.毛躍霖(2015)[6]通过研究客户流失预测算法在其他行业中的应用情况,创新的设计了决策树和LOGISTIC回归模型相结合的方法对汽车服务企业进行建模,在SAS挖掘平台下建立了流失预测模型.

(三)银行客户信用评分问题

信用评分法将借款人的特征进行量化,形成一套指标体系,克服了主观随意性的风险.现代信用评分广泛运用统计学、运筹学、决策树、神经网络等技术,不断提高信用评分的精度.

在国外学者的研究中,Makowski(1985)第一次将决策树算法应用于个人信用评分.近来,Lee等(2006)运用决策树技术研究最小化信用风险问题.

国内对信用评分的研究也经历了从定性到定性和定量相结合的过程.姜明辉(2003)[7]较早引入决策树技术应用于个人信用评估.赵静娴等(2009)[8]把神经网络技术和决策树方法相结合,提高了信用评估的效率和客观性.

随着农村金融的重要性日益突出,在信用风险评估的研究中,以农户小额信用贷款为研究对象的居多.蔡丽艳等(2011)[9]把决策树算法引入到农户小额贷款信用风险评估中,构建评估模型并对信用评估模型进行实证.沈术(2013)[10]运用决策树算法,利用SAS Enterprise Miner,采用“SEMMA”方法,将传统信用评级的定量指标由占比不到70%提高到94%,大大提升了农户信用评级的精确度.

四、总结和思考

基于SAS的决策树分析方法的实际应用于医疗卫生领域,以及解决关于客户流失、产品的精确营销、银行客户信用评分等问题有很光明的前途.但综其全文,不难发现还有以下地方需要进一步的完善:

(1)决策树算法有待进一步改进.比如充分利用领域知识去除无关数据,或者利用领域知识进一步精炼所发现的模式,从而设计出更理想的知识算法,提高数据挖掘的效率.

(2)分类模型有待进一步研究.在应用领域的数据库中,数据大多数是随时间变化的.一般所建的模型仅仅依据当前数据进行预测,并不能从时间维度上预测一些重要的变化趋势,这一步需要运用时间序列挖掘算法,因此值得我们进一步的研究.

(3)挖掘结果的提取.在对模型结果提取规则的时候,因对业务知识不熟悉,对挖掘结果的提取不能很好的完成.如果能提高系统对知识自动评估的能力,尽可能采用图形表示、有向非循环图结构的规则、自然语言生成以及数据和知识的可视化技术,提高挖掘的可理解性,自然对结果的提取也就相应提高了.

参考文献

[1]侯晓智.基于数据挖掘技术的上海市肝胆肿瘤病例住院费用研究[D].第二军医大学,2004,7.

[2]朱宝.天津市糖尿病患者住院费用及病例组合研究[D].天津医科大学,2012.

[3]陈龙.石河子地区高血压患者DRGs分组研究[D].石河子大学,2014.

[4]Wei C P,Chiu IT.Turning telecommunications call details to churn prediction:a data mining approach[J].Expert Systems with Applications,2002,23:103-112.

[5]熊国民.基于SVM的商业银行客户流失预测[D].郑州大学,2014,4.

[6]毛躍霖.汽车服务企业客户流失预测模型的分析和应用[D].东华大学,2015.

[7]姜明辉,姜磊,王雅林.线性判别式分析在个人信用评估中的应用[J].管理观察,2003,(1):200-203.

[8]赵静娴,杜子平.基于神经网络和决策树相结合的信用风险评估模型研究[J].北京理工大学学报,2009,(1):76-79.

[9]蔡丽艳,冯宪彬,丁蕊.基于决策树的农户小额贷款信用评估模型研究[J].安徽农业科学,2011,(02):1215-1217.

[10]沈术.决策树算法在农村信用社农户信用评级中的应用[D].湖南大学,2013,10.

作者简介:王拓荣(1991-),女,汉族,河南新乡人,就读于首都经济贸易大学,研究方向:业务流程管理、数据挖掘.

决策树论文参考资料:

领导决策信息杂志社

决策杂志社

驳论文树靶子

结论:基于SAS决策树方法应用综述为关于决策树方面的论文题目、论文提纲、决策树例题经典案例280论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

和你相关的