您好,欢迎来到好走旅游网。
搜索
您的当前位置:首页基于数据挖掘银行客户信用风险评级体系研究

基于数据挖掘银行客户信用风险评级体系研究

来源:好走旅游网
情 报 杂 志第29卷 第2期             29 No.2             Vol.2010年2月Feb. 2010JOURNALOFINTELLIGENCE

基于数据挖掘银行客户信用风险评级体系研究

ResearchontheCustomerCreditRiskRatingSystemofBanksbasedonDataMining

3

蔡皎洁1,2 张玉峰1

(1.武汉大学信息资源研究中心 武汉 430072;2.孝感学院 孝感 432000)

摘 要 提出了基于数据挖掘的客户信用风险评级体系结构,深入解析了基于关联规则的客户信用风险评级指标体系的构建、基于BP神经网络的评级模型的构建和基于多种数据挖掘技术的分类结果细化可视化模块的构建。关键词 数据挖掘 客户信用风险 评级研究

中图分类号 G350      文献标识码 A      文章编号 1002-1965(2010)02-0047-04

0 引 言

麦肯锡公司通过研究表明,以银行实际的风险资本配置为参考,信用风险占银行总体风险暴露的

60%,而市场风险和操作风险则仅占20%。对我国来

1 基于数据挖掘的客户信用风险评级体系研究 1.1 采用数据挖掘技术的重要性 基于数据挖掘技术来构建客户信用风险评级体系较我国商业银行传统的客户风险评级体系的优点主要有:第一,数据挖掘可以基于数据仓库的基础上对数据进行视角的分析,从而提高客户信用风险评级体系对数据处理的完整性。数据仓库是面向复杂的数据分析以支持决策过程的,它集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时间和内外部环境变化而不断更新的数据集合[2]。因此,在数据仓库平台上构建基于数据挖掘的客户信用风险评级体系的效率会更高。第二,数据挖掘可以完成概念描述、关联分析、分类聚类、孤立点分析、时序演变分析等功能,可以深入分析客户信用风险评级指标之间、及客户信用风险评级指标与评级结果之间复杂的关系,从而提高客户信用风险评级体系的科学性。之前我国商业银行采用的客户信用风险评级方法中掺杂人为因素过多,从而影响了评级体系的准确性和科学性,而数据挖掘的核心技术为人工智能、机器学习、统计学等技术,可以高度自动化地分析组织原有的数据,进行归纳性推理,从中挖掘潜在的模式,自动分类客户的信用风险级别。 1.2 基于数据挖掘的客户信用风险评级体系结构 本文构建的基于数据挖掘技术的客户信用风险评级体系结构主要包括三个模块:客户信用风险评级指标体系构建模块、客户信用风险评级分类模型构建模块、客户信用风险评级结果可视化模块。该体系需完成的

说,截止到2009年6月末,我国境内商业银行不良贷款余额5181.3亿元,比年初减少421.8亿元;不良贷款率1.77%,比年初下降0.65个百分点[1]。从这些数据上来看,一方面随着我国金融业全面对外开放,商业银行作为金融体系的中流砥柱,越来越深刻地认识到进行客户信用风险管理的重要性;另一方面,就我国商业银行的发展现状来看,信用风险仍然是其所面临最主要的风险种类,并且在金融全球化、风险环境瞬息万变的情况下,加强我国商业银行信用风险科学管理水平已成为当务之急。

先进的商业银行客户信用风险评级体系是正确实施信用风险管理的基础。相比于国外,我国商业银行客户信用风险评级体系比较落后,如存在多以定性为主的评级方法,评级过程中存在很强的人为因素,评级采用的指标体系有待科学化和完善化,评级体系信息智能化程度低、无法满足市场环境的动态变化“,信息孤岛”等缺陷。因此,迫切需要开发新的商业银行客户信用风险评级体系来解决上述问题。近年来,数据挖掘技术已广泛应用于金融业,并取得了显著效果。本文的客户是指企业类客户。

收稿日期:2009-08-19      修回日期:2009-10-07

(编号:08JJD870225)研究成果之一。基金项目:教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”

作者简介:蔡皎洁(1982-),女,博士研究生,讲师,研究方向为商务智能;张玉峰(1946-),女,教授,博士生导师,研究方向为计算机信息系统工程、人工智能、知识管理与电子商务。

© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

                     情 报 杂 志                  第29卷・48・

主要功能有:可以针对企业所面对的内外部环境因素的变化而做出及时的反应;能够以科学的方式选择用来评级客户信用风险级别的指标;具有能够集成化、适时化地处理客户信用风险评级指标数据、并对客户信用风险级别进行准确分类的评级模型;对应于风险级别能以可视化界面显示企业经营综合状况,以指导商业银行合理执行信贷决策。其体系结构如图1所示:

d.取X∩Y的频繁关联活动集M,找出影响因素

集Fi,对其中数据Fij进行标准化处理,进而对标准化数据进行主成分分析,得到特征值累积方差贡献率

85%以上的主成分因素,即为要找的客户信用风险评

级指标。把这些频繁关联活动相对应的评级指标存入指标数据库K,待结合评级结果做进一步数据挖掘分析。

由于篇幅,试举例说明如下:

a.按照商业、工业、农业企业性质进行

企业聚类,挑选某商业中小企业A簇为研究对象,由远及近的距离分别选取10、15、

20个企业。

b.设最小支持度计数为2,最小置信度

为60%,基于业务流程维度,每个企业对应的事务集IAi∈IA={企业资产评估;竞标;

图1 基于数据挖掘的客户信用风险评级体系结构采购;材料入库;产品设计;需求计划;客户

服务;…}。应用Apriori算法找出该企业簇的频繁业务关联活动集X={竞标→采购;需求计划∩产品设计→客户服务;…}。

c.基于生命周期维度,如该企业簇萌芽期发生的

2 基于关联规则构建客户信用风险评级指标客户信用风险评级模型的数据来源于信用风险评级指标的确定,科学地构建指标体系对评级模型的正确分类起到决定性的作用。本文意识到企业在日常业务流程中伴随着风险因素,因此提出利用关联规则挖掘企业最为频繁业务关联活动,进而分析影响这些频繁业务关联活动的风险指标;另外考虑到时间和内外部环境的影响,进一步用关联规则挖掘贯穿于企业整个生命周期的频繁业务关联活动;取两部得到频繁业务关联活动的并集,分析影响的风险指标。这样不仅可以获取完整的风险评级指标体系,更提高了风险指标分析的科学性,其处理步骤如下:

a.按照企业类型将企业聚类,从与聚类中心企业

业务活动集IB1∈IB={进货;入账;出帐;销售;…}。应用Apriori算法找出该企业簇的频繁业务关联活动集

Y={进货→发货;物料计划∩生产销售;…}。

d.若r1=产品设计∩市场需求预测→采购原材

料∈M。影响该活动的风险因素集Fi={企业净利润;产品生命周期;新产品开发能力;…},将Fij进行数据标准化处理[3],即:

Fij=

3

Fij-󰁫Fisi

n

n

由近及远的距离任意挑选占总聚类数1/3的企业,簇中每个位置选取的企业数相当。

b.基于选取的企业分析其业务流程,提炼出主要

其中σi=

i=1∑(F

ij

-󰁫Fi)

2

n-1

,󰁫Fi=

j=1∑F

n

ij

σ。i为标

准差,󰁫Fi为样本均值,建立变量的相关系数矩阵R,求

R的特征值和特征向量,按特征值累积方差贡献率大

业务活动因子,即事务集IA={IA1,IA2,…,IAm},设企业名称即为事务标识符TID,其中IAi为企业目前的业务活动集,设置最小支持度阈值(min-sup)和最小置信度阈值(min-conf),用Apriori算法获取企业频繁业务关联活动集X。

c.考虑到时间和内外环境的影响,基于生命周期

于85%的准则,找出影响活动集M的主成分因素,即为确定的风险评级指标并存入相应的指标库K中。经分析,新产品开发能力该指标的特征值在诸多影响因素中最高,且累积方差贡献率达到87.5%,为影响该活动的风险评级指标。

3 基于BP神经网络构建客户信用风险评级分类

的维度,进一步实施关联规则挖掘。每个生命周期阶段作为事务标识符TID,即事务集IB={IB1,IB2,…,

IBM}为企业簇在整个生命周期中发生的业务活动,IBi

模型

  客户信用风险评级的本质是客户信用风险分类预测的问题。用于分类和预测的数据挖掘方法有多种,相比于其它分类方法,神经网络分类方法具有处理多

为企业簇在萌芽期、成长期、成熟期和衰退期发生的业务活动集。用Apriori算法获取企业在整个生命周期中的频繁业务关联活动集Y。

© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第2期           蔡皎洁,等:基于数据挖掘银行客户信用风险评级体系研究・49・

因素多指标、适合处理连续型数据、抗噪音能力强等优点。因此本文利用BP神经网络分类法、在内外部环境动态变化的基础上构建此分类评级模型,主要包括两大阶段:数据准备阶段和BP神经网络分类器构建及评估阶段,如图2所示。

一级指标

表2 离散值指标的转化二级指标财务管理水平

离散值的转化结果优(111)、良(110)、差(100)优(111)、良(110)、差(100)

企业素质企业管理者素质

  3.1.2连续值转化过程。对连续值来说,可以先用分箱方法将区间离散成几个子区间,把这些子区间看成不同的离散值,然后使用1/

N码、标准二进制码或温度计码中的某种方式

对这些子区间进行编码,或先进行比例变换,再对区间进行离散化[2]。假设利润总额在100~

650(单位为万元)之间均匀分布,可以分成6个

子区间,然后采用温度计编码,将小于125的工资值编码为{000001},区间[125,250]内的工资值编码为{000011},对应的区间(250,375]编码为{000111},区间(375,500]编码为{001111},区间(500,625]编码为{111111};其它指标也按此方法进行转化,其总的转化结果如表3所示。

图2 基于BP神经网络的客户信用风险评级分类模型表3 连续值指标的转化

一级指标

二级指标

连续值的转化结果

>125{000001},[125,250]{000011},(250,

375]{000111},(375,500]{001111},(500,625]{111111}

[50,70]{001},(70,90]{011},(90,110]{111}

[0.25,0.45]{01},(0.45,0.65]{11}[0.3,0.5]{01},(0.5,0.7]{11}

 3.1 基于BP神经网络的数据准备阶段 由于神经网络方法的特殊性,数据准备阶段在神经网络方法的整个挖掘过程中起着重要作用,除了要进行数据采集、清除噪音、填补缺失值等通常意义下的数据准备工作外,最重要的是将原始数据转化成能被神经网络算法所接受0、1二进制形式[2]。试举例说明,如经上述关联规则挖掘方法得到影响某商业中小企业A簇的风险评级指标如表1所示。

表1 商业中小企业信用风险评级指标[4]

指标名称商业中小企业信用风险评级指标

一级指标企业素质企业规模盈利能力

二级指标

企业管理者素质财务管理水平利润总额

经营活动现金净流量销售净利率总资产报酬率

数据特点离散值,定性指标离散值,定性指标连续值,定量指标连续值,定量指标连续值,定量指标连续值,定量指标

企业规模

利润总额  

(万元)

经营活动现金净流量   

盈利能力销售净利率 

总资产报酬率

 3.2 BP神经网络分类器构建及评估阶段

3.2.1 BP神经网络分类器构建中的参数设计。

  a.训练样本数和分类级别数的确定。本文采用监督学习方式构建神经网络分类器。通常来讲,训练样本和测试样本各占总样本的80%和20%[5],且测试样本覆盖所有信用级别,每个信用级别中训练样本分布趋于总分部情况。

本文设置3个信用级别并转化为0,1二进制形式,即“优”{1,0,0}、“良”{0,1,0}、“差”{0,0,1}。为了简化神经网络结构,提高训练效率,一般将一个具有多个输出的网络模型转化为多个具有一个输出的网络模型。仍以商业中小企业A簇为研究对象“,优”级20个企业,训练样本占16个,测试样本占4个“;良”级企业

15个,训练样本占12个,测试样本占3个;“差”级10

  3.1.1 离散值转化过程。对神经网络来说,离散型变量方式应该有助于神经网络区分这些离散值之间的差异,并能计算差异的大小。对离散值最常用的转化方法有1/N码,该类编码的长度等于离散值中不同值的数目;标准的二进制码,在该方法中,若一个离散变量不同值的数目为N,则该离散值每个不同值可以用一个介于1~N之间的自然数对应的二进制向量代替;当离散值以某种次序相互关联时可采用温度计码[2]。本文采用的是温度计码方法。假设管理者素质此属性有优、良、差三个状态值,且希望“优”与“差”之间的距离较大,这时采用温度计码,将“优”表示为

111“,良”为110“,差”为100。同理,财务管理水平属

个企业,训练样本占8个,测试样本2个。

b.隐含层层数及其神经元数的确定。BP神经网

络可由一个输入层、一个或多个隐藏层和一个输出层组成。实验证明,三层BP神经网络结构应用最为广泛,只要隐藏层的节点够多就可逼近任何函数[6],因此本文采用单层隐藏层。

经验显示:较好的隐含层节点数介于输入节点和

性也采用上述方法转化。转化结果如表2所示。

© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

                     情 报 杂 志                  第29卷・50・

输出节点数量之和的50%~70%之间;隐含层节点数必须小于N-1(N为训练样本数)[7]。并且要经过固定样本针对不同隐藏层节点数进行训练,按照训练次数最少和出错率最低来选择隐藏层数。按照以上方法,本文隐藏层节点数为4,总的神经网络结构为3个

6×4×1神经网络模式。

c.最小训练次数的确定。在指定误差范围内,训

银行避免客户信用风险中是可行的,因此本文所构建的神经网络分类器在正确性上达到要求。

表4 神经网络分类器仿真实验结果

分类器期望输出样本序号分类器实际输出分类结果优{1,0,0}

1234

{1,0,0}{1,0,0}{0,1,0}{1,0,0}{0,1,0}{0,1,0}{0,0,1}{0,0,1}{0,0,1}

优优良优良良差差差

练次数的大小直接影响BP神经网络分类器的学习速度。这里涉及到学习率η,动量因子α和收敛界值误差E三个重要的学习参数。学习率η是为了保证算法的收敛性,0<η<1,动量因子α为了避免分类器训练陷于较浅的局部极小点,0<η<α<1,E的取值应在分类精度和训练速度之间做权衡。本文设E=0.001。

神经网络学习算法最大的缺点是易陷于局部极小点和学习收敛速度慢。为改善此缺点,一些专家提出变学习率结合方法,其调整公式如下[4]:

η9t,9>1,Et+1βηηt,β<1,Et+1>KEtt+1=

ηt,其它其中,η为学习率,t为训练次数,E为误差函数,9,β,K为比率因子,本文中取值为9=0.5,β=0.3,

K=0.7,且不断试验当α=0.52,η=0.3时,训练次

良{0,1,0}123

差{0,0,1}12

4 基于数据挖掘构建分类结果细化可视化模型“可视化”是指使用计算机创建可视图像,从而为理解那些大量的复杂数据提供帮助[8]。本文构建基于数据挖掘分类结果细化可视化模型的内涵是在初次BP神经网络分类结果的基础上,再次使用多种数据挖

掘方法,如概念描述、聚类、关联规则等方法找出与初次BP神经网络分类结果相关的多种企业内部原因,即找出初次分类结果与企业频繁业务关联活动、风险因素评级指标之间进一步的逻辑联系,这些再次被挖掘出的知识规则用曲线、曲面、数据分布图表等可视化用户界面形式辅助管理者决策。

利用数据挖掘进行分类结果细化的数据来源于

BP神经网络初次分类结果文档、频繁业务活动集M

数达到最小值243次,即趋于误差界值0.001。

d.基于变学习率的修正权值和误差的确定[4]。在

基于变学习率的基础上,误差是所有训练样本输出误差的总和,即

1E=

2

1Ep=∑2p=1

P

Pp=1

∑(d

p

-yp)

2

和风险因素评级指标数据库K,并进行数据清理、集成和选择,放置于数据仓库服务器中,然后再实施各种数据挖掘。如使用概念描述方法,概括初次分类结果所对应的企业综合特征;使用关联规则方法,分析初次分类结果与频繁业务活动之间的关系,即信用优良企业通常会发生那些频繁业务活动;使用聚类方法,按照风险因素数目递增方式依次进行无指导学习,分析企业聚类结果与BP神经网络分类结果的差异性,进而找出

其中P为训练的最大次数,d为期望输出值,y为实际输出值。

在所有训练样本学习结束后才开始误差反向传播,即更新各层连接权值,即

P

P

wj=wj+η

p=1

δu∑

j

P

j

η+α

i

p=1P

δu∑

ij

jj

Vij=Vij+η

p=1

δX∑

ij

p=1

δX∑

i

差异性原因,提高BP神经网络分类正确率。其模型如图3所示。5 结束语

本文利用关联规则挖掘的方法,结合企业业务流程和生命周期,发掘影响企业频繁业务关联活动的风险评级指标,提高了构建信用风险评级指标体系的科学性;另外提出了基于BP神经网络技术构建客户信用风险评级模型,经试验分析BP神经网络分类器可较好完成分类任务;针对BP分类器的初步分类结果、频繁

(下转第71页)

其中W为输入层到隐含层的权值,V为隐藏层到

输出层的权值,δ为误差信号。

3.2.2 分类结果及评估。本文基于以上参数,用Matlab6.1版神经网络工具箱进行分类器仿真实验,其

结果如表4所示。

从该表中可以看到,4个“优”类测试样本中达到正确率75%;3个“优”类测试样本中达到正确率67%,

2个“差”类测试样本正确率为100%;其中3号“优”类

被划分为“良”类中,3号“良”类被划分为“差”类,而差类中测试样本分类完全正确,这样的分类结果在商业

© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第2期            杜浩文,等:门户网站服务质量评价研究述评

search,1982,19(11):491-504

[18]ChristianGronroos.StrategicManagementandMarketinginthe

ServiceSector[R].ResearchReports.SwedishSchoolofEco2nomicsandBusinessAdministration.Helsinki,1982

[19]LewisRC,BHBooms.TheMarketingAspectsofServiceQuali2

ty,inEmergingPerspectivesonServicesMarketing[J].LBerry,GShostack,GUpaheds.Chicago:AmericanMarketing,1983:99-107

[20]BitnerMJ.Servicescapes:TheImpactofPhysicalSurroundings

onCustomersandEmployees[J].JournalofMarketing,1992,56(4):57-71

[21]RoninJR.JJ,TaylorSA.MeasuringServiceQuality:AReex2

aminationandExtension[J].JournalofMarketing,1992,56:55-68

[22]LandrumH,PrybutokVR.AServiceQualityandSuccessModel

fortheInformationServiceIndustry[J].EuropeanJournalofOp2erationalResearch,2001,156:628-2

[23]ParasuramanA,ValarieZeithaml,LeonardBerry.Servqual:AMultiple-itemScaleforMeasuringConsumerPerceptionsofSer2viceQuality[J].JournalofRetailing,1988,:12-40[24]BrownTJ,GAChurchillJr,JPPeter.ResearchNote:Improv2

ingtheMeasurementofServiceQuality[J].JournalofRetailing,1993,Spring,69:127-139

[25]ParasuramanA,ZeithamlVA,BerryLL.Servqual:AMultiple-ItemScaleforMeasuringConsumerPerceptionsofServiceQuality[J].JournalofRetailing,1988,(1):12-40

[26]LiYN,TanKC,XieM.MeasurementWeb-BasedService

Quality[J].TotalQualityManagement,2002,13(5):685-700[27]WolfinbargerM,GillyMC.e-tailQ:Dimensionalizing,Measur2

ingandPredictinge-TailQuality[J].JournalofRetailing,2003,79(3):8-29

・71・

[28]YooB,DonthuN.DevelopingaScaletoMeasurethePerceived

QualityofInternetShoppingSite(SITEQUAL)[J].QuarterlyJournalofElectronicCommerce,2001,52(1):31-47

[29]YangRT,Peterson,LHuang.TakingthePulseofInternet

Pharmacies[J].MarketingHealthServices,2001:5-10

[30]VanRielACR,LiljanderV,JurriensP.ExploringConsumerE2

valuationsofE-services:aPortalSite[J].InternationalJournalofServiceIndustryManagement,2001(12):359-377

[31]JandaS,TrocchiaPJ,GwinnerKP.ConsumerPerceptionofIn2

ternetRetailServiceQuality[J].InternationalJournalofServiceIndustryManagement,2002,13(5):412-431

[32]彭细正.电子政务门户网站绩效评估研究[J].信息化建设,

2004(10):10-11

[33]徐恩元,李澜楠.门户网站绩效评估研究综述[J].图书馆

论坛,2008,28(6):198-203

[34]TorresL,PinaV,AcereteB.E-GovernmentDevelopmentson

DeliveringPublicServicesAmongEUCities[J].GovernmentIn2formationQuarterly,2005(22):217-238

[35]YangZL,CaiSH,ZhengZ,etal.DevelopmentandValidation

ofanInstrumenttoMeasureUserPerceivedServiceQualityofInformationPresentingwebPortals[J].Information&Manage2ment,2005(42):575-5

[36]GouscosDetal.AGeneralModelofPerformanceandQualityfor

One-stopE-GovernmentServiceOfferings[J].GovernmentInforma-tionQuarterly,2007,24(4):860-885

[37]宋 昊.公众使用视角的电子门户网站服务质量与满意

度研究———以杭州为例[D].杭州:浙江大学,2005

[38]雷战波,姜晓芳.我国电子政务绩效评估发展综述[J].情报杂

志,2006(12)

(责编:贺晓利)

(上接第50页)指导商业银行进行客户信用风险的决策和规避。

参考文献

[1] 我国商业银行不良贷款率下.[2009-07-18].http://fi2

nance.people.com.cn

[2] 苏新宁,杨建林.数据仓库和数据挖掘[M].北京:清华大学出

版社,2006(10):167-169

[3] 宋新明,居 勇.基于主成分分析法和BP神经网络的电力客

户信用评价[J].技术经济与管理研究,2005(5):22-24

[4] 陈诚高.神经网络在商业银行信用风险评估系统中的应用研

究[D].南京:东南大学,2006

[5] 杜志刚.银行个人信用评估方法研究[J].华南金融电脑,2004,

12(8):2-4

[6] JiaweiHan著;范 明译.数据挖掘概念与技术[M].北京:机

械工业出版社,2007:213

图3 基于数据挖掘的分类结果细化可视化模型

[7] 曹 顺,刘 婷.基于BP神经网络的企业信用评价研究[J].

业务活动集M及相关评级指标数据库K,使用概念描述等多种数据挖掘技术进行再次分析、挖掘,更详细解释与初次分类结果相关的多种企业内部原因,进一步

控制工程,2003,10(5):404-406

[8] 谭学清,陆 泉.商务智能[M].武汉:武汉大学出版社,2006:

250

(责编:白燕琼)

© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- haog.cn 版权所有 赣ICP备2024042798号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务