搜索
您的当前位置:首页正文

基于自适应迭代更新的函数型数据聚类方法研究

来源:好走旅游网
第32卷第4期 统计研究 Vo1.32.No.4 2015年4月 Statistical Research Apr.2015 基于自适应迭代更新的函数型 数据聚类方法研究 王德青 刘晓葳 朱建平 内容提要:函数型数据的稀疏性和无穷维特性使得传统聚类分析失效。针对此问题,本文在界定函数型数据 概念与内涵的基础上提出了一种自适应迭代更新聚类分析。首先,基于数据参数信息实现无穷维函数空间向有限 维多元空间的过渡;在此基础上,依据变量信息含量的差异构建自适应赋权聚类统计量,并依此为函数型数据的相 似性测度进行初始类别划分;进一步,在给定阈值限制下,对所有函数的初始类别归属进行自适应迭代更新,将收 敛的优化结果作为最终的类别划分。随机模拟和实证检验表明,与现有的同类函数型聚类分析相比,文中方法的 分类正确率显著提高,体现了新方法的相对优良性和实际问题应用中的有效性。 关键词:函数型数据分析;自适应权重;迭代更新;聚类分析 中图分类号:0212 文献标识码:A 文章编号:1002—4565(2015)O4—0091—06 Research on Clustering Analysis for Functional Data based on Adaptive Iteration Wang Deqing Liu Xiaowei Zhu Jianping Abstract::Traditional clustering methods fail to analyze functional data with sparse property and infinite dimensional structure.To solve the problem,this paper presents an algorithm of adaptive iterative updating clustering analysis after defining the concept and connotation of functional data.First,construct a finite—dimensional functional multivariate space from infinite—dimensional one by using the parameter information of original data;On this basis,build an adaptive weighted clustering statistics as the criteria for giving initial clusters according to the difference of the information content implied in variables;Further,under the given threshold limit,gather the convergence optimal result to define the final categories by updating the ascription of initial clusters with adaptive iterative process.Stochastic simulation and empirical test shows the correct classiifcation rate of our method is signiifcantly higher than other clustering methods,reflecting the superiority and the effectiveness of our method in practical application. Key words:functional data analysis;adaptive weighting;iterative update;clustering analysis 一完善。因此,将离散的观测数据纳入连续的函数范 、引言 畴进行分析能够显著提升信息挖掘的深度和分析结 大数据时代的来临已成为社会各界的普遍共 论的全面性。函数型数据分析(下文简称FDA)是 识,“数据爆炸”和“知识匮乏”是大数据时代的典型 研究如何从无穷维、不规则观测数据中挖掘内在信 特征,如何从浩瀚复杂的数据海洋中发现潜在的信 息知识给现代数据挖掘的发展带来了机遇、挑战和 息知识的理论和方法。方法本身的优势和分析思路 紧迫感。传统的数据分析技术在大数据的信息挖掘 中面临诸多局限性,大数据信息的丰富性和结构的 本文为国家社会科学基金重大项目“大数据与统计学理论的 发展研究”(13&ZD148)阶段性研究成果,同时获国家社会科学基金 复杂性促进了对高效数据分析方法的需求。事实 项目“金融高频数据挖掘方法及应用研究”(11BTJO01)、国家自然科 上,实际问题研究中的数据多是不连续、带有噪音、 学基金青年项目“基于非参数随机森林的分类预测方法及其应用” 离散的有序数列,其信息含量远不如连续函数充分 (710201139)资助。 ・92・ 统计研究 2015年4月 的普适性使得函数型数据分析成为数据挖掘的研究 热点,应用成果涉及医学诊断¨“ 、金融工程 儿 、 电子商务 “ 等领域。 聚类分析是数据挖掘最重要的技术手段之一。 针对如何提出、修正和拓展适用于大数据信息挖掘 的函数型聚类分析,国内外学术界进行了诸多有益 的探索,既有经典聚类方法的推广和拓展,也有针对 分析对象特殊性提出新模型。大致可以划分为四个 方向:①直接由原始观测值出发聚类分析,如朱建平 和陈民垦(2007) 将面板数据视作函数型数据无 噪音的离散实现,提出了单变量面板数据聚类分析 的最初思想;Bensmail等 则基于(高)频率与(高) 维度的转化,将高维聚类算法在函数型数据下进行 了推广。②两步法聚类分析,其核心思想是由离散 观测值通过基函数展开重构本征函数,之后对拟合 系数应用传统聚类方法进行类别划分,如Abraham 等 。③非参数聚类分析,其核心思想是通过函数 型秩和里程碑描述(Landmark description)等非参数 方法对函数曲线的形状特征进行刻画,之后基于函 数的形状相似性测度进行聚类分析,如Heckman lo] 等。④基于模型聚类分析,其核心思想是通过主成 分分析将无穷维函数空间过渡到有限维多元空间, 之后基于有限维的概率密度进行聚类分析,如 Chiou… 、Jacques 12]等。对比来看,上述函数型聚 类分析的研究成果都是有针对性地处理某类函数型 数据的特殊分类问题,存在一些明显缺陷,主要表现 在:基于离散数据的聚类分析并未真正领会FDA的 核心思想,不规则数据采集的稀疏性导致传统聚类 方法的普适性差;或是最优基函数的选择缺乏客观 的统一标准,分类结果稳健性显著地取决于基函数 选择的主观性;或是单纯以曲线静态的非参数信息 构建函数型相似性测度,重要参数信息的遗失导致 模型分类的精度和信息挖掘的深度不够。 经典聚类分析的有效性需要满足特定的假设条 件 ,然而当有限维的离散数据经过FDA的连续 化处理转换为无穷维的函数型数据后,分析对象的 无穷维复杂化和连续动态化使得传统聚类方法的弊 端凸显。针对模型失效的具体问题特点,通常可以 引进必要的累进变换将多种分类方法的长处有机集 成,并从理论上使模型融合过程完善,形成能有效处 理复杂函数型分类问题的新方法。基于此,本文在 界定函数型数据概念与内涵的基础上,研究函数型 自适应迭代更新聚类分析。首先提出一种自适应权 重的主成分聚类分析对初始类别中心的稳健性进行 修正,然后给出函数型自适应迭代更新聚类分析的 方法原理和算法步骤,最后通过模拟试验和案例应 用将文中方法与现有同类方法进行对比,以分类结 果的正确率和稳健性论证新方法的优良性。 二、函数型数据的概念与内涵 基于函数视角的数据挖掘是数据挖掘的更一般 形式。尽管函数型数据呈现的形式多种多样,但其 本质是由连续函数构成,可以用随机过程的框架进 行界定。 定义1 假定x={X(t),t∈[0,T]}为定义 于Hilbert空间H∈R的随机过程,则称 的n个具 体实现{X (£),…,X (t)}为服从模型 的函数型 数据,并将 视作函数型数据X (t)在观测点{t =1,一・,m }上的实际取值。 由上述定义可知,FDA的核心思想是将离散数 据视作具有内在统一结构的函数整体,而不仅仅是 个体观测值的顺序排列。“函数”是指数据的内在 本征结构,而非其外在的表现形式。 (t)可以在区 间[0,T]上任意取值,若将函数的每一取值对应于 多元分析的一维变量,则取值的无限可能构成了函 数型数据的无穷维特征。实际问题中,函数型数据 往往是函数在有限时点的离散取值,所以FDA的首 要工作是由离散观测值 重构隐含在其中的本征 函数X (t),主要有如下两种形式: ①样本观测值是本征函数无误差的离散实现, 即:X :X (t ) :1,…,m (1) ②样本观测值是本征函数带有噪音的离散实 现,即:X :X (t )+8 _『=1,…,m (2) 通常称①为插值(interpolation),称②为平滑 (smoothing)。基于实际问题的普遍性考虑,样本观 测值多是本征函数带有噪音的离散实现,本文主要 基于第②种形式进行讨论。假定 (t):{ .(t), …, .(t)}为日中的最优基函数(假定存在),则基 函数展开的函数化一般形式为: L 置(£)=∑& (£): ( )&i (3) 其中& =( 。,…, ) =( ) X i, : { z(tlf):1 ≤J≤ mf,1 ≤ Z≤L}, 第32卷第4期 王德青等:基于自适应迭代更新的函数型数据聚类方法研究 ・93・ =(X …,X ) 。需要说明的是,式(3)的离散数 表示类别c的总误差平方和,进一步定义逼近敏感 度为 = 据函数化并不限定所有函数在区间[0,T]内规则 取样,即允许t ≠t 和m ≠m 。与传统数据分析 方法相比,FDA能够处理不规则观测的稀疏性数 据,放松了数据采集的结构约束和分布假设,对实际 (6) 对于事先给定的阈值r。,选择展开项数目M。 的标准为 问题刻画的灵活性和全面性使得FDA具有普遍适 用性;进一步地,由离散的静态观测数据重构出本征 M =max{ :D ≥丁D,K=0,1,…} (7) 函数后,则可以基于本征函数的高阶导数进行多角 度的动态分析,信息挖掘的深度明显提升。 数学意义上,式(6)、式(7)意味着前 个展开 项对于逼近原函数贡献显著,但M +1个之后的展 开项作用不明显。需要说明的是,迭代更新过程中 三、自适应迭代更新聚类分析 (一)基本思想与方法原理 可能随类别函数构成的变化而变化,但在给定阈 值1_。及式(6)、式(7)的限制条件下,每一步迭代更 新过程中提取的信息含量始终具有可比性。在上述 逼近准则下,不妨记类别C的截断Karhunen.Lo ̄ve 展开为: Mc 设函数集合 ( )由Hilbert空间的.,个二次可 积随机过程混合而成,记混合过程的均值函数为 ( )=E[ (t)],协方差算子为G(s, ) = COV[ (s),X(t)],由Mercer引理则 (t)的 Karhunen.Lo ̄ve展开存在并可表示为… ’(£)= (£)+∑ 质上属于类别c,则 £) (8) 对于任意给定的随机函数X(t),如果X(t)本 (t)=be(t)+∑ ( ) (f) (4) 其中 (t)为G的第k大特征根A (假定A ≥ A,≥…)对应的主成分特征函数,并且彼此之间标 准正交; ( )为 (z)一 ( )在 (z)方向上的主 (t)近似为 (t)的 Karhunen.Lo ̄ve展开,否则二者存在显著差异。基 于上述分类准则,展开式 ’(t)用作判断 (t)类 别归属的基本模型,即: c’( )= a rgm1{,…,成分投影得分,满足E[ ]=0和Var[ ]=A ,并 且 ( )彼此之间相互独立。记C为X(t)的类别标 识,每一类别均值函数 应定义为: inJ}和协方差算子r¨ 可相 {J0 Ix(t)一 ¨’( )]d }丁(9) (二)基于自适应权重的初始类中心确定 m¨ (t)=E[ (t)l C=c] 上节中聚类算法有效性的前提是假定函数集合 的类别信息事先已知。事实上,函数集合初始类别 划分的科学与否,不仅显著影响迭代更新再分类的 G (s,t)=COV[ (s),X(t)I C=c] 仿照混合过程的表示方式,每一类别随机过程 的Karhunen.Lo ̄ve展开为 计算量,而且关系到最终分类结果的准确率和可解 释性¨ 。为此,本文基于自适应赋权主成分聚类分 析确定初始的类别中心 13]。 定义2 设 (X) = { ,( ), :( ),…, X (t)= “ (£)+∑ .t) (5) 其中特征根、特征函数组合(A “, :”)满足 r ( )}为函数集合{ (t),i=1,…,n}按累积方 差贡献率超过给定阈值r 截断的前 个主成分得 ㈠r(s,t) ( )=A 妒: (s)。注意到式(5)的展 开项是无穷维的,为了简化迭代更新再分类过程中 分变量,即∑ A/∑ A,≥r ,假定A。≥…≥ A 为随机变量 。( ), ( ),…, ( )对应的方 的运算量,实际应用时只需由数据信息自适应选择 信息含量最大的部分展开项。具体地,对于样本容量 为n 的类别c, (£): ’(f)+∑::。器’ : (t)表示式(5)中用 个展开项对函数 : (t) .差排列顺序,令 =AI/∑二。AJ(1≤k≤肘)为 ( )的距离权重,称 r 叱[ ( )]={∑ ( 一 )] )T (10) 为函数 (f)、 (f)之间的自适应权重距离。 的截断逼近,则 ’=∑ 【[ (t)一 (t)] dt ・94・ 统计研究 2015年4月 距离度量是聚类分析有效性的关键前提。相对 (四)算法步骤与优势分析 考虑将函数集合{x (t),i=1,…,n}划分为., 传统的多元聚类分析相似性测度,式(10)借鉴综合 评价的“拉开档次法”对不同主成分按其重要程度 进行自适应赋权¨ ,不仅体现了主成分得分信息含 量大小的差异,而且赋权标准客观合理。以式(10) 为函数型数据的相似性度量,运用传统的K-means 类的情况,算法步骤如下。 步骤1 非参数方法估计混合过程的均值函数 (t)和协方差算子G(s,t)…¨ ; 步骤2 对混合过程 .£.展开,并依据阈值r 选取前M个{A , (X)}组合; 聚类分析算法则可以将随机函数集合{X (t),i =1,…,n}进行初始的类别划分,不妨记{ i(t),i =1,…,n}的初始分类结果为g ∈{1,…,.,}( =1,…,n)。 步骤3 依据特征根A 计算主成分得分变量 ( )的距离权重 ; 步骤4 以式(10)为统计量进行函数集合的 初始类别划分,记作g ∈{1,…,.,}; (三)迭代更新再分类 基于自适应赋权主成分聚类分析的初始类别划 分,则可以利用每一类别的均值函数 、协方差算 子G ’以及式(9)为划分标准对分类结果进行迭代 优化。具体地,令g ∈{1,…,.,}表示函数X (t) 在第Z次迭代更新后的类别划分结果,给定所有函 步骤5 给定阈值.r。,对每一类别依据式(7) 选取展开项,按式(8)逼近; 步骤6 依据式(11)计算Xi(t)在每一类别中 的预测值; 步骤7 依据式(12)判断X (£)的新类别归 数的分类结果集合为G“’={g ,i=1,…,n},记 )属,记第z次优化结果为G“’={g }; 步骤8 迭代更新所有函数的再分类结果; 步骤9 重复步骤4~8,若G “’=G ’则停 (t)、 )(t)为每一类别中不包含函数X (£) 的均值函数和特征函数。利用类别C∈{1,…,.,} 的Karhunen-Lo ̄ve展开信息计算函数x (t)在每一 类别中的预测值 (£),即: 止迭代,并输出G ={g }。 本文拓展的函数型自适应迭代更新聚类分析有 (。)=五 ( )+ r f) (11) 机集成了自适应权重聚类分析、迭代更新优化分类 等多种分类模型的长处,并且有充分的理论基础保 证方法融合的必要性和合理性。与同类方法相比其 核心优势在于: 其中 :【[ (t)一 (t)] )(f)dt 表示函数 (f)在每一类别函数集合中的 Karhunen—Lo ̄ve展开系数,也即 i(t)在类别c中 的第k个主成分投影得分。需要注意的是,只有包 (1)秉承了FDA以函数整体为分析对象的基本 思想,能够处理不规则观测的稀疏数据分类问题,聚 类模型的普遍适用性更广。 (2)离散数据的函数化过程由数据信息自行决 定,避免了人为选择基函数的主观任意性。 含函数 (£)的类别才需要重新计算 ; 和 (t),而其他类别函数集合的均值函数和主 成分特征函数并未发生变化。此时,依据式(9)的 类别划分标准对函数 (f)的类别归属进行迭代 (3)初始类别中心确定时,对不同聚类指标按 优化,不妨记函数X (t)第£+1次迭代优化后的 聚类分析结果为 r 2 , 其重要程度自适应赋权,并且权重源于数据信息,赋 权标准客观合理,初始分类的准确性和可解释性 提升。 g “’: a rmg1.{…in {J0[ (f)一 : (f)]dt}寺(12) (4)迭代更新再分类的每一步都充分利用函数 集合的均值函数、协方差算子等参数信息,并且迭代 更新过程中提取的信息自适应确定,始终保持可 比性。 迭代更新所有函数的类别归属,并记函数集合 {置(t),i=1,…,n}的第z+1次迭代后的分类结 果为G““ = {g ¨,i=1,…,n}。若G “’ =G ’(即聚类划分不再改变)则停止迭代更 1,…,n}。 (5)最终的类别划分是多种分类模型迭代更新 再分类的优化结果,聚类分析的稳健性和信息挖掘 的深度提升。 新" ,并判断最终的聚类分析结果为G :{g ,i =第32卷第4期 王德青等:基于自适应迭代更新的函数型数据聚类方法研究 ・95・ 四、模拟分析与实证检验 (kmeans—PCA,K.PCA) 、基于Karhunen.Lo ̄ve展 开的投影得分自适应赋权聚类分析(kmeans. (一)随机模拟试验设计 AWPCA,K-AWPCA)¨ 、主成分得分迭代更新聚类 如何生成具有函数特征的离散数据是本试验的 分析(kmeans—Functional Clustering,K—FC)川 以及 关键所在。参阅现有研究文献的模拟思路…… , 本文的自适应迭代更新聚类分析(kmeans. 两类别函数型数据的生成模型如式(13)。 Adaptively Weighting Functional Clustering,K-AW Mc FC)。在由离散值通过样条基函数展开重构本征函 = ( 玎)+∑ k=l tq)+e 数时,出于逼近精度考虑选择与观测时点相等的 i=1,…,n ;C E{1,2} (13) 200个节点 。在对混合过程的均值函数和协方 其中系数变量 ’独立同分布生成于N(0, 差算子进行估计时,选择局部多项式回归的非参数 A );ei 为随机误差,由正态分布N(0,or )独立生 方法¨ 。设定阈值 :0.9,则提取的前两个投影 成;t 为观测时点,为了保证经典聚类算法的可应用 得分能够反映原始函数集合的核心信息,以c1情 性,令t 在区间[0,1]上200时点等间隔规则分布; 况为示例构造其投影得分分布。设定阈值 =0. 令均值函数分别为m.(t)=4(t一0.5) +1, 2,迭代更新再分类过程中每一类别自适应选取的 m2(t):2.5exp{一25(t一0.25) }+2exp{一50 主成分个数均不超过两个,并且迭代过程中的信息 (t一0.75) },m0(£)=一2(t一0.5) +t;正交特征 提取由数据自行确定,保持了信息含量的可比性。 函数分别为 l。(t)=√2sin("ift), l2(t)=√2cOS(7r ), 在上述参数设置下,分别应用6种聚类模型对模拟 2l(t)= sin(21rt), 22(t)=√2cos(2crt)。在本实 数据进行类别划分,将分类结果与预知的类别属性 对比则可计算分类正确率。重复数据模拟和聚类分 验中,为了使模拟的函数型数据具有广泛的代表性, 均值函数的生成原则分别为完全相同、垂直平移和 析类别划分100次,对比不同聚类模型的分类结果。 完全不同三种设计;同时,为了对比不同噪音扰动下 以c.情况为例的数据分布特征形象说明了两 个方向投影得分信息含量的显著差异,并且这种差 模型分类结果的稳健性,ro 分别选取0、0.5、1、2四 异显著的分布特征在不同数据生成情形下保持不 种情况。在上述符号约定下,两类函数型数据的组 变,印证了式(10)对不同投影得分自适应赋权的必 合生成方式如表1所示。 要性和合理性。由聚类模型的分类效果对比可以看 表1 函数型数据的模拟设计 出:横向角度上,本文提出的自适应迭代更新聚类分 均值函数设计 随机测量误差 特征函数空间 C1a: =0 S‘”=span[妒lI(t), l2( )] 析分类正确率在所有情况下均最高,特别是随着噪 C1b: =0.5 S‘ =span[ 2l(t), 22(£)] C1: 音扰动的加大,新方法的分类效果优势更为突出,印 Clc:0.2:1 CId: 2=2 A‘ =(O.4,0.3) 证了新方法的有效性和相对优良性;纵向角度上,随 C2a: =0 着噪音扰动的加强,不同聚类模型的分类正确率均 C2: C2b: =0.5 A( )=(O.2,0.1) 下降,说明函数化之前对离散数据进行降噪是必要 肛(”+1=It( )=m0 C2c: 2:1 C2d:0.2=2 ~N(0,^ ) 的,同时相对于其他聚类分析而言,新方法在应对噪 C3口: =0 音变化时具有更强的稳健性。 C3: (”=ml,I.t(2) G3b:or =0.5 I三)应用举例 :m— C3c: =1 为说明本文自适应迭代更新聚类分析在实际应 C3d: :2 用中的有效性和相对优良性,现以达能集团的面团用 (二)模型优良性的对比分析 途分类为例进行分析。数据来源于文献[16],采样频 基于表1的蒙特卡洛模拟设计,每类函数型数 率为2次/秒,共241个点,根据工艺标准面团属性先 据生成100个样本进行测试。模型分别采用基于离 验判定为Good、Bad和Aajustable,样本量分别为50、 散观测值的传统聚类分析(kmeans—Y,K—Y) 、基于 40、25。按照聚类分析算法步骤,进行数据预处理。 样条基函数的聚类分析(kmeans—Spline,K—S) 、基 分析结果显示,前两个投影值变量已涵盖原始 于Karhunen.Lo ̄ve展开的投影得分等权聚类分析 数据93.89%的信息含量,故提取前两个投影值即 ・96・ 统计研究 2015年4月 可以6.11%的信息损失将241维的高维空间降至 可视化的二维空间。需要注意的是,第一主成分投 [5]Jank W,Shmueli G,Zhang S.A flexible model orf estimating price dynamics in on・line auctions[J].Journal of the Royal Statistical Society:Series C,2007,59(5):78l一804. 影得分的信息含量是第二主成分投影得分的18倍 之多在散点图中表现为第一主成分投影方向上的数 据分布更分散,不同属性面团之间的类别界限相对 更明显,说明两个主成分投影得分区分样本的能力 [6]Zhang,S.,W.Jank,et a1.Real-Time Forecasting of Online Auctions via Functional K-Nearest Neighbors[J].International Journal of Forecasting,2010(26):666—683. [7]朱建平,陈民垦.面板数据的聚类分析及其应用[J].统计研 究,2007,24(4):l1—14. 存在显著差异。为增强不同聚类模型的对比效果, 统一采用欧氏距离为相似性测度、组间联结为类别 [8]Bensmail H,Aruna B,Semmes J,et a1.Functional clustering 划分标准将面团聚为三类。 对比6种聚类方法对实际数据的应用效果可以 发现,相对现有的同类函数型聚类分析,自适应迭代 更新聚类分析的平均分类正确率最高;特别是,除在 划分“Good”、“Bad”两类差异明显的面团优势显著 外,新方法对特征区别不明显的“Adjustable”面团分 类效果优势更为突出,体现出新方法在低信噪比复 杂函数型分类问题下具有更广的普遍适用性,这与 模拟试验的结论一致。综上分析印证了本文所提新 方法的合理性、相对优良性和普遍适用性。 五、结束语 本文在界定函数型数据概念、内涵及与传统数 据分析区别的基础上,提出了一种自适应迭代更新 聚类分析。新方法与同类方法相比其核心优势在 于:以函数整体为分析对象,通过必要的累进变换有 机集成了多个理论和方法的长处,并且方法的每一 步都有理论保证,有着复杂函数型分类问题下的普 遍适用性。以分类正确率为评判标准,随机模拟试 验和实际案例应用印证了本文方法相对已有同类方 法的优良性。作为后续研究,可在本文方法基础上, 进一步探讨函数化之前对离散数据降噪的必要性及 其工具创新。 参考文献 [1]Hu Y,He xM,Tao J,et a1.Modeling and prediction of children’ s growth data via functional principal component analysis[J]. Science in China Series:Mathematics,2009,52(6):1342 —1350. [2]王勘,黄可飞,王惠文.一种函数型数据的聚类分析方法[J].数 理统计与管理,2009,28(5):839—844. [3]Mailer H G,Sen R,Stadtmaller U.Functional data analysis for volatility[J].Journal of the Econometircs,201 1(165):233 —245. [4]郭均鹏,孙钦堂,李汶华.Shibor市场中各期限利率波动模式分 析一基于FPCA方法[J].系统工程,2012,30(12):84—88. algorithm for high-dimensional proteomics data[J].Journal of Biomedicine and Biotechnology,2005(2):80—86. [9]Abraham C,Cornillon P A,Matzner L E.Unsupervised cui've clustering using B—spline[J].Scandinavian Journal of Statistics theory and methods,2003,3O(3):581—595. [10]Heckman N E,Zamar R H.Comparing the shapes of regression functions[J].Biometrika,2000,87(1):135—144. [1 1]Chiou J M,Li P L.Functional clustering and identi ̄ing substructures of longitudinal data[J].Jourual of the Royal Statistical Society:Series B,2007,69(4):679—699. [12]Jacques J,Preda C.Model-based clustering for multivariate functional data[J].Computational Statistics and Data Analysis。 2014(71):92—106. [13]王德青,朱建平,谢邦昌.主成分聚类分析有效性的思考[J]. 统计研究,2011,29(11):84—87. [14]郭亚军.一种新的动态综合评价方法[J].管理科学学报,2002, 5(2):49—54. [1S]Fan J Q,Gijbels I.Local polynomial modeling and its application [M].London:Chapman and Hall,1996. [16]Preda C,Sapo ̄a G,L6v6der C.PLS classification of functional data[J].Computational Statistics,2007(22):223—235. 作者简介 王德青,男,1983年生,汉族,山东青岛人,2014年毕业 于厦门大学经济学院,获经济学博士学位,现为中国矿业大 学管理学院助理教授、厦门大学数据挖掘研究中心兼职研究 人员。研究方向为数据挖掘、函数型数据分析。 刘晓葳,男,1987年生,汉族,陕西西安人,现为厦门大 学经济学院统计系、厦门大学数据挖掘研究中心博士研究 生。研究方向为数据挖掘、大数据分析。 朱建平,男,1962年生,汉族,河南浚县人,2003年获南 开大学理学博士学位,现为厦门大学两岸关系和平发展协同 创新中心和经济学院教授,博士生导师,厦门大学数据挖掘 研究中心主任。中国统计学会副会长、教育部高等学校统计 学类专业教学指导委员会秘书长、中国统计教育学会常务理 事。研究方向为数理统计、数据挖掘。 (责任编辑:方原) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top