教育资源数字化平台

计算机类教材 > 智能科学与技术

面向分类的集成学习算法——基础理论与分析

书号：9787113298616 套系名称：无

作者：孙光灵李艳秋出版日期：2022-12-01

定价：33.00 页码 / 开本：无 /16

策划编辑：刘梦珂汪敏责任编辑：汪敏张彤

适用专业：计算机基础教育适用层次：高等教育

最新印刷时间：

在线阅读

资源下载

教学课件(暂无) 教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

孙光灵李艳秋著内 容 简 介作为一类先进的机器学习方法，多分类器集成技术将多个单体学习器按照一定的规则集成起来，充分利用个体学习器之间的互补性，以取得更好的泛化能力和健壮性。全书分为三部分，第一部分主要介绍集成学习的相关背景，即关于分类器的相关基础理论。第二部分主要介绍集成学习方法的核心知识，诸如多分类器集成的框架、集成规则和性能评估等理论；Boosting、Bagging、Stacking和随机森林（Random Forests）等经典算法；除此之外，还介绍典型的动态集成方法以及集成聚类算法相关基本概念。第三部分介绍集成学习方法的扩展议题，给出集成学习在半监督学习、主动学习和类别不平衡学习等领域的应用。本书的主要受众是具有一定机器学习和模式识别基础知识的读者，也供机器学习和模式识别爱好者阅读参考。

随着海量数据的广泛产生和应用，数据挖掘技术应运而生。作为数据挖掘领域中的基本问题之一，分类技术引起了广大学者的极大关注。目前存在着很多分类技术，如决策树、支持向量机等。为了达到比较好的预测效果，传统的分类操作，常常通过训练集产生多个分类模型，再用测试集对其分类性能进行逐个测试，把性能最好的一个作为最终的分类模型。但人们在研究过程中发现，单个分类器的性能有限，很难通过改进单个分类器达到实际所要求的效果。对多个单分类器进行有效的组合，既可以提高分类的性能，又可以保证预测结果的稳定性，其性能甚至超过了多个单分类器当中最好的一个，因此人们对分类集成学习的研究越来越重视。同时，由于对单个分类器的分类性能要求不高，也促成了人们对分类集成学习进行大量研究，此时单分类器的性能仅要求达到或高于随机猜测的效果即可。分类集成学习技术主要包括两个方面：一个方面是单个分类器的生成方式，在分类集成学习中，把这种单分类器称为基分类器或基学习器；另一个方面是基分类器的组合方式。基分类器的生成方式主要是产生有差异性的基分类器，而基分类器的组合方式是解决如何有效地融合生成的基分类器，使之产生最好的分类性能。目前对分类集成学习的研究已经有一些成果，但还存在很多没有确定的问题：首先是集成过程中的基分类器数目选择问题，选择多少个基分类器用于集成才能取得最好的分类性能尚无定论；其次是基分类器之间差异性与准确率之间的关系，因为差异性和准确性存在着负相关关系，因此二者不可兼顾，虽然集成学习中对基分类器的准确性要求不高，但如果一味地去追求差异性必然导致准确性的急速下降，达不到集成学习要求的准确性；再次是基分类器类型的选择问题，运用同样的基分类器组合方法，但如果基分类器的类型不同，最终产生的分类性能会大不相同。诸如此类的问题还需要进一步进行研究。因此，自从20世纪90年代以来，集成学习方法就成为一个热门的研究课题，吸引了来自机器学习、模式识别、数据挖掘、神经网络和统计等领域的众多研究人员。本书面向研究人员、学生和实践者介绍集成学习方法。全书共7章，分为三部分。第一部由第1章构成，主要介绍分类器理论基础。本书的主要受众是具有一定机器学习和模式识别基础知识的读者，但是为使不了解相关内容的读者也能尽量读懂本书的主要内容，著者从数据挖掘理论开始介绍，然后在本章中简要概述分类器理论的基础知识。第二部分由第2章到第6章构成，介绍集成学习方法的核心知识。第2章系统介绍了多分类器集成技术相关基础理论，多分类器集成的框架、集成规则和多分类器性能评估等。第3章介绍了Boosting算法和Bagging算法，由于经典的Boosting是针对二分类问题设计的，且对噪声比较敏感，因此本章除介绍Boosting的相关算法和理论外，还介绍了其多类扩展。此外还介绍了Stacking算法、随机森林（Random Forests）和其他的随机决策树集成方法，这类方法都可以看成Bagging的变种。第4章介绍了多分类器动态集成结合算法，除基于KNN准则的动态集成方法外，还有基于聚类准则和不同数据集的动态集成方法，最后给出这三种不同集成方法的算法分析。第5章专门介绍了基于分类器选择的集成学习算法。主要介绍了“选择性集成”的提出、理论基础、典型算法及其应用，然后分析了选择性集成目前存在的不足和发展方向。第6章主要对聚类集成算法基本概念进行阐述。聚类集成由两个阶段组成：第一个阶段是生成具有差异的基聚类集合，当基聚类成员之间具有多样性时，后期才能较为全面地从各个方面揭示数据样本之间的信息；第二个阶段是使用组合策略，组合策略的设计对聚类集成的结果的准确性也有着比较重要的影响。最后对一些经典的聚类集成算法进行介绍，所述算法经常用于算法对比。第三部分由第7章构成。本章属于集成学习的扩展议题，包括半监督学习、主动学习、类别不平衡学习，以及提升可解释性方面的一些研究进展。尽管集成学习方法近些年取得了不少进展，研究方法越来越深入，但业界对一些核心要素还缺乏深入理解，对相关技术的实验研究也并不充分。因此，本书的某些章节仅对部分算法做简要介绍。本书没有大家的帮助难以成稿。在此，笔者衷心感谢通读此书并给出有建设性意见的专家和同事。笔者指导的2022级研究生靳艳飞、缪飞、朱玉敏、周云龙、孟甜甜做了图表绘制工作，2021级研究生彭欣仪、吴倩、黄磊、卢慧敏、曹亿亿对资料进行了收集。没有他们辛勤的劳动，本书出版至少会推迟。本书撰写过程当中，参考了周志华教授的著述《机器学习理论导引》和《集成学习基础与算法》，董荣胜教授的《计算机科学导论——思想与方法》。本书顺利出版也离不开中国铁道出版社有限公司编辑的大力支持，合肥工业大学胡学钢教授对本书的稿件进行了审阅，在此一并表示感谢。本书受中央高校基本科研业务费专项资金（编号：PA2021GDSK0093），合肥工业大学“智能互联系统安徽省实验室”开放基金（编号：PA2021AKSK0107），安徽省高校协同创新项目（编号：GXXT2021024）资助。由于著者水平有限，撰写时间较为仓促，难免会有疏漏和不足之处，敬请广大专家、读者批评指正。著者2022年7月

11数据挖掘
12学习任务的种类
13分类的概念
14基于统计的分类技术
15基于决策树的分类方法
16基于神经网络的方法
17分类器性能评估
第2章多分类器集成技术概述
21集成学习的基本概念
22集成学习的作用
23多分类器集成有效性的原因
24多分类器集成框架
25基分类器的集成规则
26多分类器性能评估
第3章多分类器集成技术
31Boosting算法
32Bagging算法
33两种经典集成方法中样本加权分析
34Stacking算法
35随机子空间方法
36随机森林集成
第4章多分类器动态集成算法
41多分类器动态集成框架
42基于KNN准则的动态集成
43基于聚类准则的动态集成
44基于不同数据集的动态集成
45多分类器动态集成算法分析
第5章基于分类器选择的集成学习算法
51选择集成的提出
52选择性集成的理论基础
53选择性集成算法GASEN
54选择性集成的不足和发展方向
55集成剪枝
第6章聚类集成
61聚类
62聚类集成
63经典聚类集成算法介绍
第7章集成学习扩展议题
71半监督学习
72主动学习
73类别不平衡学习
74关于集成学习的一点启示

      孙光灵，男，安徽淮南市人，工学硕士学位，安徽建筑大学副教授。现为中国计算机学会会员，安徽省人工智能学会会员，中国计算机教育MOOC联盟安徽工委秘书长，信息技术新工科安徽工委秘书长，安徽省高等学校计算机教育研究会副秘书长。主要研究方向为人工智能、图像处理等。发表学术论文20余篇，已获授权实用新型专利、外观设计专利4项，编写教材3部，主讲计算机课程8门。

      李艳秋，女，安徽淮北人，1988年出生，2018年获合肥工业大学计算机应用技术专业工学博士学位，现为安徽建筑大学电子与信息工程学院讲师，近年来一直从事模式识别、机器视觉和机器学习等方向的研究工作。

尽管集成学习方法近些年取得了不少进展，研究方法越来越深入，但业界对一些核心要素还缺乏深入理解，对相关技术的实验研究也并不充分。因此，本书的某些章节仅对部分算法做简要介绍。