如何快速简单的理解决策树的概念?

均衡侠
• 阅读 142

决策树(Decision Tree)是机器学习中一种常见的算法,它的思想非常朴素,就像我们平时利用选择做决策的过程。决策树是一种基本的分类与回归方法,当被用于分类时叫做分类树,被用于回归时叫做回归树。

如何快速简单的理解决策树的概念?

一、决策树结构:

顾名思义,决策树在逻辑上表现为树的形式,包含有节点和向边。

一般情况下,一棵决策树包含一个根节点、若干个内部节点和若干个叶结点。

根节点:包含样本全集,从根节点到每个叶结点的路径对应了一个判定测试序列。

内部节点:表示一个特征和属性。每个内部节点都是一个判断条件,并且包含数据集中,满足从根节点到该节点所有条件的数据的集合。根据内部节点的属性测试结果,内部节点对应的数据的集合别分到两个或多个子节点中。

叶节点:表示一个类,对应于决策结果。叶节点为最终的类别,如果该数据被包含在该叶节点,则属于该类别。

如下图中,其中圆和方框分别表示内部节点和叶结点。

如何快速简单的理解决策树的概念?

简而言之,决策树是一个利用树的模型进行决策的预测模型,表现出的是对象属性与对象值之间的一种映射关系,简单明了,非常容易理解。

我们决策树学习的目的是为了产生一棵泛化能力强,也就是能够高效、有效处理未见示例的决策树。

二、决策树的优缺点:

1.决策树的最大优点是,对背景知识要求不高,计算复杂度也不是很高,可以自学习。

2.属于有监督学习

3.对中间缺失值不敏感

4. 解释性强,甚至超过线性回归

5.相比传统的回归和分类方法,决策树是更接近人的决策模式

6. 能够用图形来表示,即使不是专业人士也可以轻松理解

7.可以在不创建哑变量的情况下,直接处理定性的预测变量,

8.决策树的预测准确性相比一般比回归和分类方法比较弱,但能够通过用集成学习方法组合大量决策树,这样可以显著提升树的预测效果

三、决策树的生成

决策树的生成是一个自顶向下的递归过程,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子结点处的熵值为零。

在决策树算法中有三种情形导致递归返回:

1)当前节点包含的样本属于同一类,不需要划分;

2)当前属性集为空,无法进行划分。这种情况下,需要将当前节点标记成叶节点,并将其类别设定为所含样本最多的类别;利用当前节点的后验分布;(就是:有样本无属性进行划分)

3)当前结点包含的样本集合为空,不能进项划分。此时,要将当前节点标记为叶节点,将其类别设定为其父结点所含样本最多的类别;利用父结点的先验分布(就是:无样本有属性)

点赞
收藏
评论区
推荐文章
大数据
课程安排 一、大数据概述 二、大数据处理架构Hadoop 三、分布式文件系统HDFS 四、分布式数据库HBase 五、MapReduce 六、Spark 七、IPythonNotebook运行PythonSpark程序 八、PythonSpark集成开发环境 九、PythonSpark决策树二分类与多分类 十、PythonSpark支持向量机 十一
黎明之道 黎明之道
4年前
天池比赛数据挖掘心电图模型调参
Task4建模与调参4.1学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成
Wesley13 Wesley13
3年前
MesaTEE GBDT
!(https://static.oschina.net/uploads/space/2020/0702/190947_Fixv_4501957.jpg)GBDT(GradientBoostingDecisionTree,梯度提升决策树)是工业界广泛应用的机器学习算法,而XGBoost则是著名华人学者陈天奇发起并被工业界广泛应用的开源GBDT工
Stella981 Stella981
3年前
LightGBM 算法原理
LightGBM的动机GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务而GBDT在每一次迭代的时
Wesley13 Wesley13
3年前
KNN分类算法原理分析及代码实现
1、分类与聚类的概念与区别分类:是从一组已知的训练样本中发现分类模型,并且使用这个分类模型来预测待分类样本。目前常用的分类算法主要有:朴素贝叶斯分类算法(NaïveBayes)、支持向量机分类算法(SupportVectorMachines)、KNN最近邻算法(kNearestNeighbors)、神经网络算法(NNet)以及决策树(De
Wesley13 Wesley13
3年前
2、创建分类器笔记
创建分类器\\简介:\\分类是指利用数据的特性将其分类成若干类型的过程。分类与回归不同,回归的输出是实数。监督学习分类器就是用带标记的训练数据建立一个模型,然后对未知的数据进行分类。分类器可以实现分类功能的任意算法,最简单的分类器就是简单的数学函数。其中有二元(binary)分类器,将数据分成两类,也可多元(m
Stella981 Stella981
3年前
GPU上的随机森林:比Apache Spark快2000倍
作者|AaronRichter编译|VK来源|TowardsDataScience随机森林是一种机器学习算法,以其鲁棒性、准确性和可扩展性而受到许多数据科学家的信赖。该算法通过bootstrap聚合训练出多棵决策树,然后通过集成对输出进行预测。由于其集成特征的特点,随机森林是一种可以在分布式计算环境中实现的算法。树可以在集群中跨进程和机器并
机器学习基础
机器学习基础本章涵盖了以下主题:分类和回归之外的其他类型的问题;评估问题,理解过拟合、欠拟合,以及解决这些问题的技巧;为深度学习准备数据。请记住,在本章中讨论的大多数技术都是机器学习和深度学习通用的,一部分用于解决过拟合问题的技术(如dropout)除外。4.1 三类机器学习问题在之前的所有例子中,尝试解决的是分类(预测猫或狗)或回归(预测用户在平台上
机器学习基础
本章涵盖了以下主题:分类和回归之外的其他类型的问题;评估问题,理解过拟合、欠拟合,以及解决这些问题的技巧;为深度学习准备数据。请记住,在本章中讨论的大多数技术都是机器学习和深度学习通用的,一部分用于解决过拟合问题的技术(如dropout)除外。4.1 三类机器学习问题在之前的所有例子中,尝试解决的是分类(预测猫或狗)或回归(预测用户在平台上花费的平均时
大数据——决策树(decision tree)
大数据————决策树(decisiontree)决策树(decisiontree):是一种基本的分类与回归方法,主要讨论分类的决策树。在分类问题中,表示基于特征对实例进行分类的过程,可以认为是ifthen的集合,也可以认为是定义在特征空间