决策树
一、什么是决策树
相关名词
- 信息熵
- 信息增益和信息增益率
- 剪枝、预剪枝和后剪枝
- 过拟合
- 根节点和叶节点 (关于这些名词涉及的具体算法本文不会多谈,详情请参阅周志华先生的《机器学习》)
1.1 决策树简介
决策树(decision tree)是一类常见的机器学习方法。一般的,一棵决策树包含一个根节点,若干个内部结点和若干个叶节点;叶节点对应决策结果,其他节点则对应一个属性测试;每个结点包含样本集合根据属性测试的结果被划分到子结点中;根节点包含样本全集。决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的“分而治之”的策略。(摘自周志华的《机器学习》)
决策树可分为分类决策树和回归决策树,分类决策树有ID3决策树和C4.5决策树,回归决策树有CART决策树,其中C4.5和CART属于十大数据挖掘算法之二。
1.2 优缺点
- 优点:计算复杂度不高,分类规则易于理解,准确度较高;
- 缺点:在构造树的过程中需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效,另外可能会产生过拟合的问题。
二、如何构造一个决策树
在谈如何构造决策树之前,我们需要先简单了解一下信息熵、信息增益和信息增益率。
信息熵指的是信息混乱程度,熵越大,信息混乱程度越高, 纯度越低。比如,,A的熵就比较高,B的熵就比较低。信息熵的计算公式如下: