Machine Learning in Action -- 树回归-白红宇

Machine Learning in Action -- 树回归

阅读量：789 次

发布时间：2023-02-06

本文共 1441 字，大约阅读时间需要 4 分钟。

在线性回归中，我们通常假设数据集之间存在全局线性关系。然而，现实中的数据往往并非如此。面对这种复杂的非线性关系，传统的线性回归方法显得力不从心。因此，近年来，回归树（Regression Tree）逐渐成为数据科学家们探索数据关系的首选工具。

决策树是一种基于统计信息的划分方法，其核心思想是通过不断将数据集划分为更小的子集，最终实现对数据关系的精确描述。与线性回归不同，决策树能够处理非线性关系，并且在数据分层上的灵活性更高。

最早的决策树算法之一是ID3，它通过香农熵（Entropy）来衡量特征划分的效果。然而，ID3存在一些明显的局限性：其一，它只能处理离散型特征；其二，它易于过度划分，导致决策树的树深过深；最后，它仅适用于分类问题。

为了克服这些限制，CART（Classification And Regression Trees）算法应运而生。CART不仅可以用于分类，也能很好地处理回归问题。其关键改进在于采用二分法（Binary Split）处理连续型特征，从而使得回归树的构建更加灵活和高效。

回归树的核心算法包括两个主要步骤：binSplitDataSet 和 createTree。

binSplitDataSet：这个函数用于按特征值将数据集分成两个子集。对于每个特征值，函数会生成两个矩阵：一个包含大于等于该值的样本，另一个包含小于该值的样本。

createTree：这是回归树的构建核心函数。它通过递归调用chooseBestSplit来选择最佳的特征和划分值。如果没有合适的特征或划分值，函数会返回一个叶节点，否则它会继续构建左子树和右子树，直到所有叶节点均为终止节点。

在选择最佳特征和划分值时，chooseBestSplit函数会计算每个可能的特征划分后的误差，并选择误差最小的划分方案。为了防止过拟合，函数还会参考参数ops，判断最小的误差下降值（tolS）和最小的划分样本数（tolN），以决定是否继续划分。

为了防止回归树过拟合，剪枝（Pruning）技术被引入。剪枝的基本思路是检查每个子树是否真的能带来误差的显著降低。如果某个子树的误差下降小于预定阈值tolS，或者子树中的样本量小于tolN，则这个子树可以被替换为一个均值节点。

剪枝的实现主要包括以下几个步骤：

检查子树是否需要剪枝：如果子树的误差增量小于tolS，说明这个子树可以被替换。

递归剪枝：从叶节点开始，逐层检查每个子树，判断是否需要剪枝。

合并叶节点：如果剪枝后误差更低，则将叶节点替换为均值节点。

模型树（Model Tree）是对回归树的一种改进，它通过替换叶节点中的简单函数（如均值）为线性模型来提升拟合效果。具体来说，模型树会在每个叶节点中创建一个线性模型，这样可以更好地捕捉数据中的复杂模式。

与传统回归树相比，模型树在以下几个方面表现更优：

拟合效果更好：模型树通过多个线性模型来拟合数据，能够更准确地捕捉数据的局部特性。

更具可解释性：每个叶节点都有一个明确的线性模型，便于用户理解和分析。

在实际应用中，回归树和模型树都可以用于数据拟合，但模型树在某些场景下表现更优。选择哪种方法取决于具体的数据特点和应用需求。

总之，回归树和模型树为数据科学家提供了一种灵活且强大的工具，有助于更好地理解复杂数据关系。

转载地址：http://nlufk.baihongyu.com/

你可能感兴趣的文章