前言

嗯。。怎么说呢，本来见识到随机森林的强大之后，觉得分类算法里面，另一个集成算法——梯度提升决策树(GBDT)看不看都那样了，看各类书和spark官网对他的介绍也是一笔带过，所以抱着轻视的态度，顺手训练了下模型，结果识别率居然高达99.763593%！！！用的还是官方给的默认参数。。。而且训练速度贼快。我随机森林要跑15分钟，这个几分钟就好了。所以决定单独写一篇日记，来深入地去学习一下这个算法。

比较可惜地是，该算法目前还不支持多分类，不过找了下资料貌似挺多大神在一点点改进这个算法了，比如陈天奇的xgboost。总而言之，不能以一份数据来衡量机器学习算法的好坏，应该根据数据特点，选择最适合这个数据的算法，这也是我这个系列学习希望达成的目标之一。

什么是梯度提升决策树

梯度提升决策树简称 GBDT ，是 Gradient Boosting Decision Tree 的缩写，也有文章称之为 MART（Multiple Additive Regression Tree），是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。注意这里的决策树算法用的并不是随机森林提到的分类树，而是回归树，而且梯度提升树目前不支持多分类问题。

梯度提升树依次迭代训练一系列的决策树。在一次迭代中，算法使用现有的集成来对每个训练实例的类别进行预测，然后将预测结果与真实的标签值进行比较。通过重新标记，来赋予预测结果不好的实例更高的权重。所以，在下次迭代中，决策树会对先前的错误进行修正。

对实例标签进行重新标记的机制由损失函数来指定。每次迭代过程中，梯度迭代树在训练数据上进一步减少损失函数的值。spark.ml为分类问题提供一种损失函数（Log Loss），为回归问题提供两种损失函数（平方误差与绝对误差）。

算法原理

GBDT的核心就在于，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是 $f_{t-1}(x)$，损失函数是 $L(y, f_{t-1}(x))$，我们本轮迭代的目标是找到一个CART回归树模型的弱学习器$h_t(x)$，让本轮的损失函数$L(y, f_{t}(x) =L(y, f_{t-1}(x)+ h_t(x))$最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

构造过程

这里只给出网上找到的算法步骤，里面很多推导以及公式我还没弄懂，实在有些惭愧，后续闲下来会针对这个再进一步学习。

算法如下步骤，截图来自《The Elements of Statistical Learning》：

算法步骤解释：

1、初始化，估计使损失函数极小化的常数值，它是只有一个根节点的树，即ganma是一个常数值。
2、
（a）计算损失函数的负梯度在当前模型的值，将它作为残差的估计
（b）估计回归树叶节点区域，以拟合残差的近似值
（c）利用线性搜索估计叶节点区域的值，使损失函数极小化
（d）更新回归树
3、得到输出的最终模型 f(x)

GBDT的优缺点及应用场景

优点：

相对少的调参时间情况下可以得到较高的准确率。
可灵活处理各种类型数据，包括连续值和离散值，使用范围广。
可使用一些健壮的损失函数，对异常值的鲁棒性较强，比如Huber损失函数。

缺点：

弱学习器之间存在依赖关系，难以并行训练数据。

应用场景：
GBDT几乎可用于所有回归问题（线性/非线性），相对logistic regression仅能用于线性回归，GBDT的适用面非常广。亦可用于二分类问题（设定阈值，大于阈值为正例，反之为负例）。

而在实际应用中呢，多是作为一种预测分析算法，用在各行各业的领域，如：

故障预测分析
欺诈预测分析
搜索引擎用户体验提升
视频流媒体服务体验提升
个人征信

GBDT重要参数介绍

lose：损失函数。

spark mllib一共提供3种，注意每一种都只适合一类问题，要么是回归，要么是分类。分类只可选择Log Loss，回归问题可选择平方误差(Squared Error)和绝对值误差(Absolute Error)。分别又称为L2损失和L1损失。绝对值误差（L1损失）在处理带有离群值的数据时比L2损失更加具有鲁棒性。分别如下表格：

Loss	Task	Formula	Description
Log Loss	Classification	2∑Ni=1log(1+exp(−2yiF(xi)))	Twice binomial negative log likelihood.
Squared Error	Regression	∑Ni=1(yi−F(xi))2	也称为L2损失。回归任务的默认损失。
Absolute Error	Regression	∑Ni=1\|yi−F(xi)\|	也称为L1损失。对于异常值比Squared Error更强大。

numIterations：迭代次数。

GBDT迭代次数，每一次迭代将产生一棵树，因此这个numIterations也是算法中所包含的树的数目。增加numIterations会提高训练集数据预测准确率（注意是训练集数据上的准确率哦）。但是相应的会增加训练的时间。

learningRate：学习率。

官方建议是不需要调整此参数。如果算法行为看起来不稳定，则降低此值可以提高稳定性。小的学习率（步长）肯定会增加训练的时间。

algo：使用的算法。

初始化的时候直接给出这个树的算法类型,像这样：BoostingStrategy.defaultParams("Classification") 。一共就两种,分类(Classification) 或者是 回归(Regression）。

treeStrategy.numClasses：分类数量。

由于分类只能做二分类，所以这个参数填2就可以了，多了会报错。

treeStrategy.maxDepth：树深度。

和随机森林的一样，树越深，训练时间越长。

这里面主要用到的就是这几个参数，较为有用的就是迭代次数了，为了防止过拟合，这个迭代次数也得调整下，随着迭代次数的增加，一开始在验证集上预测误差会减小，迭代次数增大到一定程度后误差反而会增加，那么通过准确度vs.迭代次数曲线可以选择最合适的numIterations。

在MNIST手写数字集上使用GBDT做分类

由于这一系列暂时用的都是同一份数据集，我就不重复讲怎么处理数据了，有需要的同学可以看下前面的数据集介绍，对比上一篇随机森林的代码呢，其实差别只是换了一个训练函数，以及因为GBDT只能做二分类所以把数据过滤了下，只取了0和1的数据来做判断，下面贴出主函数，完整代码请点击这里：前往GitHub

package SparkMLlib.Classification

import SparkMLlib.Base.MNIST_Util
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.tree.{GradientBoostedTrees}
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.{SparkConf, SparkContext}

object GBDT_Example {

  def main(args: Array[String]): Unit = {
    // 获取当前运行路径
    val userPath = System.getProperty("user.dir")
    val trainLabelFilePath = userPath + "/src/main/resources/data/train-labels.idx1-ubyte"
    val trainImageFilePath = userPath + "/src/main/resources/data/train-images.idx3-ubyte"

    val testLabelFilePath = userPath + "/src/main/resources/data/t10k-labels.idx1-ubyte"
    val testImageFilePath = userPath + "/src/main/resources/data/t10k-images.idx3-ubyte"
//        val testLabelFilePath = "C:\\Users\\42532\\Desktop\\test-labels.idx1-ubyte"
//        val testImageFilePath = "C:\\Users\\42532\\Desktop\\test-images.idx3-ubyte"


    val conf = new SparkConf().setMaster("local[*]").setAppName("NaiveBayesExample")
    val sc = new SparkContext(conf)

    val trainLabel = MNIST_Util.loadLabel(trainLabelFilePath)
    val trainImages = MNIST_Util.loadImages(trainImageFilePath)
    val testLabel = MNIST_Util.loadLabel(testLabelFilePath)
    val testImages = MNIST_Util.loadImages(testImageFilePath)

    // Train a GradientBoostedTrees model.
    // The defaultParams for Classification use LogLoss by default.
    val boostingStrategy = BoostingStrategy.defaultParams("Classification")
    boostingStrategy.numIterations = 3 // Note: Use more iterations in practice.
    boostingStrategy.treeStrategy.numClasses = 2
    boostingStrategy.treeStrategy.maxDepth = 5
    // Empty categoricalFeaturesInfo indicates all features are continuous.
    boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

    //处理成mlLib能用的基本类型 LabeledPoint
    if(trainLabel.length == trainImages.length) {
      //标签数量和图像数量能对上则合并数组  Array[(labe,images)]

      val data = trainLabel.zip(trainImages)
        .filter(d => {d._1.toInt == 0 || d._1.toInt == 1}) //梯度树不能处理多分类问题，这里处理成判断0和1
        .map( d =>
        LabeledPoint(d._1.toInt, Vectors.dense(d._2.map(p => (p & 0xFF).toDouble)))
      )

      val trainRdd = sc.makeRDD(data)

      println("开始计算")

      val model = GradientBoostedTrees.train(trainRdd, boostingStrategy)
      model.save(sc,userPath + "/src/main/resources/model/GBDT")

      println("检验结果")
      val testData = testLabel.zip(testImages)
        .filter(d => {d._1.toInt == 0 || d._1.toInt == 1}) //梯度树不能处理多分类问题，这里处理成判断0和1
        .map(d =>( d._1.toInt,Vectors.dense(d._2.map(p => (p & 0xFF).toDouble )) ))
      val testRDD = sc.makeRDD(testData.map(_._2))
      val res = model.predict(testRDD).map(l => l.toInt).collect()

      //res.foreach(println(_))

      val tr = res.zip(testData.map(_._1))

      val sum = tr.map( f =>{
        if(f._1 == f._2.toInt) 1 else 0
      }).sum

      println("准确率为："+ sum.toDouble /tr.length.toDouble)

    }
  }
}

我们运行一下看看，用他默认的参数居然就有99.76% 的识别率！因为只是0和1，所以训练样本也少了五分之一，光看准确率可能并不能说明什么，不过也可以看出，对于二分类问题它是非常厉害的，而且训练时间也比随机森林快很多（可能随机森林调的参数树比较多，而且样本数据比较少）。

后记

其实梯度提升决策树最适合的用处并不是在分类上，而是处理一些回归问题，在今后的学习中我肯定也会遇到类似的问题，到时候在拿相关的数据集来进一步学习和尝试吧，今天这篇只能算是初探梯度提升决策树，一些推导和理论我也还不是太清楚明白，这些也都是有待以后补充了。

Spark-MLlib学习日记7：初探梯度提升决策树

前言