前言
近来广州阴雨连绵,实在是让人提不起精神来,文档什么的也看不进去,脑袋昏昏沉沉的,所以拖拖拉拉到今天才出更新=。=
重申一遍,我是沿着spark官网中MLlib的api往下去学习的,提到的相关算法都会去学习下。文档上有的东西呢,我就不赘述了,只是把自己学习过程中一些重要的,别的博客没有提到的,记录一下,以后自己复习也方便。在这篇东西之前,我已经自己看完了spark MLlib的数据类型和基本统计,没了解的可以先去看一下文档,后续会有用到。
好了,言归正传,今天要讲的是被称为机器学习界的“Hello world”,几乎每个入门系列都会用到的一个知名数据集——MNIST手写数字图像数据集,该系列的后续文章中也经常会用到,所以今天独立出来讲一下好了。