集成学习

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate< 0.5).

集成算法的成功在于保证弱分类器的多样性(Diversity).而且集成不稳定的算法也能够得到一个比较明显的性能提升.

常见的集成学习思想有:
+ Bagging
+ Boosting
+ Stacking

Read more   2018/5/6 posted in  MachineLearning

决策树

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标.它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大

信息熵(Entropy)

\[H(X)=-\sum_{i=1}^mp_i\log_2(p_i)\]

Read more   2018/5/3 posted in  MachineLearning

KNN

K近邻(K-nearst neighbors,KNN)是一种基本的机器学习算法,所谓K近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表.

比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即,"近朱者赤,近墨者黑".

KNN算法既可以应用于分类应用中,也可以应用在回归应用中.KNN在做回归和分类的主要区别在于最后做预测的时候决策方式不同,KNN在分类预测时,一般采用多数表决法;而在做回归预测时,一般采用平均值法.

Read more   2018/5/2 posted in  MachineLearning

逻辑回归

不知道什么是逻辑回归,但是也许看完接下来的文章,你会有个大概的印象吧

简单介绍Logistic回归

Logistic回归用到的知识点

  • Sigmoid函数和Logistic回归分类器
  • 最优化理论初步
  • 梯度下降最优化算法
  • 数据中的缺失项处理
Read more   2018/4/29 posted in  MachineLearning

梯度下降笔记

2018/4/28 posted in  MachineLearning