决策树

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标.它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大

信息熵(Entropy)

\[H(X)=-\sum_{i=1}^mp_i\log_2(p_i)\]

Read more   2018/5/3 posted in  MachineLearning

KNN

K近邻(K-nearst neighbors,KNN)是一种基本的机器学习算法,所谓K近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表.

比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即,"近朱者赤,近墨者黑".

KNN算法既可以应用于分类应用中,也可以应用在回归应用中.KNN在做回归和分类的主要区别在于最后做预测的时候决策方式不同,KNN在分类预测时,一般采用多数表决法;而在做回归预测时,一般采用平均值法.

Read more   2018/5/2 posted in  MachineLearning

逻辑回归

不知道什么是逻辑回归,但是也许看完接下来的文章,你会有个大概的印象吧

简单介绍Logistic回归

Logistic回归用到的知识点

  • Sigmoid函数和Logistic回归分类器
  • 最优化理论初步
  • 梯度下降最优化算法
  • 数据中的缺失项处理
Read more   2018/4/29 posted in  MachineLearning

梯度下降笔记&拉格朗日乘子法

SVM的前置知识

2018/4/28 posted in  MachineLearning

什么是最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术.他通过最小化误差的平方和寻找数据的最佳函数匹配.

利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.

2018/4/27 posted in  MachineLearning