SVM(支持向量机)

支持向量机(Support Vecor Machine,SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的分类应用,并且也能够直接将SVM应用于回归应用中.同时通过OvR或者OvO的方式我们也可以将SVM应用在多元分类领域中.在不考虑集成算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的.

线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据.

线性不可分(Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据.

分割超平面(Separating Hyperplane):将数据集分割开来的直线/平面叫做分割超平面.

间隔(Margin):数据点到分割超平面的距离称为间隔.

支持向量(Support Vector):离分割超平面最近的那些点叫做支持向量.

Read more   2018/6/9 posted in  MachineLearning

聚类算法

Read more   2018/6/8 posted in  MachineLearning

集成学习

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate< 0.5).

集成算法的成功在于保证弱分类器的多样性(Diversity).而且集成不稳定的算法也能够得到一个比较明显的性能提升.

常见的集成学习思想有:

  • Bagging
  • Boosting
  • Stacking
Read more   2018/5/6 posted in  MachineLearning

决策树

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标.它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大

信息熵(Entropy)

\[H(X)=-\sum_{i=1}^mp_i\log_2(p_i)\]

Read more   2018/5/3 posted in  MachineLearning

KNN

K近邻(K-nearst neighbors,KNN)是一种基本的机器学习算法,所谓K近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表.

比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即,"近朱者赤,近墨者黑".

KNN算法既可以应用于分类应用中,也可以应用在回归应用中.KNN在做回归和分类的主要区别在于最后做预测的时候决策方式不同,KNN在分类预测时,一般采用多数表决法;而在做回归预测时,一般采用平均值法.

Read more   2018/5/2 posted in  MachineLearning