HMM(摘自:统计学习方法---未完成)

HMM(隐马尔可夫模型的定义):隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观察的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence).序列的每一个位置又可以看作是一个时刻.

Read more   2018/6/25 posted in  MachineLearning

拉格朗日乘子法&KKT条件---未完成

如果不理解拉格朗日乘子法和KKT条件的相关原理,则不可能真正理解SVM的计算方法.

这是我们学习SVM的大前提

优化问题

通常,我们要求解的函数优化问题,大致可分为以下3类

  • 无约束条件的优化问题: \[min f(X)\]
  • 只有等式约束的优化问题: \[min f(X) \\\ s.t: h_i(X)=0,i \in {1,2,...,n}\]
  • 含有不等式约束的优化问题:
    \[min f(X) \\\
    s.t: h_i(X)=0,i \in {1,2,...,n} \\\
    g_j(X) \leq 0, j \in {1,2,...,n} \]

Read more   2018/6/14 posted in  MachineLearning

SVM(支持向量机)---未完成

支持向量机(Support Vecor Machine,SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的分类应用,并且也能够直接将SVM应用于回归应用中.同时通过OvR或者OvO的方式我们也可以将SVM应用在多元分类领域中.在不考虑集成算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的.

线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据.

线性不可分(Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据.

分割超平面(Separating Hyperplane):将数据集分割开来的直线/平面叫做分割超平面.

间隔(Margin):数据点到分割超平面的距离称为间隔.

支持向量(Support Vector):离分割超平面最近的那些点叫做支持向量.

Read more   2018/6/9 posted in  MachineLearning

聚类算法---未完成

Read more   2018/6/8 posted in  MachineLearning

集成学习---未完成

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate< 0.5).

集成算法的成功在于保证弱分类器的多样性(Diversity).而且集成不稳定的算法也能够得到一个比较明显的性能提升.

常见的集成学习思想有:

  • Bagging
  • Boosting
  • Stacking
Read more   2018/5/6 posted in  MachineLearning