聚类算法评估指标

Not Given Label

1、Compactness(紧密性)(CP)

Read more   2018/10/16 posted in  MachineLearning

模型评估 K-S值和AUC的区别

在模型建立之后,必须对模型的效果进行评估,因为数据挖掘是一个探索的过程,评估-优化是一个永恒的过程。在分类模型评估中,最常用的两种评估标准就是K-S值和AUC值。

可能有人会问了,为什么不直接看正确率呢?你可以这么想,如果一批样本中,正样本占到90%,负样本只占10%,那么我即使模型什么也不做,把样本全部判定为正,也能有90%的正确率咯?所以,用AUC值够保证你在样本不均衡的情况下也能准确评估模型的好坏,而K-S值不仅能告诉你准确与否,还能告诉你模型对好坏客户是否有足够的区分度。

下面分别看两种评估指标的概念。

Read more   2018/10/15 posted in  MachineLearning

HMM(摘自:统计学习方法)

HMM(隐马尔可夫模型的定义):隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观察的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence).序列的每一个位置又可以看作是一个时刻.

Read more   2018/6/25 posted in  MachineLearning

拉格朗日乘子法&KKT条件

如果不理解拉格朗日乘子法和KKT条件的相关原理,则不可能真正理解SVM的计算方法.

这是我们学习SVM的大前提

优化问题

通常,我们要求解的函数优化问题,大致可分为以下3类

  • 无约束条件的优化问题:
    \[min f(X)\]
  • 只有等式约束的优化问题:
    \[min f(X) \\\
    s.t: h_i(X)=0,i \in {1,2,...,n}\]
  • 含有不等式约束的优化问题:
    \[min f(X) \\\
    s.t: h_i(X)=0,i \in {1,2,...,n} \\\
    g_j(X) \leq 0, j \in {1,2,...,n} \]

Read more   2018/6/14 posted in  MachineLearning

SVM(支持向量机)

支持向量机(Support Vecor Machine,SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的分类应用,并且也能够直接将SVM应用于回归应用中.同时通过OvR或者OvO的方式我们也可以将SVM应用在多元分类领域中.在不考虑集成算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的.

线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据.

线性不可分(Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那么这个数据集就叫做线性不可分数据.

分割超平面(Separating Hyperplane):将数据集分割开来的直线/平面叫做分割超平面.

间隔(Margin):数据点到分割超平面的距离称为间隔.

支持向量(Support Vector):离分割超平面最近的那些点叫做支持向量.

Read more   2018/6/9 posted in  MachineLearning