Objective vs. Cost vs. Loss vs. Error Function

The function we want to minimize or maximize is called the objective function, or criterion. When we are minimizing it, we may also call it the cost function, loss function, or error function - these terms are synonymous. The cost function is used more in optimization problem and loss function is used in parameter estimation.

Read more   2018/11/13 posted in  MachineLearning

Isolation Forest

scikit-learn返回:是异常点(-1)或者不是异常点(1)

孤立森林-->查看数据页面,如上所示
原始数据的所有列,预测出来是否是异常值,也即是是否偏离(偏移即是-1),偏移度也就是decision_function算出来的值,返回样本的异常评分,值越小表示越有可能是异常样本
data,model.predict(X_train),model.decision_function(X_train)

df=pd.concat([pd.DataFrame(X_train),pd.Series(clf.predict(X_train)), pd.Series(clf.decision_function(X_train))], axis=1)

df.columns = ['a', 'b', 'c', 'd']
2018/10/18 posted in  MachineLearning

聚类算法评估指标

Not Given Label

1、Compactness(紧密性)(CP)

Read more   2018/10/16 posted in  MachineLearning

模型评估 K-S值和AUC的区别

在模型建立之后,必须对模型的效果进行评估,因为数据挖掘是一个探索的过程,评估-优化是一个永恒的过程。在分类模型评估中,最常用的两种评估标准就是K-S值和AUC值。

可能有人会问了,为什么不直接看正确率呢?你可以这么想,如果一批样本中,正样本占到90%,负样本只占10%,那么我即使模型什么也不做,把样本全部判定为正,也能有90%的正确率咯?所以,用AUC值够保证你在样本不均衡的情况下也能准确评估模型的好坏,而K-S值不仅能告诉你准确与否,还能告诉你模型对好坏客户是否有足够的区分度。

下面分别看两种评估指标的概念。

Read more   2018/10/15 posted in  MachineLearning

HMM(摘自:统计学习方法)

HMM(隐马尔可夫模型的定义):隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观察的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程.隐藏的马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence).序列的每一个位置又可以看作是一个时刻.

Read more   2018/6/25 posted in  MachineLearning