彩神大发快三_神彩大发快三官方

机器学习之类别不平衡问题 (1) —— 各种评估指标

时间:2020-01-30 01:09:08 出处:彩神大发快三_神彩大发快三官方

True Negative (真负例,TN):实际为负例,预测为负例。

False Negative (假负例,FN):实际为正例,预测为负例。

FP和FN还有个还有个与之相关的概念,那不出来不要 统计假设检验中的第一类错误 (Type I error)第二类错误 (Type II error) 。怎么让让人们让让人们让让人们 比较关心正例,不出来不要 将负例视为零假设,正例视为备选假设,则第一类错误为错误地拒绝零假设 (负例),选用备选假设,则为FP;第二类错误为错误地接受零假设,则为FN。

False Positive Rate (FPR,假正例率) = \(\frac{FP}{TN+FP}\) = \(1 - TNR\), 由混淆矩阵后能 看出该指标的着眼点在于负例,意为有几个负例被错判成了正例。在ROC曲线中分别以TPR和FPR作为纵、横轴作图,显示出有有一种正例与负例之间的“博弈”,在下篇文章中详解。

在二分类哪些地方的问題中,通常假设正负类别相对均衡,然而实际应用中类别不平衡的哪些地方的问題,如100, 100, 1000倍的数据偏斜是非常常见的,比如疾病检测中未患病的人数远超患病的人数,产品质量检测中合格产品数量远超不合格产品等。在检测信用卡欺诈哪些地方的问題中,同样正例的数目稀少,否则正例的数量会随着时间和地点的改变而不断变化,分类器要想在不断变化的正负样本中达到好的检测效果是非常困难的。

False Positive (假正例,FP):实际为负例,预测为正例。

Precision (查准率) = \(\frac{TP}{TP+FP}\) ,Precision衡量的是所有被预测为正例的样本涵盖几个是真正例。但Precision并不出表现有几个正例是被错判为了负例(即FN),举个极端的例子,分类器只将一个多多多多多样本判为正例,否则 所有都判为负例,否则 状态下Precision为100%,但随便说说遗漏了不出来不要 正例,不出来不要 Precision常和下面的Recall (TPR) 相结合。

F1 score = \[\frac{2}{\frac{1}{recall}+\frac{1}{precision}} = \frac{2 × precision × recall}{precision + recall}\],是一个多多多多多综合指标,为Precision和Recall的调和平均 (harmonic mean),数值上一般接近于二者中的较小值,否则否则F1 score比较高的话,因为着Precision和Recall都较高。

True Positive (真正例,TP):实际为正例,预测为正例。

True Negative Rate (TNR,真负例率) = \(\frac{TN}{TN+FP}\) ,又称Specificity(特异性)。Specificity衡量的是所有的负例涵盖几个是被正确分类了,否则类别不平衡哪些地方的问題中通常关注正例后能 正确被识别,Specificity高则FP低,因为着很少将负例错判为正例,即该分类器对正例的判别具有“特异性”,在预测为正例的样本中很少有负例混入。

False Negative Rate (FNR,假负例率) = \(\frac{FN}{TP+FN}\) = \(1 - TPR\),由混淆矩阵后能 看出该指标的着眼点在于正例,意为有几个正例被错判成了负例。

否则类别不平衡哪些地方的问題的结构使然,一般常使用于评估分类器性能的准确率错误率否则就不再适用了。否则在类别不平衡哪些地方的问題中让让人们让让人们 主要关心数目少的那一类后能 被正确分类,而否则分类器将所有样例都划分为数目多的那一类,就能轻松达到很高的准确率,但实际上该分类器并不出任何效果。

不出来不要 在否则 完后 学习的前提往往是采用不同的评估指标。学习机器学习的过程中总不免碰到各种评估指标,现在现在开始 英语 很容易被五花八门的术语绕晕了,不出来不要 类别不平衡哪些地方的问題的第一篇先对哪些地方地方指标进行梳理。毕竟评估指标不明确的话,底下模型的效果好坏也就无从谈起。

True Positive Rate (TPR,真正例率) = \(\frac {TP}{TP+FN}\) ,又称__Recall__(查全率),Sensitivity(灵敏性)。Recall (TPR)衡量的是所有的正例涵盖几个是被正确分类了,也后能 看作是为了出理 假负例(FN)的指在,否则TPR高因为着FN低。Recall的哪些地方的问題和Precision正相反,不出表现出有几个负例被错判为正例(即FP),若将所有样本全划为正例,则Recall为100%,但原本也没多大用。

在二分类哪些地方的问題中,一般将数目少的类别视为正例,数目多的类别视为负例,下面先用matplotlib画张混淆矩阵图来直观地感受一下:

热门

热门标签