更新时间:2019年10月08日18时03分 来源:传智播客 浏览次数:
随着人工智能技术应用领域越来越广。大量使用了人工智能技术的产品出现在了我们的现实生活中,比如常见的人脸识别,语音识别等等。那么怎样去衡量这些产品的好坏呢,譬如怎么验证识别率高低呢。 相信这是开发这个产品的研发人员以及测试人员必须要关注的一个问题。但要衡量这个标准呢,通过传统的功能测试方法是测不出来的,必须要通过人工智能训练出的模型进行评估。而评估自然就会涉及到一些指标。本文就讲述人工智能领域常见的二分类问题的模型评估指标。【推荐了解传智播客软件测试培训课程】
所谓二分类就是一个判断是与否的标准,比如我们判断一封邮件是否是垃圾邮件,那么衡量的标准就是两个:
1.是垃圾邮件
2.不是垃圾邮件
本文通过两步进行二分类问题模型衡量指标的阐述:
一、二分类模型评估指标的理论介绍
目标
掌握二分类模型评估指标的分类以及定义
步骤
1.引出混淆矩阵
• 衡量指标要根据混淆矩阵的各个分类来进行计算
• 人工标记的正被机器预测为正叫TP、人工标记的负被机器预测为正叫:FP、人工标记的负被机器预测为正叫:FN、人工标记的负被机器预测为负叫:TN
• 预测正确:正预测为正、负预测为负
预测不正确:正预测为负、负预测为正
• T-Ture F-False P-Positive N-Negative
混淆矩阵图
人工标记的正样本 | 人工标记的负样本 | |
被AI预测结果为正 | TP | FP |
被AI预测结果为负 | FN | TN |
2.具体指标定义
• 准确率(Accuracy): 所有被AI预测正确的样本(包括正、负)占所有样本的比例
公式如下:
Accurary=( TP + TN)/(TP+TN+FP+FN)
• 精确率(Precision): 又叫查准率,正确预测为正的占所有预测为正的比例
公式如下:
Precision= TP/(TP+FP)
• 召回率(Recall):又叫查全率,正确预测为正的占全部实际为正的比例
公式如下:
Recall=TP/(TP+FN)
二、二分类模型评估指标实例
目标
掌握二分类模型评估指标实际计算以及现实意义
步骤
1.实例介绍
报名参加传智播客黑马程序员软件测试培训班有男生、女生。我们进行分类,将女生看成是正类,男生为负类,使用AI模型预测后进行指标分析
2.混淆矩阵实例
实际报名的女生人数 | 实际报名的男生人数 | |
AI模型预测女生人数 | 58(58个女生被机器正确识别为女生) | 1(一个男生被误识别为女生) |
AI模型预测男生人数 | 2(两个女生被误识别为男生) | 49(49个男生被机器正确识别为男生) |
3.指标计算
• Accuracy= (58+49)/(58+2+1+49)=97.2%
• Precision=58/(58+1)=98.3%
• Recall=58/(58+2)=96.7%
4.指标含义的业务分析
准确率:传智播客公司需要统计所有人里面被机器正确识别为男生+正确识别为女生的比例
精确率:传智播客公司需要统计所有被机器预测为女生里面真正是女生的比例
召回率:传智播客公司需要统计所有女生里正确被机器预测为女生的比例
总结
本文通过理论加实践的方式,为从事人工智能行业技术人员解答了AI领域常见的二分类问题的模型评估指标。需要注意的实际项目中需要根据业务需求来选择一个具体的衡量指标,重点不是记住公式,而是要理解公立背后所代表的的含义。