您当前位置:资讯中心 >大数据 >浏览文章

一文带您了解权重证据(WoE)与信息价值(IV):数据分析的重要利器

来源:CTO 日期:2024/4/17 8:46:17 阅读量:(0)

在数据分析和建模过程中,变量的选择和转换对于模型的性能至关重要。在这方面,证据权重(Weight of evidence,WoE)和信息价值(Information value,IV)是两种简单而强大的技术,它们在许多领域都有着广泛的应用。在信用风险领域、客户忠诚度分析等得到广泛使用。

信息价值(IV)通常用于评估分类模型中各个特征的预测能力。它是一种用来衡量预测模型的变量(通常是分类模型)对目标变量的影响程度的指标。信息价值越高,表示该变量对于预测目标变量越重要。

证据权重(WoE)通常用于衡量类别变量与目标变量之间的关联性,特别适用于逻辑回归等模型。它通过比较不同类别中目标事件的发生概率来评估每个类别对于预测目标变量的影响程度。WOE值的正负代表了该类别对于目标变量的“好坏”程度,越大的绝对值表示影响越显著。

证据权重WoE

WoE是一种衡量特征X(自变量)对目标y(因变量)的预测能力的方法。其理论最初用于风险评分分析,并通过以下公式计算:

其中,Non Event%是特定群体中事件没有发生的分布(占比),Event%是特定群体中事件发生的分布(占比)。例如:信用风险分析中,Event%是指特定群体中发生信用违约的占比,Non Event% 是特定群体中正常的占比。或者在商品分析中,Event% 是特定群体中坏的商品分布/占比,Non Event% 是指特定群体中好的商品分布/占比。

证据权重(WoE)计算步骤:

  1. 对于连续变量,将数据分为 10 个部分(或更少,具体取决于分布)。
  2. 计算每组中事件和非事件的数量(bin)
  3. 计算每组中事件的百分比和非事件的百分比。
  4. 通过非事件百分比和事件百分比除以自然对数来计算 WOE

接下来我们以UCLA统计网站中的研究生入学申请的数据集为例进行计算WoE,字段含义如下:

  • admit: 二元变量,表示学生是否被录取,其中1代表被录取,0代表未被录取。
  • gre: 数值变量,表示学生的GRE(研究生入学考试)成绩。
  • gpa: 数值变量,表示学生的GPA(平均学分绩点)成绩。
  • rank: 数值变量,表示申请学生所在的本科院校排名,可能的取值范围为1至4,其中1代表最高排名,4代表最低排名。
import pandas as pd
mydata = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
mydata
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。