合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
在数据分析和建模过程中,变量的选择和转换对于模型的性能至关重要。在这方面,证据权重(Weight of evidence,WoE)和信息价值(Information value,IV)是两种简单而强大的技术,它们在许多领域都有着广泛的应用。在信用风险领域、客户忠诚度分析等得到广泛使用。
信息价值(IV)通常用于评估分类模型中各个特征的预测能力。它是一种用来衡量预测模型的变量(通常是分类模型)对目标变量的影响程度的指标。信息价值越高,表示该变量对于预测目标变量越重要。
证据权重(WoE)通常用于衡量类别变量与目标变量之间的关联性,特别适用于逻辑回归等模型。它通过比较不同类别中目标事件的发生概率来评估每个类别对于预测目标变量的影响程度。WOE值的正负代表了该类别对于目标变量的“好坏”程度,越大的绝对值表示影响越显著。
WoE是一种衡量特征X(自变量)对目标y(因变量)的预测能力的方法。其理论最初用于风险评分分析,并通过以下公式计算:
其中,Non Event%是特定群体中事件没有发生的分布(占比),Event%是特定群体中事件发生的分布(占比)。例如:信用风险分析中,Event%是指特定群体中发生信用违约的占比,Non Event% 是特定群体中正常的占比。或者在商品分析中,Event% 是特定群体中坏的商品分布/占比,Non Event% 是指特定群体中好的商品分布/占比。
证据权重(WoE)计算步骤:
接下来我们以UCLA统计网站中的研究生入学申请的数据集为例进行计算WoE,字段含义如下:
import pandas as pd
mydata = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv")
mydata
TOP