我们公司的一个原则之一是寻找信息丰富且实用的数据,以帮助我们的合作伙伴和客户更好地管理贷款风险和运营(作业)风险。
最重要的是不但发现改善决策质量的新属性和特征, 而且提供了结果的透明度和可理解性。
因此在与合作伙伴进行沟通的时候我们非常关注构建包含应用程序接口(API)响应向量的属性机制。
今天我们将更详细地介绍一些用户行为标记和设备质量确定的原则。我们还将证明如何能使用JuicyScore的数据根据信用风险水平对流入的数据进行分割。
JuicyScore产品中实现的最重要的方法之一是使用聚合的IDX变量方法学。
聚合的IDX变量是由深度机器学习算法收集的一组罕见事件和自然因素,合并为一个统一的变量,可用于建模和嵌入到信贷机构的决策系统中。
今天我们将更详细地分析我们数据向量中的两个IDX变量,并将关注IDX变量的机制,同时讨论构建IDX变量的因素。
IDX2: 用户行为的标记
这个聚合变量是由在线上商业网络资源上的不同用户行为标记的组合形成的。
JuicyScore向量包含了数十个与用户行为有关的标记。设计这个变量的主要目标就是不论在线公司在何处从事活动,通过识别稳定的标记,并将它们组合成一个整体,来发现高风险群体的分段。
IDX2变量是基于与虚拟用户在网络上的行为或设备使用相关的因素构建的。
从一方面来看,它包含了与频率特征相关的因素。比方说, 从一个设备或一个虚拟用户发出的申请或查询数量,具有特定的时间间隔或没有时间间隔,覆盖整个历史记录。
另一方面,该变量还包括确定在信贷申请或产品请求中使用的数据的稳定性或变异性的参数。
在一个设备或一个虚拟用户的大量多样化数据表明存在高作业风险。
没有对数据进行操作的高频请求或对产品的申请可能意味着较高的信贷风险 (即所谓的贷款购物: 借款人在短时间内向不同的贷款机构申请贷款)。
在一个设备或一个虚拟用户中同时存在高频事件和数据变化的高水平是高作业风险的明确指标。
除此之外,该变量还包括一组与用户风险行为相关的因素,不属于前两个类别。这些标记包括填写申请的方式、设备使用方式等等。实质上,它是中高风险的罕见事件的组合,通过特定的组合方式,可以在决策系统和使用传统高斯方法构建的模型中使用。
结果是一个取值范围从1到6的整数变量。这种变量有助于根据风险水进行分割。 该变量具有可以在模型中或停止过滤器(筛选)中使用的稳定区域。
比如说, 范围为1-2的区间是低风险区域。 该区域的质量经常比发放贷款的总数或样本更好。
在这个区域内,我们可以进一步寻找其他适合批准的细分。
范围为5-6的区间是高风险区域, 通常规模较小, 可以用作为过滤器(筛选 )或拒绝规则。
下面是关于变量范围风险水平变化的大致概括性图表。
相对风险水平
根据这个图表,如果变量的指数处于范围为1-2的区间, 这意味着低风险。如果变量的指数处于范围为3-4的区间, 这意味着中风险。在遇到中风险的情况下需要进行额外的测试和验证。如果变量的指数处于范围为5以上的区间, 这意味着高风险。在这种情况下需要拒绝。
IDX2数值在各地区之间的分布情况
设备质量的指数
在确定作业风险时,主要任务是拒绝那些有较高违约和支付债务风险的申请人。而确定信用风险的主要任务是找到可以提供具有正确参数的金融产品的客户群体。
聚合的变量IDX5属于第二个类别。这种变量帮助根据信用风险水平对流入的数据进行分割。当市场上的信用记录数据不足或数据质量较低时,这一点非常重要。
使用哪种方法来构建这个变量?
设备质量的一个衡量指标是其价格。 以下数据类别可能会影响设备的价格:设备类型(例如台式机或移动设备)、技术规格指标的组合(例如存储容量、核心数量、内存质量等)和制造商(知名品牌设备或罕见型号)。重要的特点:具有特定技术特征异常的设备不包括在此指数中,以实现与其他聚合变量IDX的更高正交性水平。
每个设备都具有许多技术指标和参数,这些指标和参数会影响设备的质量,并用于评估贷款风险。因此,在构建该变量时,最重要的任务是确定这些指标并正确地对其进行建模,以确保每个指标的值分布的稳定性,并确保设备质量指数的值分布稳定,并增强其区分能力。提到指数值的分布稳定性,重要的是确保它在时间上以及我们的合作伙伴和客户开展业务的所有地理区域上都保持稳定。
从设备质量指数的值的解释角度来看,具有较低指数值的一部分流量显示出高信贷风险和低可支配收入水平的领域。具有较高指数值的一部分流量显示出低信贷风险的领域。
根据图表, 如果变量是0-1, 这意味着高贷款风险。 在这个情况下需要进行额外的测试和验证或可能拒绝。如果变量是4以上, 这意味着低贷款风险, 所以可以寻找额外的授信机会。
这个参数在很多国家,尤其是东南亚和非洲国家,非常重要, 因为那儿的可靠且受监管的数据来源存在问题。
使用指数变量的绝对优点是其普适性。指数变量可以作为一系列规则和过滤器(筛选)的一部分,单独使用时, 也可以作为发现贷款或运营(作业)风险的模型组件,以发现最危险的或有利的领域。
实际上,每个指数本身就是一个独立的模型。
我们所讨论的标记和变量只是我们在应用程序接口(API)中提供的信息丰富性的一小部分。
JuicyTeam很了解不断扩大标记和停止因素数量的重要性, 因为其有助于降低成本并大大减少欺诈风险引起的损失。JuicyTeam还给客户和合作伙伴提供一些最佳的工具以防止不公平行为和欺诈申请。
关于这个主体,我们还有别的文章。我们在题为《深度机器学习 -- 寻找真理》的文章中更仔细地分析我们构建变量的方法。我们在这篇文章中介绍了如何构建网络异常的指数变量。
早前我们还在一篇关于设备重要性的文章中介绍了IDX1 (IDX 1 – 停止因素的组合) 和IDX3 (IDX 3 – 设备上异常的组合)。这些变量是基于相似的机制构建的, 但是针对不同的领域。