当前位置:首页 > 技术分析 > 正文内容

实践|风控特征加工衍生体系建设实践

ruisui883个月前 (02-03)技术分析21

作者知苦行甜


1. 特征的概念


1.1 特征&变量&指标

在以往专家规则系统时代,更多的是用“变量”一词来表示规则模型的入参,随着技术的发展,机器学习领域采用“特征”一词来表示算法模型所需要的入参。随着机器学习领域的广泛普及及专家规则的算法化趋势,“特征”一词成了更多人使用的入参统称(本文将统一用“特征”一词)。

指标一词具备浓郁的业务含义,比如血压指标、信贷指标,具备明确的业务含义。当前,在技术领域,指标平台被普遍认为是更高阶段的BI产品,因为BI的发展基本走完了以报表为核心的固定看书阶段、以宽表为核心的自主分析阶段,进入了以指标为核心的智能用数时代。

1.2 特征之于风控体系

银行风控是银行业务管理的核心部分,主要通过一系列策略、流程和技术手段,对银行业务中可能产生的各类风险进行预防、识别、评估和控制,通常用在全流程信贷(贷前、贷中、贷后)、反欺诈、安全运营等业务。

可以说特征是支撑风控模型的数据表现,是风控体系成效凸显的重要一环,银行内部的特征可以简单概括为以下几类:

1.3 实时特征工程的痛点

首先就是特征开发难度高、部署难度大的问题。比如存在特征穿越、离线/在线逻辑不一致的问题、存在python代码与SQL相互翻译以进行生产投产的难题。此外,还存在监控不健全、分享复用难度大等难点。

另外就是离线回溯的问题。内部特征的回溯需要进行稳定性和成本的平衡,比较理想的肯定是通过离线回溯系统,实现业务系统数据定期备份到这里用。但因为考虑到部署成本,实际在离线回溯时,一些数据还是直接去调业务接口,但会进行一些限速,并且做比较严格的监控,最终实现在模型回溯效果与实用成本之间实现平衡。


2. 如何建设一套易用的特征体系


2.1 特征平台定位及供需关系

笔者认为,特征平台的定位与应用目的非常清晰,即加工特征并向风控系统及机器学习平台提供特征数据。特征平台向风控系统提供特征数据的方式可以概括为以下三种方式:

A方式:基本是一种大家不会采用的方式,因为提前获取了模型实例所需的外部数据、征信数据,带来了较高的运营成本

B、C方式:是通过将模型按照数据成本进行拆分,能够大幅度降低运营成本,其中B方式美中不足的地方在于风控系统压力较大。但,这里笔者强烈不建议用户无缘由的在B方式与C方式之间切换,因为这样的技术方案的变化还要带动模型的重构与测试,影响范围甚广,且收益甚小。(备注:B方式的蓝色虚线,涵盖了API访问和直接读取数据两种方式,不再展开来说)

2.2 特征平台的场景支撑力

2.2.1 业务及功能定位

特征平台必然要包括征信特征、三方外部数据、企业内数据、图数据,并尽可能提供拖拉拽、低代码、DSL(动态脚本语言)等对敏捷迭代友好型特征加工方式的平台化产品。

2.2.2 丰富加工能力的诉求

业务系统在调用反欺诈模型时候通常会设置逃生机制。同样的道理,在计算特征过程中获取外部数据的时候,也会面临类似的问题。根据特征的应用场景,可以概括为下面三种:

支撑实时决策场景。决策模型及数据特征考虑简单高效的思路,采用性能优先的原则。可以容忍特征调用所需数据计算失败,甚至如果决策超时会有兜底的降级策略。

支撑准实时决策场景。一般是异步化结果响应,保障准确率优先。在数据调用失败时会重试,甚至有些关键数据接口失败要开启授信熔断并等待恢复,这些都是保障准确率的有效手段。

支撑离线决策场景。特征不但支持实时决策场景,同时可以结合实时场景获得的数据,用于实现贷中、贷后等批量决策场景,用于额度管理、催收、逾期管理等业务。

2.3 计算特征的几种方式

实时计算特征。是一种最基础的特征加工方式,就是在决策引擎调用特征引擎时,特征引擎从数据源拉取数据、完成计算并返回结果,它是一种读时计算(类似的概念有:读时建模)的模式,优点是数据实时准确,工程复杂度低,缺点就是并发能力一般。

预计算特征。指标计算模块实时获取业务系统发生的业务变化,并对相关特征进行预先加工与计算,等到决策系统实用该特征结果时候,特征引擎将此结果提供出来。此方式也存在局限性,比如预计算未完成时发生了特征调用,可能将无法拿到数据,所以选择这种方式也会评估数据的变化频率。

批量计算特征。对于数据变化不敏感的数据采用离线批计算将是更好的方式,既能保障了数据更加精准(无实时数据的噪音),又能提高决策效率,但其缺点可能会缺失最新的数据。

融合计算的方式。结合以上三种计算方式,针对不同的应用场景、业务诉求采取合适的计算方式,从而做到低成本满足实用要求。

2.4 几种常见的开闭源特征平台

说了这么多,对于我们在建设特征平台过程中是否有可借鉴、参考的产品呢。共享一张个人感觉比较客观的图片,如下:

上图对计划进行特征平台建设的企业应该会有一定帮助。


3. 长远来看


特征计算最终是面向API接口与数源的计算,函数计算思想是其一种比较理想的计算方式。

一个好的特征平台,一定要具备将征信系统、外部数据系统、企业内数据等丰富的数据接入并融合加工的能力,能够支持不同环节的风控模型,能够支持机器学习模型,能够实现离在线一体化能力与敏捷发版能力。此外,还有能够对特征进行很好的管理与管控,以及支持可配置化的特征加工能力。

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/1310.html

标签: 特征衍生
分享给朋友:

“实践|风控特征加工衍生体系建设实践” 的相关文章

GitLab-合并请求

描述合并请求可用于在您对项目进行的其他人员之间交换代码,并轻松与他们讨论更改。合并请求的步骤步骤1-在创建新的合并请求之前,GitLab中应该有一个创建的分支。您可以参考本章来创建分支-步骤2-登录到您的GitLab帐户,然后转到“ 项目”部分下的项目 -步骤3-单击“ 合并请求”选项卡,然后单击“...

国产操作系统上Vim的详解03--安装和使用插件 | 统信 | 麒麟 | 中科方德

原文链接:国产操作系统上Vim的详解03--使用Vundle插件管理器来安装和使用插件 | 统信 | 麒麟 | 中科方德Hello,大家好啊!今天给大家带来一篇在国产操作系统上使用Vundle插件管理器来安装和使用Vim插件的详解文章。Vundle是Vim的一款强大的插件管理器,可以帮助我们轻松地安...

js中数组filter方法的使用和实现

定义filter() 方法创建一个新数组, 其包含通过所提供函数实现的测试的所有元素。语法var newArray = arr.filter(callback(element[, index[, selfArr]])[, thisArg])参数callback循环数组每个元素时调用的回调函数。回调函...

Vue页面传参详解

一、两种方式方法1:name跳转页面this.$router.push({name:'anotherPage',params:{id:1}})另一页面接收参数方式:this.$route.params.id示例:控制台展示:方法2:path跳转页面this.$router.push(...

三、Uni-app + vue3 页面如何跳转及传参?

Vue 项目往往需要使用 vue-router 插件,刚开始入门 Uni-app + Vue3 项目的同学,会不会想着路由使用 vue-router V4 版本不就可以了吗?不怕大家笑话,我就是这样想的,毕竟我是第一次使用 Uni-app ,由于孕期记性贼差,所以我决定写成笔记,加深记忆。uni-a...

Vue中路由router的基本使用

??本文开始我们来给大家介绍在Vue中非常重要的一个内容,就是路由Router什么是路由后端路由:对于普通的网站,所有的超链接都是URL地址,所有的URL地址都对应服务器上对应的资源;前端路由:对于单页面应用程序来说,主要通过URL中的hash(#号)来实现不同页面之间的切换,同时,hash有一个特...