当前位置:首页 > 技术分析 > 正文内容

实践|风控特征加工衍生体系建设实践

ruisui884个月前 (02-03)技术分析35

作者知苦行甜


1. 特征的概念


1.1 特征&变量&指标

在以往专家规则系统时代,更多的是用“变量”一词来表示规则模型的入参,随着技术的发展,机器学习领域采用“特征”一词来表示算法模型所需要的入参。随着机器学习领域的广泛普及及专家规则的算法化趋势,“特征”一词成了更多人使用的入参统称(本文将统一用“特征”一词)。

指标一词具备浓郁的业务含义,比如血压指标、信贷指标,具备明确的业务含义。当前,在技术领域,指标平台被普遍认为是更高阶段的BI产品,因为BI的发展基本走完了以报表为核心的固定看书阶段、以宽表为核心的自主分析阶段,进入了以指标为核心的智能用数时代。

1.2 特征之于风控体系

银行风控是银行业务管理的核心部分,主要通过一系列策略、流程和技术手段,对银行业务中可能产生的各类风险进行预防、识别、评估和控制,通常用在全流程信贷(贷前、贷中、贷后)、反欺诈、安全运营等业务。

可以说特征是支撑风控模型的数据表现,是风控体系成效凸显的重要一环,银行内部的特征可以简单概括为以下几类:

1.3 实时特征工程的痛点

首先就是特征开发难度高、部署难度大的问题。比如存在特征穿越、离线/在线逻辑不一致的问题、存在python代码与SQL相互翻译以进行生产投产的难题。此外,还存在监控不健全、分享复用难度大等难点。

另外就是离线回溯的问题。内部特征的回溯需要进行稳定性和成本的平衡,比较理想的肯定是通过离线回溯系统,实现业务系统数据定期备份到这里用。但因为考虑到部署成本,实际在离线回溯时,一些数据还是直接去调业务接口,但会进行一些限速,并且做比较严格的监控,最终实现在模型回溯效果与实用成本之间实现平衡。


2. 如何建设一套易用的特征体系


2.1 特征平台定位及供需关系

笔者认为,特征平台的定位与应用目的非常清晰,即加工特征并向风控系统及机器学习平台提供特征数据。特征平台向风控系统提供特征数据的方式可以概括为以下三种方式:

A方式:基本是一种大家不会采用的方式,因为提前获取了模型实例所需的外部数据、征信数据,带来了较高的运营成本

B、C方式:是通过将模型按照数据成本进行拆分,能够大幅度降低运营成本,其中B方式美中不足的地方在于风控系统压力较大。但,这里笔者强烈不建议用户无缘由的在B方式与C方式之间切换,因为这样的技术方案的变化还要带动模型的重构与测试,影响范围甚广,且收益甚小。(备注:B方式的蓝色虚线,涵盖了API访问和直接读取数据两种方式,不再展开来说)

2.2 特征平台的场景支撑力

2.2.1 业务及功能定位

特征平台必然要包括征信特征、三方外部数据、企业内数据、图数据,并尽可能提供拖拉拽、低代码、DSL(动态脚本语言)等对敏捷迭代友好型特征加工方式的平台化产品。

2.2.2 丰富加工能力的诉求

业务系统在调用反欺诈模型时候通常会设置逃生机制。同样的道理,在计算特征过程中获取外部数据的时候,也会面临类似的问题。根据特征的应用场景,可以概括为下面三种:

支撑实时决策场景。决策模型及数据特征考虑简单高效的思路,采用性能优先的原则。可以容忍特征调用所需数据计算失败,甚至如果决策超时会有兜底的降级策略。

支撑准实时决策场景。一般是异步化结果响应,保障准确率优先。在数据调用失败时会重试,甚至有些关键数据接口失败要开启授信熔断并等待恢复,这些都是保障准确率的有效手段。

支撑离线决策场景。特征不但支持实时决策场景,同时可以结合实时场景获得的数据,用于实现贷中、贷后等批量决策场景,用于额度管理、催收、逾期管理等业务。

2.3 计算特征的几种方式

实时计算特征。是一种最基础的特征加工方式,就是在决策引擎调用特征引擎时,特征引擎从数据源拉取数据、完成计算并返回结果,它是一种读时计算(类似的概念有:读时建模)的模式,优点是数据实时准确,工程复杂度低,缺点就是并发能力一般。

预计算特征。指标计算模块实时获取业务系统发生的业务变化,并对相关特征进行预先加工与计算,等到决策系统实用该特征结果时候,特征引擎将此结果提供出来。此方式也存在局限性,比如预计算未完成时发生了特征调用,可能将无法拿到数据,所以选择这种方式也会评估数据的变化频率。

批量计算特征。对于数据变化不敏感的数据采用离线批计算将是更好的方式,既能保障了数据更加精准(无实时数据的噪音),又能提高决策效率,但其缺点可能会缺失最新的数据。

融合计算的方式。结合以上三种计算方式,针对不同的应用场景、业务诉求采取合适的计算方式,从而做到低成本满足实用要求。

2.4 几种常见的开闭源特征平台

说了这么多,对于我们在建设特征平台过程中是否有可借鉴、参考的产品呢。共享一张个人感觉比较客观的图片,如下:

上图对计划进行特征平台建设的企业应该会有一定帮助。


3. 长远来看


特征计算最终是面向API接口与数源的计算,函数计算思想是其一种比较理想的计算方式。

一个好的特征平台,一定要具备将征信系统、外部数据系统、企业内数据等丰富的数据接入并融合加工的能力,能够支持不同环节的风控模型,能够支持机器学习模型,能够实现离在线一体化能力与敏捷发版能力。此外,还有能够对特征进行很好的管理与管控,以及支持可配置化的特征加工能力。

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/1310.html

标签: 特征衍生
分享给朋友:

“实践|风控特征加工衍生体系建设实践” 的相关文章

智能计费、综合管控,爱博精电帮您快速构建水电费预付费管理系统

近年来,随着企业经营管理意识的加强,商业建筑的物业管理部门对于水电费的收缴越来越重视,在实际运营中,因为服务、管理或其他方面的纠纷,商户拖欠电费的情况时有发生,管理部门为了消除收费难、垫付水电费过多、偷窃电等诸多难题,急需改变传统水电费收缴方式。但是常规的水电预付费改造面临着改造难度大、改造周期长、...

“韩版谷歌”Naver进军操作系统,发布自研免费Linux发行版

IT之家 12 月 11 日消息,有“韩版 Google”之称的 Naver 公司正式进军操作系统领域,发布了自主研发的 Linux 发行版 Navix,为企业提供了一个稳定、可靠且免费的 Linux 发行版选择。IT之家援引科技媒体 theregister 观点,此举效仿了谷歌的多元化发展战略,也...

代码分支规范

一.gitflow工作流说明:主分支:master,稳定版本代码分支,对外可以随时编译发布的分支,不允许直接Push代码,只能请求合并(pull request),且只接受hotfix、release分支的代码合并。gitlab上做限制。热修复分支:hotfix,针对现场紧急问题、bug修复的代码分...

HTML5+眼球追踪?黑科技颠覆传统手机体验

今天,iH5工具推出一个新的神秘功能——眼动追踪,可以通过摄像头捕捉观众眼球活动!为了给大家具体演示该功能的使用,我做了一个案例,供大家参考。实际效果如下:案例比较简单,就是通过眼动功能获取视觉焦点位置,剔除用户看中的牌。现在,舞台的属性中多了一个“启用眼动”的选项,另外,还多了一个“启用摄像头”的...

前端路由简介以及vue-router实现原理

作者:muwoo 来源:https://zhuanlan.zhihu.com/p/37730038后端路由简介路由这个概念最先是后端出现的。在以前用模板引擎开发页面时,经常会看到这样http://www.xxx.com/login 大致流程可以看成这样:浏览器发出请求服务器监听到80 端口(或443...

分享15个基于Vue3.0全家桶的优秀开源项目

大家好,我是 Echa。今天来分享 15 个基于 Vue3.0 全家桶的优秀开源项目!1. Vue Admin Bettergithub : https://github.com/chuzhixin/vue-admin-bettervue admin better 对比其他来源 admin 框架有如...