连续成功举办九届的中国大数据大会见证了中国大数据技术生态系统的建立、发展和演变,目前已成为国内最具影响力、规模最大的大数据领域技术盛会。作为极具实战价值的专业交流平台,中国大数据技术大会已经成为国内外中高级技术精英最期待的深度分享会。
2016中国大数据技术大会将于12月8日-10日在北京举行,大会为期三天,聚焦行业最佳实践,数据与应用的深度融合,关注热门技术在行业中的实践和应用,除Keynote外,主办方精心策划了16场专题技术和行业论坛,涵盖了大数据分析与生态系统、大数据云服务、HPC大数据、推荐系统、数据安全与隐私保护、人工智能、网络与通讯、政策法规与标准化、工业与制造业、数据库、金融、精准医疗与健康、智慧城市、交通旅游与出行等主题。届时,超过130位技术专家将为现场千名以上的大数据行业精英、技术专家及意见领袖带来100多场技术演讲,分享最新技术与实践的洞察与经验,共商大数据时代发展之计!
在金融大数据论坛,本次大会邀请到了宜信大数据创新中心技术总监郑赟担任演讲嘉宾,发表题为“ 大数据驱动的在线快速信贷业务实践”的主题演讲。宜信大数据创新中心在大数据的驱动下,开展了若干个纯在线的信贷业务。这些信贷业务具有纯线上、实时授信、快速批贷等特点,在部分场景下实现了全流程系统自动化处理(包括进件、数据获取、反欺诈、授信、批贷和放款)。本次演讲主要介绍了为实现这样的在线业务,宜信在系统和数据两方面进行的一系列探索和实践,以及在此过程中系统设计、大数据风控方面所总结的一些经验。
宜信大数据创新中心技术总监 郑赟/ZHENG YUN
郑赟,宜信大数据创新中心技术总监,负责中心若干大数据驱动的互联网金融创新产品的研发工作。加入宜信之前,在美国在线视频公司Hulu任研发经理,负责视频播放和网站主站的技术研发。并曾在Microsoft从事研发工作。毕业于清华大学自动化系,获本科及硕士学位。
以下为采访实录
CSDN:请先介绍下自己以及目前的工作重点。
郑赟:我叫郑赟,目前是宜信大数据创新中心的技术总监。在加入宜信之前先后在微软和Hulu从事研发工作。我本人是宜信大数据创新中心的第一批员工,早期我们中心主要承担着对整个宜信公司的大数据技术和研究能力的平台化输出,特别是大数据风险管理的能力输出;在此基础之上,后来我们也陆续开展了一些创新型的金融业务(包括资金端和信贷端),以更好的和我们的大数据技术能力形成正向反馈,同时为公司拓宽线上产品线。所以目前来说,我们的重点就是在大数据平台的支持下不断稳健地扩大我们的各个线上业务,同时在各业务需求的驱动下,反过来不断优化我们的大数据平台。
CSDN:大数据时代已然来临,在当前金融行业的大数据应用中,一个主要的挑战就是高价值数据源的获取,这对数据处理能力和海量数据挖掘能力有很高的要求。宜信在这一点上有什么经验可以分享?
郑赟:目前我们这边的数据源主要有以下几个方面:
宜信的P2P业务已经稳定的运转了超过十年,在此期间积累了大量的高价值的历史数据,包括了千万级的客户数据和更大量级的业务数据。
在业务流程中,客户会授权一部分数据。同时我们也会实时地去爬取互联网上关于客户的公开数据。而为了高效及时地爬取互联网公开数据,我们实现了一个高效的分布式爬虫框架,通过智能爬虫调度,即便在全公司的业务高峰期,也能在数分钟之内完成互联网公开信息的爬取和解析,同时可以插件式的增加新的爬取对象和解析逻辑,方便根据业务需求随时扩展。
我们也能从许多合作伙伴那边获取第三方的数据。当然不少都是要收费才能查询,所以我们为了节省不必要的开支,一般会先使用前两部分数据进行初步计算,如果数据已经足够进行判断(比如拒贷),那就不需要查询三方数据了。
那么在这些数据获取之后,由于数据格式非常之多,我们将数据都处理成一个统一的格式——知识图谱。由于知识图谱的高度灵活性和扩展性,我们后续的信贷风控模块都使用知识图谱中的数据进行计算,非常高效地推动了大数据在风控中的应用。
CSDN:宜信大数据创新中心在大数据的驱动下,开展了若干个纯在线的信贷业务。这些信贷业务具有什么特点?应用了哪些热门的技术?
郑赟:目前正式对外上线的纯线上信贷业务主要有两个,一个是面向个人的小额贷款;一个是面向中小电商的贷款业务,叫做商通贷。它们的主要特点就是纯在线、实时授信、快速放款,所以对风险管理有着很高的要求。从技术层面,这两个信贷业务首先都需要解决数据获取和存储的问题。那么这个就用到了前面提到的分布式爬虫技术和知识图谱技术。还有我们在风控中也试验了不同的机器学习模型,最后针对不同的业务选择了不同的风控模型。同时随着业务的发展,我们也在不断尝试新的模型和新的特征,以获得更好的风控结果。
CSDN:目前宜信大数据创新中心的系统设计已较为完善,可以简单介绍下吗?还有哪些问题亟待解决?
郑赟:目前我们自底向上有一套层次化的系统和平台。最底层的是已经开源的LAIN云平台,其本质是一个基于Docker的私有PaaS系统,能够让开发者更专注于业务逻辑的开发。同时,我们有一个大数据风控引擎,专注于提供系统化的风控能力。在这两个系统的支撑下,我们搭建了各个业务系统,并且能不断地快速迭代。当然,毕竟我们目前研发团队规模不大(一百多人),而且业务发展很快,所以各个系统都有着不少待改进的地方,也就是所谓的技术债,我们正在投入一些开发资源用于解决和优化这些问题。
CSDN:请谈谈您在这次大会上即将分享的话题,可以帮助听众解决哪些问题?
郑赟:本次大会上,我主要会以商通贷为案例,分享商通贷信贷业务的完整流程,以及每个环节中技术应用经验。希望通过此次分享,能够帮助听众了解一个线上信贷业务的主要难点,以及如何运用技术来解决这些问题,特别是如何利用大数据技术进行风险管理。而对于同样从事互联网信贷业务的同行听众,也希望能通过分享我们在业务发展中的经验教训,更好地帮助同行开展业务,促进行业的共同进步。
130+位讲师,16大分论坛,中国科学院院士陈润生,美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥,驭势科技联合创始人、CEO吴甘沙,上交所前总工程师白硕等专家将亲临2016中国大数据技术大会,票价折扣即将结束,预购从速。
博客地址:http://blog.yoqi.me/?p=972
这篇文章还没有评论