互联网和金融,在数据挖掘上究竟存在什么样的区别
1. 数据挖掘的层次
我一直想整理一下自己对不同层次的数据挖掘的理解。 这也是这两年和很多金融领域、互联网做数据相关工作的朋友的聊天和交流的总结。 大致可以分为四类。
(1)纯数据处理
专注于变量处理和预处理,从源系统或数据仓库中提取、处理、导出相关数据,生成各种业务表。 然后以客户号为主键,对这些业务表进行整合汇总,最后就可以拉出一张大宽表。 这张宽大的桌子堪称“顾客画像”。 也就是说,有关客户的许多变量和特征的集合。
现阶段主要的数据处理工具是SQL和SAS库。
(二)傻瓜式挖矿工具
比较典型的是SAS EM,它嵌入了很多比较传统和成熟的算法、模块和节点(如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。 通过鼠标拖拽处理式节点,基本可以实现你的数据挖掘需求。
傻瓜式操作的优点是使得数据挖掘非常快速且相对简单。 然而,有一些缺点使得这个挖矿过程有点单调和无趣。 没有办法批量计算模型,也没有办法开发一些个性化的算法和应用。 当你使用比较熟练,想要进一步完善的时候,建议放弃这两个。
(3)更自由的挖掘工具
比较典型的有R语言和。 这两种挖掘工具都是开源的,前者由统计学家开发,后者由计算机科学家开发。
一方面,有很多成熟、前沿的算法包可以调用。 另一方面,你也可以根据自己的需要对现有的算法包进行修改和调整,以适应自己的分析需求,更加灵活。 此外,它在处理文本、非结构化数据、社交网络等方面也有比较强大的功能。
(四)算法拆解及自主开发
一般我会用C、C++自己重写算法代码。 例如,通过自己的代码实现逻辑回归运算流程。 您甚至可以根据自己的业务需求和数据特点改变一些假设和条件,以提高模型运行的拟合效果。 特别是在生产系统上,用C编写的代码运行速度更快,更容易部署,并且可以满足实时计算需求。
一般来说,从互联网招聘和技能需求的角度来看,JD一般需要前三种类型。 此类职位将被称为“建模分析师”。 但如果加上最后一项,这样的职位可能会更名为“算法工程师”。
2.对款式的理解:传统与时尚
据了解,该模型应包括两种类型。 一类是传统的、比较成熟的模式,另一类是比较时尚、有趣的模式。 对于后者银行数据挖掘,大家会表现出更多的兴趣,这一般代表着新技术、新方法、新理念。
(1)传统模式
传统模型主要解决分类(如决策树、神经网络、逻辑回归等)、预测(如回归分析、时间序列等)、聚类(谱系学、密度聚类等)、关联(无序关联等)和有序相关)这四类问题。 这些都是比较传统和经典的。
(二)时尚有趣的款式
比较有趣、前沿的模型大概包括以下几种,即社交网络分析、文本分析、基于位置的服务(-Based,LBS)、数据可视化等。
它们更时尚的可能原因是它们使用了相对较新和前沿的分析技术(社交网络、文本分析),非常接近实际应用(LBS),或者可以带来更好的客户体验(数据可视化)。
(1)社交网络的应用
传统模型将客户视为单个个体,忽略客户之间的关系,根据客户特征构建模型。 社交网络以群体为基础,重点研究客户之间的关系。 通过网络、中心性、连接强度和密度,得到了一些非常有趣的结果。 典型应用包括关键客户识别、新产品渗透和扩散、微博传播、风险传染、保险或信用卡网络团伙诈骗、基于社交网络的推荐引擎开发等。
(2)文本挖掘的应用
文本作为非结构化数据,难以处理和分析,包括如何切词、如何判断一词多义、如何判断词性、如何判断情绪的强度等。 典型应用包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过诉讼相关文本判断企业经营风险、通过网络爬虫抓取产品评论、词云展示等。
文字和湿人。 关于文本分析,我最近在朋友圈分享了一篇有趣的文章,声称它可以让你瞬间变成一个湿人。 原理很简单,就是先把《全宋词》分词,然后统计出现频率最高的前100个词。 然后你可以随机组成6个数字(1-100),这样你就可以拼凑出两首诗。 例如,随机写出两组数字,(2,37,66)和(57,88,33),对应的单词是(东风,无人,黄花)和(憔悴,今晚,风月)。 由“东风无人黄花落,今夜风月明”两句诗组成。 确实是这样,有兴趣的话可以玩一下。
(3)LBS应用
也就是基于位置的服务,也就是如何将服务与用户的地理位置结合起来。 目前的APP应用如果不能与地理位置很好的结合,往往很难有强大的生命力。 典型的APP包括大众点评(餐饮位置)、百度地图(位置和路线)、滴滴打车、微信位置分享、时光网(电影院位置)等服务。 此外,银行其实也在研究如何将线上客户推送到离自己最近的网点,完成完美的O2O连接,从而带来更好的客户体验。
(4)视觉应用
一些基于地图的可视化分析比较流行,如春节人口迁徙图、微信活跃图、人流热力图、拥堵数据可视化、社交网络扩散可视化等。
如果你想让你的分析和挖掘更加引人注目,请尽量围绕以上四个方面进行。
3.互联网与金融数据挖掘的区别
经过两年的博士后,我对银行领域的数据挖掘有了一些基本的了解,但面对浩瀚的数据领域,我只能算一个初学者。 很多时候,我们很好奇数据挖掘在互联网领域是什么样子的。
很早之前,我在知乎上问过一个问题,“金融领域的数据挖掘和互联网的数据挖掘有什么区别和区别?” 这个问题已经挂了好几个月了,虽然已经有了一些答案,但还没有得到我想要的答案。
既然没人能提供你想要的答案,我就根据自己的理解、一些场合的遭遇、以及和一些互联网数据朋友的接触,尝试总结和解答。 应该有以下几个方面的差异。
(1)“分析”与“算法”
在互联网中,“分析”和“算法”是非常分离的,对应着“数据分析师”和“算法工程师”两个角色。 前者更侧重于数据的提取、处理、处理,使用成熟的算法包,开发模型,探索数据中的模式和规律。 后者更多的是自己编写算法代码,使用C或者部署到生产系统中进行实时计算和应用。
在银行领域,基本上只能看到第一类角色。 数据基本上来自于仓库系统,然后使用SQL、SAS、R进行提取、处理、建模和分析。
(2) 数据类型
数据类型主要包括“结构化”和“非结构化”数据。 前者是传统的二维表结构。 每行一条记录,每列一个变量。 后者包括文字、图像、音频、视频等。
银行中的数据大部分是结构化数据,也有少量非结构化数据(投诉文本、贷款审批文本等)。 业务部门对非结构化数据的分析需求较少。 因此,在非结构化数据的分析和建模方面稍显不足。
互联网多是网络日志数据,主要是文本等非结构化数据,然后利用一定的工具将非结构化数据转化为结构化数据,进行进一步的处理和分析。
(3) 工具、存储和架构
互联网基本上是免费的,所以经常选择开源工具,比如MySql、R等,往往是基于分布式的数据采集、处理、存储和分析。
商业银行一般都是基于成熟的数据仓库,比如TD,以及一些成熟的数据挖掘工具,SAS EG和EM。
(四)应用场景
在应用场景方面,两者也存在非常大的差异。
(1)金融领域
金融领域和不同子行业(如银行、证券)的数据挖掘也存在差异。
银行领域的统计建模。 银行的数据挖掘更侧重于统计建模,数据分析对象主要是横截面数据,一般包括客户情报(CI)、运营情报(OI)和风险情报(RI)。 开发的模型以离线为主,少数模型如反欺诈、应用评分等实时性要求较高。
证券领域的定量分析。 证券行业的挖掘工作更注重定量分析,分析对象更多是时间序列数据,旨在从市场指数、波动特征、历史数据中发现趋势和机会,进行短期套利操作。 定量分析的实时性要求也比较高。 可能是离线计算模型,但交易系统部署后,会实时计算,捕捉交易事件和交易机会。
(2)互联网
互联网实时计算。 互联网应用场景银行数据挖掘,如推荐引擎、搜索引擎、广告优化、文本挖掘(NLP)、反欺诈分析等,往往需要在生产系统中部署模型,对实时响应要求较高,保证更好的客户体验经验。 。
4、数据挖掘在金融领域的典型应用
人们经常问数据挖掘在银行到底做了什么。 我经常思考如何站在对方的角度来回答这个问题。 举一些常见的例子来说明。
(1)信用评分
申请评分。 当您申请信用卡、消费贷款或商业贷款时,银行会批准吗?会发放多少金额? 这个判断很可能是应用评分模型计算的结果。 利用模型计算您的还款能力和还款意愿,综合评估贷款金额和利率水平。
行为评分。 当您使用信用卡一段时间后,银行会根据您的信用卡刷卡行为和还款记录,采用行为评分模型来决定是否为您调整固定限额。
(2)个性化产品推荐
很多时候,您可能会收到银行发来的短信,或者接到银行代理的外拨电话,例如向您推荐某种金融产品。 这背后,很可能是产品响应模型运行的结果。 银行会使用该模型来计算您购买某种金融产品的概率。 如果概率比价格高,它就会把这个金融产品推给你。
另外,很多时候,银行会针对不同的客户进行个性化的推荐不同的产品,这很可能是产品相关性分析模型运算的结果。
(3)个性化广告展示
当您登录商业银行网站时,通常会显示一个广告和多个广告。 很多时候,不同的客户登录网站时,会接触到不同的广告,即个性化的广告推送。 一般来说,后台经过计算后,会确定您对哪些广告和产品感兴趣,最终推送您最感兴趣的3-5个产品,可以有效吸引您的注意力,促进点击、转化和交易。
【编辑精选】
数据挖掘工作搜索 | 想进BAT? 先试试这些问题吧! 秒懂数据统计、数据挖掘、大数据、OLAP之间的区别。 数据挖掘为何如此难成功?数据挖掘在再营销中的应用:日志、报警数据挖掘经验谈重要信息丨互联网数据挖掘入门
本站对作者上传的所有内容将尽可能审核来源及出处,但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知,本站将及时予以修改或删除。