互联网和金融，在数据挖掘上究竟存在什么样的区别-品牌世界网

您当前的位置：首页 > 金融

互联网和金融，在数据挖掘上究竟存在什么样的区别

发布时间：2023-10-02 12:05:15

1. 数据挖掘的层次

我一直想整理一下自己对不同层次的数据挖掘的理解。这也是这两年和很多金融领域、互联网做数据相关工作的朋友的聊天和交流的总结。大致可以分为四类。

(1)纯数据处理

专注于变量处理和预处理，从源系统或数据仓库中提取、处理、导出相关数据，生成各种业务表。然后以客户号为主键，对这些业务表进行整合汇总，最后就可以拉出一张大宽表。这张宽大的桌子堪称“顾客画像”。也就是说，有关客户的许多变量和特征的集合。

现阶段主要的数据处理工具是SQL和SAS库。

（二）傻瓜式挖矿工具

比较典型的是SAS EM，它嵌入了很多比较传统和成熟的算法、模块和节点（如逻辑回归、决策树、SVM、神经网络、KNN、聚类等）。通过鼠标拖拽处理式节点，基本可以实现你的数据挖掘需求。

傻瓜式操作的优点是使得数据挖掘非常快速且相对简单。然而，有一些缺点使得这个挖矿过程有点单调和无趣。没有办法批量计算模型，也没有办法开发一些个性化的算法和应用。当你使用比较熟练，想要进一步完善的时候，建议放弃这两个。

(3)更自由的挖掘工具

比较典型的有R语言和。这两种挖掘工具都是开源的，前者由统计学家开发，后者由计算机科学家开发。

一方面，有很多成熟、前沿的算法包可以调用。另一方面，你也可以根据自己的需要对现有的算法包进行修改和调整，以适应自己的分析需求，更加灵活。此外，它在处理文本、非结构化数据、社交网络等方面也有比较强大的功能。

（四）算法拆解及自主开发

一般我会用C、C++自己重写算法代码。例如，通过自己的代码实现逻辑回归运算流程。您甚至可以根据自己的业务需求和数据特点改变一些假设和条件，以提高模型运行的拟合效果。特别是在生产系统上，用C编写的代码运行速度更快，更容易部署，并且可以满足实时计算需求。

一般来说，从互联网招聘和技能需求的角度来看，JD一般需要前三种类型。此类职位将被称为“建模分析师”。但如果加上最后一项，这样的职位可能会更名为“算法工程师”。

2.对款式的理解：传统与时尚

据了解，该模型应包括两种类型。一类是传统的、比较成熟的模式，另一类是比较时尚、有趣的模式。对于后者银行数据挖掘，大家会表现出更多的兴趣，这一般代表着新技术、新方法、新理念。

(1)传统模式

传统模型主要解决分类（如决策树、神经网络、逻辑回归等）、预测（如回归分析、时间序列等）、聚类（谱系学、密度聚类等）、关联（无序关联等）和有序相关）这四类问题。这些都是比较传统和经典的。

（二）时尚有趣的款式

比较有趣、前沿的模型大概包括以下几种，即社交网络分析、文本分析、基于位置的服务（-Based，LBS）、数据可视化等。

它们更时尚的可能原因是它们使用了相对较新和前沿的分析技术（社交网络、文本分析），非常接近实际应用（LBS），或者可以带来更好的客户体验（数据可视化）。

银行数据挖掘的数据_挖掘银行数据的意义_银行数据挖掘

(1)社交网络的应用

传统模型将客户视为单个个体，忽略客户之间的关系，根据客户特征构建模型。社交网络以群体为基础，重点研究客户之间的关系。通过网络、中心性、连接强度和密度，得到了一些非常有趣的结果。典型应用包括关键客户识别、新产品渗透和扩散、微博传播、风险传染、保险或信用卡网络团伙诈骗、基于社交网络的推荐引擎开发等。

(2)文本挖掘的应用

文本作为非结构化数据，难以处理和分析，包括如何切词、如何判断一词多义、如何判断词性、如何判断情绪的强度等。典型应用包括搜索引擎智能匹配、通过投诉文本判断客户情绪、通过舆情监控品牌声誉、通过诉讼相关文本判断企业经营风险、通过网络爬虫抓取产品评论、词云展示等。

文字和湿人。关于文本分析，我最近在朋友圈分享了一篇有趣的文章，声称它可以让你瞬间变成一个湿人。原理很简单，就是先把《全宋词》分词，然后统计出现频率最高的前100个词。然后你可以随机组成6个数字（1-100），这样你就可以拼凑出两首诗。例如，随机写出两组数字，（2,37,66）和（57,88,33），对应的单词是（东风，无人，黄花）和（憔悴，今晚，风月）。由“东风无人黄花落，今夜风月明”两句诗组成。确实是这样，有兴趣的话可以玩一下。

(3)LBS应用

也就是基于位置的服务，也就是如何将服务与用户的地理位置结合起来。目前的APP应用如果不能与地理位置很好的结合，往往很难有强大的生命力。典型的APP包括大众点评（餐饮位置）、百度地图（位置和路线）、滴滴打车、微信位置分享、时光网（电影院位置）等服务。此外，银行其实也在研究如何将线上客户推送到离自己最近的网点，完成完美的O2O连接，从而带来更好的客户体验。

(4)视觉应用

一些基于地图的可视化分析比较流行，如春节人口迁徙图、微信活跃图、人流热力图、拥堵数据可视化、社交网络扩散可视化等。

如果你想让你的分析和挖掘更加引人注目，请尽量围绕以上四个方面进行。

3.互联网与金融数据挖掘的区别

经过两年的博士后，我对银行领域的数据挖掘有了一些基本的了解，但面对浩瀚的数据领域，我只能算一个初学者。很多时候，我们很好奇数据挖掘在互联网领域是什么样子的。

很早之前，我在知乎上问过一个问题，“金融领域的数据挖掘和互联网的数据挖掘有什么区别和区别？” 这个问题已经挂了好几个月了，虽然已经有了一些答案，但还没有得到我想要的答案。

既然没人能提供你想要的答案，我就根据自己的理解、一些场合的遭遇、以及和一些互联网数据朋友的接触，尝试总结和解答。应该有以下几个方面的差异。

(1)“分析”与“算法”

在互联网中，“分析”和“算法”是非常分离的，对应着“数据分析师”和“算法工程师”两个角色。前者更侧重于数据的提取、处理、处理，使用成熟的算法包，开发模型，探索数据中的模式和规律。后者更多的是自己编写算法代码，使用C或者部署到生产系统中进行实时计算和应用。

在银行领域，基本上只能看到第一类角色。数据基本上来自于仓库系统，然后使用SQL、SAS、R进行提取、处理、建模和分析。

(2) 数据类型

数据类型主要包括“结构化”和“非结构化”数据。前者是传统的二维表结构。每行一条记录，每列一个变量。后者包括文字、图像、音频、视频等。

银行数据挖掘_银行数据挖掘的数据_挖掘银行数据的意义

银行中的数据大部分是结构化数据，也有少量非结构化数据（投诉文本、贷款审批文本等）。业务部门对非结构化数据的分析需求较少。因此，在非结构化数据的分析和建模方面稍显不足。

互联网多是网络日志数据，主要是文本等非结构化数据，然后利用一定的工具将非结构化数据转化为结构化数据，进行进一步的处理和分析。

(3) 工具、存储和架构

互联网基本上是免费的，所以经常选择开源工具，比如MySql、R等，往往是基于分布式的数据采集、处理、存储和分析。

商业银行一般都是基于成熟的数据仓库，比如TD，以及一些成熟的数据挖掘工具，SAS EG和EM。

（四）应用场景

在应用场景方面，两者也存在非常大的差异。

(1)金融领域

金融领域和不同子行业（如银行、证券）的数据挖掘也存在差异。

银行领域的统计建模。银行的数据挖掘更侧重于统计建模，数据分析对象主要是横截面数据，一般包括客户情报（CI）、运营情报（OI）和风险情报（RI）。开发的模型以离线为主，少数模型如反欺诈、应用评分等实时性要求较高。

证券领域的定量分析。证券行业的挖掘工作更注重定量分析，分析对象更多是时间序列数据，旨在从市场指数、波动特征、历史数据中发现趋势和机会，进行短期套利操作。定量分析的实时性要求也比较高。可能是离线计算模型，但交易系统部署后，会实时计算，捕捉交易事件和交易机会。

(2)互联网

互联网实时计算。互联网应用场景银行数据挖掘，如推荐引擎、搜索引擎、广告优化、文本挖掘（NLP）、反欺诈分析等，往往需要在生产系统中部署模型，对实时响应要求较高，保证更好的客户体验经验。。

4、数据挖掘在金融领域的典型应用

人们经常问数据挖掘在银行到底做了什么。我经常思考如何站在对方的角度来回答这个问题。举一些常见的例子来说明。

(1)信用评分

申请评分。当您申请信用卡、消费贷款或商业贷款时，银行会批准吗？会发放多少金额？这个判断很可能是应用评分模型计算的结果。利用模型计算您的还款能力和还款意愿，综合评估贷款金额和利率水平。

行为评分。当您使用信用卡一段时间后，银行会根据您的信用卡刷卡行为和还款记录，采用行为评分模型来决定是否为您调整固定限额。

(2)个性化产品推荐

很多时候，您可能会收到银行发来的短信，或者接到银行代理的外拨电话，例如向您推荐某种金融产品。这背后，很可能是产品响应模型运行的结果。银行会使用该模型来计算您购买某种金融产品的概率。如果概率比价格高，它就会把这个金融产品推给你。

另外，很多时候，银行会针对不同的客户进行个性化的推荐不同的产品，这很可能是产品相关性分析模型运算的结果。

(3)个性化广告展示

当您登录商业银行网站时，通常会显示一个广告和多个广告。很多时候，不同的客户登录网站时，会接触到不同的广告，即个性化的广告推送。一般来说，后台经过计算后，会确定您对哪些广告和产品感兴趣，最终推送您最感兴趣的3-5个产品，可以有效吸引您的注意力，促进点击、转化和交易。

【编辑精选】

数据挖掘工作搜索 | 想进BAT？先试试这些问题吧！秒懂数据统计、数据挖掘、大数据、OLAP之间的区别。数据挖掘为何如此难成功？数据挖掘在再营销中的应用：日志、报警数据挖掘经验谈重要信息丨互联网数据挖掘入门

本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。

上一篇：金城银行深度分析中小微企业风险的关键数据特征

下一篇：乔治·索罗斯资产美国超级富豪联名信呼吁支持对最富有群体征收适度“富人税”