第三章 投资策略的基本产品分析
3.1.2数据挖掘逐渐演变的过程
和所有事物一样,数据挖掘也是一个不断在进化演变的过程,在电子数据处理的初期,人们就是用各种方法去实现自动的决策支持,在当时人们更多地关注焦点还是放在了机器的学习,让机器的学习顾名思义就是将一些已知的并且在过去已经成功解决的问题作为一个标准事例输入计算机,然后让计算机去自我学习同时自己把这些事例总结成自己的相应规则,同时这些规则之间又具有共性,使用它们可以解决某些相似的问题,后来,神经网络技术的问世,通过它的发展,又使人们把注意力转到了知识工程,不同以前的是,知识工程不再需要预先输入示例,而是直接向计算机输入代码(示例已被编为代码),计算机能够直接使用这些规则代码去解决各种问题。所谓的专家系统,就是采用这样的方法,但是它投资巨大但是效果并不理想,到了80年代,人们重新总结了神经网络理论,并在新的理论指导下,重新回到机器学习这个角度,并且人们将成果首次运用到了大型的综合商业数据库中,该技术由此成为了80年代末的新术语,即KDD。KDD泛指所有从数据源中发掘的模式或联系方法。但是最近人们开始使用某些统计方法来代替数据挖掘中的许多工作,并且他们认为最好的方法是将统计方法和数据挖掘有机的结合起来。
3.2 数据挖掘技术的概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们视线不知道的、但又是潜在有用的信息和知识的过程[8]。
3.2.1数据挖掘在商业层面的含义
在商业层面,数据挖掘实际上就是对海量的商业数据进行更为有效和细致的分析方法,在以前来说,一般都是用于科学领域研究工作,随时间的发展也被更多的引用到民用商业方面研究,很多的数据其实都是偶然情况下产生的,并不是一种刻意的行为,分析这些目的是为了攫取更多的对商业有价值的信息,从中获得更多的商业价值,然后是企业得以发展得到更多利润,但是面对海量数据的处理,现有技术还是不能做到足够的完善,还是有很大的发展空间,发现这些偶然性的商业信息就相当于矿中掘金,因此,也将其命名为数据挖掘,其商业的目的也可以描述为,更好地帮助企业快速的发展成长更有效的去优化企业的整体。 3.2.2数据挖掘的特点
数据挖掘分析方法最大的特点在于其挖掘、发现关键的信息这个过程中并没
10
第三章 投资策略的基本产品分析
有明确的假设前提,并且所挖掘到的信息应具有一下三个特征即未知、有效、可使用。先前未知的信息是指该信息在之前从未预料到,并且没有靠直觉发现的信息和知识,甚至是违背直觉的信息和知识,所发现越有价值的信息往往越是出乎意料的,常人用直觉根本不能发现的。最为典型的代表就是在沃尔玛超市连锁店中发现成人的啤酒和儿童的尿布之间有着惊人的联系。
3.3 数据挖掘的常用技术
数局挖掘算法的优劣直接决定所发现的知识的价值性,以及所发现的知识的可实际应用程度。数理统计主要应用于对数据挖掘所挖掘出来的知识进行统计和评估,对于计算机来讲,它的学习也是人工智能的一个分支,即归纳推理,从所发现的规律中找出隐含的规则。
数据挖掘技术能够有效的处理数据库中的海量数据,能够更好的对数据进行分析和挖掘,从而得出最精确的数据结果。数据挖掘中常用的方法有聚类分析、关联分析、回归分析、分类分析、预测分析、偏差分析。 3.3.1 聚类分析
所谓聚类即指把整体的一个数据库中的各种信息按照他们共有的特点将它们分为不同的群组。在同一组中的数据彼此相似,而不同组中的数据相差甚远,聚类分析可以通过建立宏观的概念,结合统计出来的数据特点,得出潜在数据属性之间的相互关系。此外,聚类分析还能够在其他算法中充当预处理步骤[9]。在聚类分析的时候很有可能一次的聚类分析并不能得出真正理想的结果,这时就需要多次聚集,并且找一个对业务很专业的业内人士来确定分群的定义,这样通过几次的删除或增加变量来影响分群的方式,才能最终得到真正理想的结果。聚类方法也可以细分为统计方法和神经网络方法。 3.3.2关联分析
关联分析是指在两个或多个事物之间存在一定的联系,通过对一个事件的预测可以得出另一个事件,进行关联分析的目的在于挖掘出深层次不为人知的且对发展有作用的数据。简单的,可以将关联分为单纯性关联、时间关联和因果关联,涉及到的参数可以引入兴趣度、相关性等等这样做的目的是为了是所挖掘的规则更符合实际。
关联分析近似于序列模式分析,但侧重点不同于序列模式分析,关联分析更着眼于被分析数据前后的关联性。
11
第三章 投资策略的基本产品分析
3.3.3 回归分析
回归分析在于确定某几种变数之间相互依赖的一种定量关系,应用实际中非常广泛,按照其自变量的不同可以大致分为一元回归分析和多元回归分析。考虑自变量和因变量也可以大致分为线性和非线性回归分析两种,一元线性回归指在回归分析中只存在自变量和因变量各一个,且二者关系近似,相反则成为多元线性回归分析[10]。 3.3.4 预测分析
预测分析是指根据以往的历史数据从中找出变化规律,运用方法建立模型,通过此模型对未来数据的种类和可能产生的特点进行准确预测,我们通常使用预测方差这个方法来度量其预测结果的精度和不确定性[11]。 3.3.5 分类分析
找出一个具有代表这个某类数据的整体信息,并对它的类别概念进行描述,通过这种描述来构造相关的模型,通常使用决策树或规则来表示,分类还可子啊规则描述和预测中进行更多应用。 3.3.6 偏差分析
数据发展现状、数据本身的历史记录以及数据标准这三者存在显著变化,而
偏差分析就是探测这三者之间的偏离,然后通过分析得出相应的结果并应用到实际的生产经营当中。
12
第四章 多元统计对客户投资的细分
第 四 章 多元统计对客户投资的细分
4.1 多元统计在金融投资领域中的重要作用
随着现代高新技术的发展,计算机信息技术已经发生了重大转变,从最初单纯地服务于行业的业务领域,逐渐转变为对业务和管理的各个方面的综合应用,在高速发展的今天,金融部门的数据量大大增加,单纯的人工分析统计已完完全全不能满足现在这个时代的一个基本要求,伴随着产生了我们现在的数据库系统,它可以有效的实现对数据的统计,查询以及录入,虽然提高了我们的工作效率,但是它仍然无法实现根据得到数据进行分析这一重要的行为,数据库并不能发现每个数据中隐含存在的关系和规则,并且它无法根据现有的数据区预测未来的发展走向,缺乏了这样的手段所面临的结果就是出现了“数据大爆炸但知识贫乏”的现象。这时候数据挖掘应运而生,作为信息技术发展的关键,正显现其巨大的商业价值,在金融领域也亦如此,中国的金融企业若想有所发展,就必须从“产品导向”的市场营销经营理念向“客户导向”转变。 4.1.1 对目标市场的客户
在分析市场的客户时候,采用分类和聚类的方法,可以将目标群里中的每个客户进行细分,通过他们数据本身所体现的特点将具有相似特点的客户放在一个目标群里,这样将所有的客户分成若干各组,这样通过有效的聚类和协同过滤方法可以更高效的提高对不同客户需求的分析,从而推动企业的营销成效。 4.1.2对客户价值的分析
在做这项分析行为之前,我们一般要选择分类客户,然后根据“二八原则”,从中找到我们所需要的重点客户(这里所提到的重点客户,是指为银行创造了八成价值中的客户中的两成的客户),对这些重点客户我们要实行最为优质的服务,创造我们的效益,对于如何这些重点客户这一难题,我们一般使用诸如系统数据处理、AI等数据统计分析技术来实现。通过一些重点指标来分析出客户的忠诚度,以及找到这些客户的共同需求,从而对这些具有相似特征的客户进行有效地弥补。
13
第四章 多元统计对客户投资的细分
4.1.3对客户行为的分析
通过找到的重点客户,我们能够发现客户的行为偏好,从而根据他们的需要为他们定制专属的特色服务,从而提高客户对企业的忠诚度,对不同群组之间的客户进行交叉分析后,我们可以发现客户群体间的变化规律,并且通过对数据库的进一步分析和统计,我们会将最具代表性的数据放到我们的数据库中,从而让企业配合我们得到的数据结论,制定更加符合企业发展的市场策略。 4.1.4 对业务关联分析
在大量的客户信息数据面前,我们可以对客户平时的个人素质、教育水平、工作性质、家庭收入、家庭支出、消费习惯等行为进行充分的分析,找出客户的潜在需求,同时通过这些结论,我们可以更好地发展一些中间业务,在更好地为客户服务的同时,进一步发展我们自己的企业。
4.2 基于多元统计的数据处理流程
首先进行前期的准备工作,包括数据信息的收集和预处理,收集就是搜索与工作对象有关的数据信息,并且从中选出最具代表性的资料以便通过分析得出最具代表性的答案,预处理就是进一步筛选信息,提高数据的整体质量,为接下来的分析做到充分的准备,确定要使用的统计操作类型。然后进行分析阶段,将筛选出来的数据输入计算机,运用SPSS软件使计算机进行自主分析,并且能进一步完善数据,最后是得出结论,对所得出的结果进行解释和评估,根据得到的结果进行相应的分析,并且制定相应的计划。
4.3 数据的采集和与处理过程
本篇论文通过对天津市当地几家基金公司、证券公司、银行、以及期货公司中所掌握的部分重点客户信息的收集对其进行预处理,然后运用SPSS软件对相关数据进行深入挖掘分析,主要运用相关性分析,以及聚类分析对数据进行深入采集,为了便于数据的定量处理,进行的编码化,相关的数据维度以及编码含义如下表所示:
14