上海国家会计学院

课堂内外

当前位置：首页 > 学院新闻 > 课堂内外

【SNAI课堂】全日制《数据挖掘与商业智能》课程侧记

日期：2021-07-19

（撰稿：张硕静）大数据究竟是什么？大数据究竟能干什么？最新的大数据技术究竟有什么？相信这几个问题一直是大数据与会计方向的同学在思考的问题。经过在上海国家会计学院近一年的学习，有些人可能明白了，有些人可能仍旧一知半解，而作为研究生生涯的最后一门课——《数据挖掘与商业智能》却用了两天来解答这些问题，用另外两天教授我们最常用的方法与软件，可以说是时间虽短却受益匪浅。本门课程授课老师是上海大学纪颖教授。

一、大数据究竟是什么？

数据资产是企业或组织拥有或控制，能够带来未来经济利益的数据资源，对数据资产进采取各种管理活动，能够保证数据资产的安全完整，对其进行合理配置和有效利用，从而提高其经济效益，保障和素锦各项事业发展。可以说该领域就是如今大数据时代企业布局竞争的核心。但是传统的数据管理方式并不适合数据资产管理的要求：从范围来看，非结构化数据、内外部数据混搭、云化处理都会冲击传统管理模式；从形式来看，数据加工的复杂度和速度要求越来越高，对传统管理效率提出挑战；从内涵来看，数据的交换、转让、租赁、交易等各种创新模式，正在要求着新的管理手段。因此，大数据技术应运而生。

大数据是指需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，它具有“Volume”、“Variety”、“Value”和“Velocity”4V特征，即数据量大、数据类型繁多、数据价值密度低和数据处理速度快，同时大数据的发展也带来了“更多、更杂、更好”的思维变革，即大数据关注的“不是随机样本而是全部数据”、“不是精确性而是混杂性”、“不是因果关系而是相关关系”。

大数据的发展可以说无时无刻改变着我们的生活，各级政府、主管部门、上市公司、企业集团、外资公司都将基于大数据分析平台优化其决策；大数据分析能力逐渐加强，传统市场研究行业、证券研究所、产业链咨询机构将逐渐消失；银行都将基于企业大数据平台开展银行直销业务，同时按照产业链金融服务事业部模式开展业务；因大数据系统的出现，所有依赖信息不对称盈利的业务都将消失。大数据对政府、金融机构、企业来说，像空气一样不可或缺！

二、大数据究竟能干什么？

大数据产业生态商业角色有大数据产出者即拥有数据的政府机构、企业、社会团体及个人；大数据产品提供者即提供直接应用于大数据产品的企业；大数据服务提供者即指以大数据为核心资源、以大数据应用为主业开展商业经营的企业。他们共同构成了诸如下图的大数据核心产业链。

在金融行业，最大限度地利用大数据技术进行数据分类、整合、分析和应用，能够增加业务产出。在电子商务行业，全生命周期都需要大数据参与，电子商务企业能否提高企业的竞争力，很大程度上依赖于大数据技术的应用程度。生物医学领域也广泛应用和认可大数据，大数据被应用于流行病预测、智慧医疗和生物医学。物流领域的大数据技术使物流智能化。在汽车行业，“无人汽车”和车联网保险精准定价提供更加贴心的服务；在公共安全领域，借助大数据可以更好、更快地应对突发事件，以保证社会和谐稳定。

三、最新的大数据技术究竟有什么？

大数据采集技术：数据采集是指通过以上方式获得的结构化、半结构化、准结构化和非结构化的海量数据。在智能感知层包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等；在基础支撑层提供大数据服务平台所需的虚拟服务器、数据库及物联网资源等基础支撑环境。

大数据预处理技术：抽取即因获取的数据可能具有多种结构和类型，将复杂的数据转化为单一的或者便于处理的构型，以达到快速分析、处理的目的；清洗即由于在海量数据中,数据并不全是有价值的，有些数据与所需内容无关，有些数据则是完全错误的干扰项，因此要对数据进行“去噪”，从而提取有效数据。

大数据存储与管理技术：大数据存储与管理就是用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。新型数据库技术包括关系型数据库即传统关系型数据库及New SQL数据库，以及非关系型数据库即No-SQL，又分为键值数据库、列存数据库、图存数据库及文档数据库等。

大数据安全开发技术：该技术包括改进数据销毁、透明加解密、分布式访问控制和数据审计等技术，突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

大数据分析与挖掘技术：该技术包括改进已有数据挖掘、机器学习、开发数据网络挖掘、特异群组挖掘和图挖掘等新型数据挖掘技术。

大数据展现与应用技术：该技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中提取出隐含在其中的，人们事先不知道但又潜在有用的信息和知识的过程，可按挖掘任务不同、挖掘对象不同、挖掘方法不同进行分类。按挖掘任务可分为：分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现。按挖掘对象可分为：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体、数据库、异质数据库、遗产数据库。按挖掘方法可分为：机器学习方法、统计方法、神经网络方法、数据库方法。

四、常用方法详解

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析主要解决两个问题：一是确定几个变量之间是否存在相关关系，如果存在，找出它们之间适当的数学表达式；二是根据一个或几个变量的值，预测或控制另一个或几个变量的值。

回归分析的步骤有1.确定变量。寻找与预测目标的相关影响因素，即自变量，并从中选出主要的影响因素。2.建立预测模型。依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析预测模型。3.进行相关分析。作为自变量的因素与作为因变量的预测对象是否有关、相关程度如何、以及判断这种相关程度的把握性多大，就成为进行回归分析必须要解决的问题。进行相关分析一般要求出相关关系，以相关系数的大小来判断自变量和因变量的相关程度。4.计算预测误差。回归预测模型是否可用于实际预测，取决于对回归预测模型的检验和对预测误差的计算。5.确定预测值。利用回归预测模型计算预测值，并对预测值进行综合分析，确定最后的预测值。

关联规则挖掘是一种基于规则的机器学习算法，该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现而非预测，所以是属于无监督的机器学习方法。

Apriori算法为使用候选项集找频繁项集，它的原理是如果某个项集是频繁的，那么它的所有子集也是频繁的。

它的思想为1.找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样；2.由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度；3.使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义；4.一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

它的步骤有1.链接：算法初始设置k=1，使用连接运算从数据库中找到所有的k项候选集的集合C_k，然后k增加1，直到k等于频繁项集的极大长度或频繁项集为空。2.剪枝：按照先验原理对得到的k项候选集的集合C_k进行剪枝，以减小因C_k较大而产生较大的计算量。

在关联分析中，频繁项集的挖掘最常用到的就是Apriori算法但这种方法有种弊端，即当数据集很大的时候，需要不断扫描数据集造成运行效率很低。而FP-Growth算法就很好地解决了这个问题。它的步骤有：1.遍历数据集，统计各元素项出现次数，创建头指针表。2.移除头指针表中不满足最小值尺度的元素项。3.第二次遍历数据集，创建FP树。对每个数据集中的项集先初始化空FP树，再对每个项集进行过滤和重排序，最后使用这个项集更新FP树，从FP树的根节点开始：如果当前项集的第一个元素项存在于FP树当前节点的子节点中，则更新这个子节点的计数值，否则，创建新的子节点，更新头指针表并对当前项集的其余元素项和当前元素项的对应子节点递归此步骤的过程。

纪颖老师在课程伊始曾同我们说，《数据挖掘与商业智能》这门课的目的不是教会了我们多少软件或者多少算法，而是教给我们一种解决问题的思路，让我们知道哪些问题可以用哪些方法解决远比会写哪些代码、会算哪种算法有用的多。而经过这四天的学习，我认为老师做到了、我们也学到了，真的可以说是收获颇多受益匪浅。

✅ 已复制