(撰稿/中国海洋大学 王慧、中南财经政法大学 王宏)7月26日上午,来自复旦大学大数据学院的专家林晓蕾老师为暑期学校的同学们讲述了“大数据理论与方法”相关内容。对于新时代下的热点——大数据,林晓蕾老师以舒适平稳的语调深入浅出地讲解了大数据理论及相关方法,立足高远,学术理论与应用实践的有机结合为课堂增添了趣味,极大地调动了同学们的学习热情。
在三个小时的讲解中,林晓蕾老师首先为大家介绍了信息时代与数据时代的不同,以此为切入点引出数据挖掘的发展史,以及数据挖掘的含义、目的及方法与应用,详细讲述了要挖掘什么类型的数据,通过甄别挖掘数据的类型,来选定要采用的挖掘工具,进行大数据分析,最后指出大数据挖掘存在的主要问题与局限性,站在学术伦理的角度,阐释了工作或学术研究过程中对于个人隐私数据保护的重要性。
首先,21世纪是信息的时代,企业的经济活动信息大多以数据的方式呈现出来,例如:销售记录、股票交易记录、产品描述、公司利润业绩,这些数据既能提高企业管理者进行管理决策的效率,同时也提高了企业的信息透明度。在当今数据时代下,大数据已应用于商业活动、科学工程、医疗保健、社会媒体等社会的方方面面。林晓蕾老师以Google Flu trends举例为我们剖析了传统数据系统与数据时代下新型数据系统的不同。例如:秋冬天流感易爆发,对于感冒、发烧等流感症状、治疗药物等搜索词条出现明显的时间、区域集中点,与传统数据系统相比,要早两周形成流感预测系统,更具有时效性。
进一步,老师为同学们梳理了数据库系统技术的演变。数据挖掘是从大量丰富的数据中寻找有用信息与有趣模式的过程。林晓蕾老师讲述了数据挖掘在三个阶段的历史演变:第一阶段是上个世纪60年代,数据挖掘最基本的功能是数据的收集和数据库的创建,对原始文件进行处理;第二阶段是上个世纪70年代至80年代,出现了层次和网状数据库系统,运用实体-联系模型等方法建模,使用SQL语言查询所需要的信息,对信息进行处理和优化;第三阶段是从上个世纪80年代发展至今,已经产生了高级数据库系统,能够存储管理复杂的数据,催生了数据流、云计算等系统,突破了时间、空间、媒介等限制,挖掘的数据类型也越来越丰富,数据挖掘的应用范围获得了较大延展。结合对数据挖掘与知识发现过程中“分类”、“聚类”、“离群点分析”等具体概念的深入阐释,林晓蕾老师分析了数据挖掘转化为知识和价值的过程。围绕“什么是数据挖掘”、“挖掘什么样的数据”基本问题,林晓蕾老师指出,要想从大量数据中挖掘有趣的模式,必须经过数据的清理集成、建立数据仓库、进行数据挖掘和模式的评估与表示。这为同学们后期开展大数据相关研究理清了思路。
接下来,林晓蕾老师指出挖掘数据的类型分为四大类:第一是数据库数据。数据库数据以DBMS和关系数据库为代表,能够反映多个实体间的联系,对指定子集进行数据处理。第二是数据仓库,数据仓库的产生,能够包容更多的数据类型,对不同的数据源经过清理、变换、集成处理,装入数据仓库,能够不定期地刷新每个数据源库。第三是事物数据,事物数据容纳了不存在于数据库或数据仓库的信息,如一个航班订票、一次网页点击;第四是其他类型的数据。其他类型数据包含视频监控、地图空间数据、图像、音频、视频等不同类别。林晓蕾老师以All Election为例,对不同需求的数据展开分析。通过在不同表中详细列明属性和项目信息为企业提供实时信息,帮助企业利用这些信息进行更为公平的绩效考评和更为有效的财务分析。另外,林晓蕾老师还分享了挖掘数据采用的五种模式:类/概念描述、频率、分类与回归、聚类分析、离群点分析,在分析过程中将理论与实践相结合,加深了同学们对数据挖掘相关知识的理解。
此外,林晓蕾老师从认识数据的类型与属性、挖掘工具、数据可视化三个方面讲解了大数据分析。林晓蕾老师指出,当前很多数据的整合困难是由不同维度的数据不融合造成的,而数据立方体通过在不同维度设置不同属性的方式,很好地解决了这一问题。立方体中每一个小立方体均可以通过进一步数据挖掘或数据汇总进行层级的转换。讲解过程中,林晓蕾老师特别强调了“类”的概念,以数据特征化为基础进行数据区分是数据挖掘过程中的重要步骤,通过找出描述和区分数据类或概念的模型,可以预测未知的类标号。一个数据对象即为一个实体,数据对象通过维、特征、变量等属性来描述,属性又有标称属性、二元属性、序数属性、数值属性等类别。识别后对数据进行基本统计描述,估计数据的中心趋势和散布,运用盒图、直方图、分位图、散点图等方法,可以观察数值属性是否存在联系以及存在什么样的联系,进而充分运用数据挖掘工具带来的便利。
就当前比较受关注的数据可视化相关内容,林晓蕾老师也进行了详细介绍。数据可视化通过更为直观有趣的图案,能够清晰有效的表达数据信息,是撰写报告、任务管理等工作过程中的重要技能。数据可视化运用圆弓分割技术、散点图矩阵、平行坐标、切尔诺夫脸等方法对数据进行处理与输出,帮助我们判断数据间的耦合关系。林老师指出,在进行图形显示选择时,不同类型的图形可表示的信息含量各不相同,应该结合实际问题分析的需求进行选择。
最后,林晓蕾老师介绍了度量数据相似性和相异性的方法。对不同数值属性的邻近性和相异性度量进行了详细介绍和总结,回顾总结了大数据挖掘的多种方法,具有很强的实践操作意义。林晓蕾老师指出,大数据挖掘结果的好坏取决于对象背景,但目前仍存在算法应用问题和处理结果解释上的局限性。即:算法是否具有弹性,换一种方式、算法,数据处理的结果是否仍然有效存在疑虑。特别地,林晓蕾老师指出,当前大数据挖掘技术在为各个领域提供便利的同时也产生了新问题,其中最惹人争议的便是个人的数据隐私。林晓蕾老师提醒各位同学,在工作或学术研究过程中若使用与个人隐私有关的数据时,一定要注意隐去隐私信息,可以采取ID编码重新连接的方式避免因为隐去隐私信息造成的研究不便。
林晓蕾老师的讲解既为同学们描绘了大数据理论与方法的整体特征,同时也在学术研究的伦理道德层面为同学们做出很好的示范。纵观当前社会发展的各个领域,大数据的身影无处不在,掌握一定的大数据理论与方法的基础,对于同学们今后的学习和工作都将大有裨益。


财政部微信
上海国家会计学院微信