首页 > 新闻中心
新闻中心

【思耐问道第40期】大数据时代的数据挖掘方法

发布时间:2022-11-11

(撰稿:杨玉洁/摄影:谷佳禾)2022117日晚19点,上海国家会计学院研究生思耐问道第40期在第一教学楼200人报告厅举行,此次讲座由复旦大学大数据学院林晓蕾副教授主讲,采取线上线下结合的方式,我院2022级全体研究生参加讲座。

讲座开始,林老师用谷歌利用大数据对流感趋势进行预测的例子引出了大数据转化为知识的话题,在之后的讲座中,通过对数据库系统技术的演变、数据挖掘、数据的获取和储存、大数据分析和大数据伦理等内容的详细讲解,让同学们对数据挖掘有了初步了解,引发了同学们进一步学习的兴趣。

一、数据库系统技术的演变

大量数据都是存储在数据库中供使用者调用,而数据库的演变也经历了漫长的阶段。林老师在讲解中,将数据库系统技术的演变分为三个阶段:

第一阶段为1960s,为数据收集和数据库创建阶段,这一阶段数据库主要表现为原始文件处理形式。

第二阶段为1970s-1980s,计算机的发明带动了数据库管理系统的产生,在这一时期的数据库系统多为层状和网状,关联数据库数量较少,且在这一阶段所面临的主要问题是如何将所需数据从数据库中调出。而人机交互页面的产生解决了这一问题,如SQL语言的使用。

第三阶段为1980s-至今,这一阶段的数据库系统为高级数据库系统,带有一定的扩展关系和对象关系,可用于管理非常复杂的数据,如序列数据、非结构化数据等。在高级数据库系统中,数据多以数据流形式存在,常见的数据流如监控数据、基于Web的数据等。使用者需要对这些高级数据进行数据分析,以最大化发挥这些数据的价值,进行商业应用、经济预测等。

二、数据挖掘

大数据时代,数据挖掘的应用场景遍布各行各业,如商业推荐系统应用、零售关联销售应用、银行不良客户识别等,如何从海量数据中获得我们所需的信息是数据挖掘要达成的目标。数据挖掘是从大量数据中挖掘有趣的知识和模式的过程,属于多学科任务,即数据挖掘从头部至尾端涉及许多学科门类。

要完成数据挖掘的整个过程,首先要将数据锁定在某个数据库当中,若想使用数据库中的数据,则需要对数据进行清理和集成,将清理集成完成的数据放入数据仓库,根据任务需要,从中选择相关度较高的数据,对选定的数据进行变换和选择,并采用机器学习等对数据进行挖掘,挖掘出与任务相关的模式,对模式进行评估和表示,对挖掘结果进行可视化。数据挖掘不是一次性完成的,而是一个来回迭代的过程,需要多次操作才能获得需要的知识。

三、数据的获取和储存

海量数据中,可以挖掘的数据是多种类型的,如数据库数据、数据仓库数据、事物数据和其他类型的数据。

数据库数据是由大量表组成的,这些数据不是独立的,它们具有一定的关联性,可以将一定的ID连接起来,所以目前的数据库类型多为关联数据库;针对关联数据库,数据库查询是非常重要的,目前主要的数据库查询语言为SQL语言。

数据仓库是不同于数据库的,数据仓库主要起到集合不同分部数据库的作用,对来自不同数据源的数据进行清理、变换、集成等操作后,统一存储至数据仓库中,再利用数据仓库进行数据查询。

事物数据代表了一个事物,如顾客的一次购物、一次网页点击等,一个事物包含一个唯一的事物标记号。事物数据库可能有一些与之相关联的附加表,包含关于事物的其他信息。

四、大数据分析

在对数据挖掘时,需要关注数据的特征和数据的区分,对其进行频率分析、关联分析、预测分析、聚类分析和离群点分析等。在频率分析中,主要分析数据中频繁出现的模式;在预测分析中,采用分类和回归方法,找出描述和区分数据类或概念的模型,以便预测未知的类标号;在聚类分析中,与数据分类不同的点在于聚类数据没有类别标签,在进行分析时以最大化研究对象的组内相似性和最小化组间相似性为原则;在离群点分析中,数据集中与数据的一般行为或模式不一致的数据对象称为离群点,大多数数据挖掘方法都将离群点视为噪音或异常而丢弃,但实际上罕见出现的事件比正常出现的事件更令人感兴趣。

林老师还向同学们详细讲解了数据相关的知识,如数据的重要特征、数据对象、数据属性分类、数据分布等。对于数据分布,需要了解两个层面,第一是数据的中心趋势,一般采用均值、中位数、众数等加以描述;第二是数据的散布,一般采用极差、四分位数极差、五数概括、盒图等加以描述。对数据进行挖掘后,需要对数据进行可视化呈现,通过图形清晰有效地表达数据,以凸显技术的优点,发现原始数据中不易观测到的数据联系,制造有趣的图案。

五、大数据伦理

在大数据挖掘中,也存在一些问题,涉及数据挖掘方法、用户界面、有效性和可伸缩性、数据库类型的多样性、保护隐私等。数据挖掘是一项非常专业的任务,如何要将数据挖掘推行到更多应用场景,以及数据泄露后相应法律责任的判定等,尚未得到明确的答案,需要在未来发展中进一步关注。

通过林老师的讲解,同学们加深了对数据的认识,对大数据挖掘的流程和方法有了初步的了解,明白了数据挖掘的重要性,希望同学们可以通过此次讲座对数据挖掘产生兴趣,进一步学习,并在未来应用于工作中。