首页 > 新闻中心
新闻中心

【SNAI课堂】数据洞察新征程——2024级全日制研究生《数据挖掘与商业智能》课程侧记

发布时间:2025-05-12

(撰稿/摄影:吴宇霞,供稿:研究生部)在数字化浪潮席卷全球的当下,数据已成为推动各行业发展的核心驱动力。《数据挖掘与商业智能》这门课程,宛如一座照亮数据迷宫的灯塔,引领同学们探索数据背后的奥秘。

图片1

一、课程开篇:大数据的全景认知

课程伊始,上海大学纪颖教授带领同学们走进大数据的世界。从大数据的背景来看,互联网经历了三次浪潮,从解决信息处理问题,到实现信息传输,再到如今大数据时代的信息爆炸。大数据不仅是海量的数据集合,从经济学角度,它是具有价值的信息资源;从会计学角度,它更是能带来经济利益的资产。

大数据具有数据量大、数据类型繁多、处理速度快和价值密度低等特征。在现实生活中,各领域产生的数据规模呈指数级增长,数据来源广泛,涵盖结构化、半结构化和非结构化数据。这要求我们具备从海量数据中快速提取有价值信息的能力,而数据挖掘技术正是实现这一目标的关键。

二、数据预处理:为挖掘筑牢基石

现实世界中的数据往往存在诸多问题,如不一致性、噪声和缺失值等,这些“脏”数据无法直接用于挖掘,因此数据预处理显得尤为重要。

数据清理是预处理的第一步,针对缺失值,纪老师带领大家学习了多种处理方法,如忽略元组、使用属性中心度量值填充等。对于噪声数据,可通过马氏距离等方法进行检测。数据集成则需要整合不同来源的数据,解决实体识别和冗余问题。数据归约能在不影响挖掘结果的前提下,缩小数据规模。数据变换与离散化能将数据转换为适合挖掘的形式,包括平滑、聚集、泛化和规范化等操作。

图片2

三、核心算法:探寻数据规律

在课程中,我们深入学习了分类、聚类和频繁模式挖掘等核心算法。分类算法包括决策树、朴素贝叶斯分类等。决策树算法通过构建树结构进行分类,ID3算法以信息增益为准则选择分裂属性,C4.5算法则改进为使用信息增益率,能更好地处理连续值属性。聚类算法有基于划分的K - 均值和K - 中心点算法、基于层次的AGNES和DIANA算法、基于密度的DBSCAN算法以及基于网格的聚类方法。频繁模式挖掘算法中,Apriori算法通过逐层搜索找出频繁项集,FP - growth算法则通过压缩数据库到FP - 树提高效率。

四、Weka软件:开启数据挖掘实践之门

纪老师指导同学们使用Weka软件进行数据挖掘实践。Weka软件是一款功能强大且易于上手的开源数据挖掘工具,为我们提供了一个直观的操作平台。

纪老师首先详细介绍了Weka软件的基本界面和功能模块,包括数据加载、预处理、算法选择和结果可视化等。在数据加载环节,我们学会了如何将不同格式的数据导入到软件中,为后续分析做好准备。在预处理阶段,我们运用软件中的工具对数据进行清理和转换。在算法应用方面,纪老师带领同学们将所学的分类、聚类和频繁模式挖掘算法在Weka软件中实现。通过实际操作,观察不同算法在处理数据时的效果和性能。比如,在使用K - 均值算法进行聚类时,我们可以调整参数,直观地看到聚类结果的变化,从而深入理解算法的原理和应用场景。

在结果分析环节,Weka软件提供了丰富的可视化工具,如柱状图、折线图等,帮助我们更直观地理解数据挖掘的结果。通过对结果的分析,我们能够发现数据中的潜在规律和模式,为实际决策提供依据。

图片3

五、课程总结:收获与展望

通过这门课程的学习,我们不仅掌握了数据挖掘的理论知识,还通过Weka软件的实践操作,将理论与实际相结合。我们深刻认识到数据挖掘在各个领域的重要性,以及它为商业决策和社会发展带来的巨大价值。

展望未来,随着数据量的不断增长和技术的不断进步,数据挖掘将在更多领域发挥重要作用。我们将带着在这门课程中所学的知识和技能,继续探索数据世界的奥秘,为推动各行业的数字化转型贡献自己的力量。