首页 > 新闻中心
新闻中心

【SNAI课堂】数据挖掘,“啤酒”和“尿布”的营销机理

发布时间:2022-07-11

(撰稿:朱百灵)20世纪90年代,美国沃尔玛超市管理人员分析销售数据时,发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。由此,沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物,从而极大提升商品销售收入。而这其中,就蕴含着数据挖掘的道理。

随着信息社会进入大数据时代,数据的处理技术发生了翻天覆地的变化,我们的思维也经历了巨大变革。什么是大数据?如何利用大数据获取我们想要的信息?通过《数据挖掘与商业智能》这门课的学习,相信每一位同学都找到了自己的答案。今年学院的《数据挖掘与商业智能》课程依旧是由上海大学纪颖教授进行教学,不同的是,因为疫情原因,今年的四天课程均在线上完成。但即使如此,同学们的学习热情依然高涨。

一、理论基础

数据挖掘是从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程,是一门跨学科的技术。交织着统计学、数据库技术、机器学习、模式识别、人工智能、可视化技术等。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为,比如线形方程、规则、聚类、图、树结构以及用时间序列表示的循环模式。

数据挖掘过程包括满足不同需求的几个组件。

预处理。在应用数据挖掘算法之前,需要构建一个目标数据集。数据的一个常见来源是数据仓库,其中的数据存在诸多问题,如:数据不一致,噪声数据,缺失值等,需要执行预处理才能分析数据集。预处理包括数据清理,数据集成,数据归约,数据交换等程序,让数据能够满足我们的质量要求。

关联规则学习(也称为市场篮子分析)。这些工具搜索数据集中的变量之间的关系,例如确定商店中的哪些商品通常被一起购买。

聚类。聚类不需要已知结构,发现数据集中相似的组和结构。

分类。执行分类的工具将已知结构推广到新的数据点,例如电子邮件应用程序尝试将邮件分类为合法邮件或垃圾邮件时就是这样的数据点。

回归。这种数据挖掘技术用于在给定特定数据集比如销售量、住房价值、温度或价格时,得出预测数值范围。

概括。这种技术提供数据集的紧凑显示,包括数据可视化和生成报告。

二、技术手段

以回归分析和分类算法为例。

 (一)回归分析

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析主要解决两个问题:一是确定几个变量之间是否存在相关关系,如果存在,找出它们之间适当的数学表达式;二是根据一个或几个变量的值,预测或控制另一个或几个变量的值。

回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系,后者反映变量间的严格依存性,而前者则表现出一定程度的波动性或随机性,对自变量的每一取值,因变量可以有多个数值与之相对应。在统计上研究相关关系可以运用回归分析和相关分析。

当自变量为非随机变量、因变量为随机变量时,分析它们的关系称回归分析;当两者都是随机变量时,称为相关分析。回归分析和相关分析往往不加区分。广义上说,相关分析包括回归分析,但严格地说。两者是有区别的。具有相关关系的两个变量ξ和η,它们之间既存在着密切的关系,又不能由一个变量的数值精确地求出另一变量的值。通常选定ξ=x时η的数学期望作为对应ξ=x时η的代表值,因为它反映ξ=x条件下η取值的平均水平。这样的对应关系称为回归关系。根据回归分析可以建立变量间的数学表达式,称为回归方程。回归方程反映自变量在固定条件下因变量的平均状态变化情况。相关分析是以某一指标来度量回归方程所描述的各个变量间关系的密切程度。相关分析常用回归分析来补充,两者相辅相成。若通过相关分析显示出变量间关系非常密切,则通过所建立的回归方程可获得相当准确的取值。

通过回归分析可以解决以下问题:1可建立交量间的数学表达式――通常称为经验公式。2利用概率统计基础知识进行分析,从而可以判断所建立的经验公式的有效性。3进行因素分析,确定影响某一变量的若干变量(因素)中,何者为主要,何者为次要,以及它们之间的关系。

具有相关关系的变量之间虽然具有某种不确定性,但是,通过对现象的不断观察可以探索出它们之间的统计规律,这类统计规律称为回归关系。有关回归关系的理论、计算和分析称为回归分析。

(二)分类分析

数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)

在第一阶段,建立描述预先定义的数据类或概念集的分类器。这是学习阶段(或训练阶段),其中分类算法通过分析或从训练集学习来构造分类器。训练集中提供了每个训练元组的类标号,这一阶段也称为监督学习(即分类器的学习在被告知每个训练元组属于哪个类的监督下进行的)。它不同于无监督学习(或聚类),每个训练组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。

在第二阶段,使用模型进行分类。首先评估分类器的预测准确率。如果使用训练集来度量分类器的准确率,则评估可能是乐观的,因为分类器趋向于过分拟合该数据(即在学习期间,它可能包含了训练数据中的某些特定的异常,这些异常不在一般数据集中出现)。

1、决策树

决策树构造过程包括:1输入数据,主要包括训练集的特征和类标号。2选取一个属性作为根节点的分裂属性进行分裂。3对于分裂的每个分支,如果已经属于同一类就不再分了,如果不是同一类,依次选取不同的特征作为分裂属性进行分裂,同时删除已经选过的分列属性。4不断的重复3,直到到达叶子节点,也就是决策树的最后一层,这时这个节点下的数据都是一类了。5最后得到每个叶子节点对应的类标签以及到达这个叶子节点的路径。

得到由训练数据构造的决策树以后就可以进行预测了,当待预测的数据输入决策树的时候,根据分裂属性以及分裂规则进行分裂,最后即可确定所属的类别。

2、朴素贝叶斯算法

朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

其步骤包括:

输入:数据集S是训练元组和对应类标号的集合;待分类的数据X

输出:数据X所属的类别

方法:根据数据集S计算每个类别Ci的先验概率P(Ci)。 根据数据集S计算各个独立特征X(j)在分类中的条件概率p(X(j)|Ci)。 对于特定的输入数据X,计算其相应属于特定分类的条件概率p(Ci|X)。选择条件概率最大的类别作为该输入数据X的类别返回。

3KNN算法

KNN 算法是Cover Hart 1968 年提出的理论上比较成熟的方法,为十大挖掘算法之一。该算法的思路非常简单直观:如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

三、软件应用

经纪老师推荐,我们接触到了WEKA这个软件,相比于其他的数据分析工具和编程语言,WEKA更为简单,也更好理解。WEKA提供的功能有数据处理,特征选择、分类、回归、聚类、关联规则、可视化等。课程时间有限,无法做到完整的操作,因此还需要我们课后对WEKA软件进行进一步探索。

四、现实应用

商务智能(BI):在商业领域特别是零售业,数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使刚,特别是码技术的使用,可以收集到大量关于购买情况的数据,并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是人有帮助的。

Web搜索引擎:数据挖掘技术应用到搜索引擎领域,从而产生智能搜索引擎,将会给用户提供一个高效、准确的Web检索工具。在金融领域,可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。

金融领域:在金融业方面,数据挖掘的应用突出表现在信用评估和防止欺诈等方面。RobertGroth从防止金融欺诈的角度论述了数据挖掘的应用问题以及利用神经网络技术进行股票预测的问题。MichaelJ.A.BerryGordonS.Li noff则从金融产品的交叉销售和保险精算两个角度对数据挖掘在金融业的应用进行了探讨。

数据挖掘还可用于工业、农业、交通、电信、军事、Internet等其它行业。数据挖掘具有广泛的应用前景,它既可应用于决策支持,也可用于数据库管理系统(DBMS)中。数据挖掘作为决策支持和分析的工具,可以用于构造知识库。在DBMS中,数据挖掘可以用于语义查询优化、完整性约束和不一致检验等。

除了数据挖掘相关内容之外,纪老师还花了一节课的时间与我们分享案例型论文的写作方向和写作方法,为正处于开题阶段的我们提供了许多帮助。在未来,我们希望可以运用到更多本门课程学习到的数据挖掘知识进行论文写作和实地分析,也感谢给我们带来给我们带来如此精彩课程的纪老师,无论是从实际运用的意义还是从理论知识的学习方面我们都受益良多。




微信
  • 上海国家会计学院
    微信二维码
  • 财政部
    微信二维码
  • 上海国家会计学院
    手机网站