首页 > 新闻中心
新闻中心

【SNAI课堂】全日制《机器学习》课程侧记

发布时间:2019-11-07

(撰稿:何佳露,摄影:刘荣光)九月,穿过留在夏季的所有温度,为麦田染上金黄的色泽,散发阵阵清香。在这样一个收获的季节里,我们迎来了机器学习的课程。这门课程系统的介绍了有关线性回归、逻辑回归、模型选择、模型收缩、决策树等内容,框架明确,向我们梳理了回归模型的建立与检验过程。授课老师来自复旦大学大数据学院的林晓蕾教授,她温和大方,会主动了解同学们的专业背景,调整讲义内容;她的思维还非常理性严谨,在课堂上向我们介绍如何建立数学模型、进行模型检验以及如何应用模型解决实际问题。短短四周,我们从课堂上窥得机器学习的冰山一角,但对于我们有想往会计大数据方向发展的同学来说,却是获益匪浅。

林老师上课总是以一个日常生活中的例子带我们走进大数据的世界,由浅入深,引发大家对于平常事不平常的思考。

房价的预测——线性回归模型

林老师首先以美国某地区房价的例子抛砖引玉,为我们提供了一个已经清洗和归集过的房价数据文件,其中包括房价,房屋面积,卧室数量,洗手间数量,房屋等级,是否为单楼层等。那么,现实中,房产中介是如何根据所提供的这些数据预测房价呢?这需要分析这些解释变量与被解释变量之间的关系,利用线性回归模型可以建立若干个模型,在这若干个模型中选择最优模型。探索数据时,发现房屋面积和卧室数量这两个变量与房价显著相关,因此选取这两个变量和房价建立模型(如下图所示


由上图我们可知美国该地区的房价与房屋单位面积正相关,这说明,在其他条件相同的情况下,随着房屋面积的增大,房价越来越高;美国该地区的房价与我市数量负相关,表明,在其他条件相同的情况下随着我市数量的增加,美国该地区的房价越来越高。

但是这只是一个模型,虽然假设检验和显著性检验的结果表现不错,但是还需要建立再多些变量或者更复杂的模型,通过比较其均方根误差(rmse),来选择最适合的模型。选择方法如下图所示,第一个模型的均方根误差为350042.9rmse),第二个模型的均方根误差(rmse)为273516.3,这说明第二个模型的误差要更小,应该选择第二个模型。

信用卡欠款概率预测——逻辑回归模型

同样地,依旧是用一个日常生活中的例子来引入逻辑回归—信用卡欠款,银行是怎么通过一些申请用户的收入指标和额度指标来判断这名用户欠款概率有多高,是否应该通过他的贷款申请。与房价例子不同的是,房价是一个连续性变量,欠款与否是一个二分类变量,要么欠款,要么不欠款,并不是一个连续型变量。如果还选用线性回归建模,那么得出的模型表现不太好,误差较大,如下图所示,黄色部分表示的是欠款与否的分布,如果一个人欠款,那么他欠款的概率就是1,如果不欠款,那么欠款的概率就是0。拟合出来的线性模型很明显不能够很好的贴合真实数据的走向。



   为了解决这类问题,便引入了逻辑回归的概念,利用逻辑回归,就可以很好地解决这样的二分类变量,求出欠款的概率,模型求解如下图所示,利用该模型,可以很清楚的得到一个人欠款概率与信用卡额度之间的关系,即在其他条件相同的情况下,额度越高,欠款的概率就越大。



除此以外,还可以通过增加模型中变量的个数来增加模型的复杂度,从而提升模型的精确性,减少误差。比如增加是否为学生这样的二分类变量,得出的模型会更加复杂,再用之前学过的方法,比较两种模型的均方根误差,可以得出第二个模型的误差更小,更为准确。


对于银行来说,如果一个人是学生,那么在信用卡额度相同的情况下,他欠款的概率就越低,银行会更加愿意贷款给学生;但是如果两个人都不是学生,那么信用卡额度越高的人,欠款的概率就越大,银行在考虑贷款的时候就需要谨慎一点,综合衡量一下坏账风险。

这样,在课堂上学到知识,课下运用知识解决问题不正是我们一直在追求的研究生的能力么?除了房价的模型和信用卡欠款的例子,还有话费与套餐的例子等等,都是非常接近日常生活但我们又很容易忽略的一些问题,从这些小问题入手,以小见大,总能收获“大智慧”。




微信
  • 上海国家会计学院
    微信二维码
  • 财政部
    微信二维码
  • 上海国家会计学院
    手机网站