课堂内外
    当前位置:首页 > 学院新闻 > 课堂内外
    【SNAI课堂】计量的理论和软件操作--全日制《数量分析方法》课程侧记
    日期:2017-11-20

    (通讯员:付小兴,摄影:刘荣光)八月夏日炎炎,在喜悦和期待中我们终于迎来了研究生生活。在短短一学期中,郑德渊老师带领我们学习了数量分析背后的理论以及使用Excel简单分析数据,赵春光老师则在此基础上教会了我们更专业的数据分析软件SPSS,也许你也曾想研究某个问题比如民营企业和国有企业的实际税负到底谁高谁低,也许你感觉上是国有企业的实际税负更高,因为国有企业是政府财政收入的主要来源,你可以从定性上可以按照自己的逻辑得出结论,但显然如果没有从实证方面给出定量分析,你的结论很难站稳脚跟,而《数量分析方法》课程就是教你如何从定性的角度来对你的结论给出支撑,让你的观点得到实证的检验。

    一、计量理论

    郑老师上课的最大特点就是以小见大,深入浅出。老师的每堂课都带给了我们全新的视角,让我们深受启发。老师告诫我们在不要仅仅为了分析数据而分析数据,遇到一个问题在你做数据分析之前,先要有个自己的直觉判断,你要对个问题有自己的逻辑和理解在里面,实证分析只是一个支撑你观点的工具,而不是目的。

    (1)什么是辛普森悖论

    大家从初中就学过对数据的分析就是求均值、中位数,从来没想过对数据进行分类后得出的结论和总体样本得出的结论会出现差异也称辛普森悖论,举个例子,如下表(表一)所示,从整体样本来看,A公司的待遇要明显好于B公司,因为A公司的平均工资更高,但是如果按照高低学历分组之后,你会发现实际上是B公司给的工资更高,因为不管是高学历,还是低学历,B公司的每人工资水平更高,而造成你从整体样本均值出发得出矛盾结论的原因在于A、B公司高学历和低学历的占比不同,普遍的这种现象称为辛普森悖论,所以在实证分析中大家既会对整体做一个描述统计,也会将总体分类后再做一次描述统计,看得出的结论有没有不同,来避免出现辛普森悖论。


    二、计量实操

    作为即将面临就业问题的学生,大家都热捧从事证券工作,你会发现证券行业对你量化分析能力要求很高,比如会使用Python或者MATLAB,那赵老师的授课就是教会你SPSS软件的使用,老师以有效税率展开,研究跟它有关的变量,比如企业性质、企业规模等等,做回归,看懂分析结果。

    (1)基本数据处理

    我们用excel把文字格式转换为数字格式。例如:从国泰安数据库下载的股票数据其中股票代码和日期都是文本格式,股票代码作为A这列,通过excel做如下处理:=value(A),就可以将“000001”的股票代码转成数值型“1”并命名新的一列为“ID”;如果日期(包括年月日)作为B这一列,我们要选出其中的年份这个数值,用excel做如下处理:=value(left(B,4))或者=value(text(B,”yyyy”))并命名为“year”。

        (2)合并变量

    我们计算了ROA、ROE,ERT(三种以上的有效税率的算法。因为ROA=期末利润/总资产平均值,总资产平均值=(期初资产+期末资产)/2,首先将期初总资产的数据导入并命名为spss0(即1月份财务报表数据),期末总资产的数据导入并命名为spss1(12月份财务报表数据),对他们都按照ID和year排序,然后用spss的工具栏“合并变量”将spss0的数据按照相同的ID和year合并到spss1中,然后再用“转换变量”计算总资产平均值,这个方法后来的学习中会经常用到。

       (3)T检验和极端值处理

    我们比较了国有企业和民营企业实际税率的高低。用到了SPSS的“描述统计”可以看到总体样本的均值,通过“数据分析”中的“比较均值”可以计较分类后均值大小。我们赋值国有企业为1,民营企业为0,比较两者均值大小以及结果是否显著。如果结果不显著很可能是因为没有处理极端值,赵老师介绍了两种极端值的处理方法:第一,主观上认为实际税率为负值或者大于1的都为极端值,直接删除极端值;第二,找出有效税率的四分之三分位点为0.755,令ETR中大于0.755的数值都赋值为等于0.755,另外令ETR小于0的数值都赋值为等于0,一种让样本量减少了,一种样本量不变,两种剔除极端值的方法自己选择。

       (4)多元线性回归

    关于有效税率ETR的影响因素。我们用SPSS做多元回归,以有效税率作为因变量,以企业规模(总资产的对数)、ROA、法定税率t、资产密集度(固定资产/总资产)作为自变量。首先我们做了一次相关性分析,结果中如果只有非参数检验显著,原因就在于没有剔除极端值,因为Spearman相关是剔除数据中的异常值后做出的相关;其次看回归结果,如果P值越小或者t值越大,结果越显著,有时候回归结果报告只看星星(**)的数量,星星越多代表结果显著。

       (5)logistic回归

    当因变量是0-1变量的时候,就不能用线性回归了,改用logistic做回归,这样可以将因变量由0-1变量即离散变量改成连续变量,这样因变量才符合正态分布,老师举了个例子,审计意见作为因变量,审计费用作为自变量,还有一些控制变量,得出结果是会计师事务所并不会因为企业给了更多的审计费用而出具不公正的审计意见。

    不管是郑老师的理论讲解还是赵老师的软件操作,我们学习的内容都是非常有趣的,对我们不管是做科研,写毕业论文,工作中做数据分析都是非常用帮助的。