课堂内外
    当前位置:首页 > 学院新闻 > 课堂内外
    【SNAI课堂】大胆假设,小心求证——如何运用数量统计方式提高科研论文质量
    日期:2014-12-03

    撰稿:陶碧颖 组稿编辑:李泓

     

     

     

    叶小杰博士

     

     

     

      大胆假设小心求证是科学研究的核心思想。隐藏在这八个字背后的是坚持不懈的追求、认真严谨的态度和求知若渴的热情。为了达到这个境界,一个研究者在面对某个课题时需要做大量的工作。特别是在实证研究越来越被重视的今天,一篇质量上乘的论文往往需要研究者首先查阅大量的文献资料,收集数据,再利用科学系统的方式对这些数据进行处理,最后从处理的结果中得到支持自己研究结果的宝贵信息。年轻却博识的叶小杰博士在西藏国税科研骨干培训班的课堂上向大家依次介绍了查阅文献的小技巧、主要计量模型和常用的统计软件,来帮助大家在科研的道路上走的更加顺利。

    登高声自远——查阅文献小技巧介绍
      写论文做研究并不是要求研究者去搭建空中楼阁,而是要他们在前人已经搭建好的地基上添砖加瓦。这一过程中,资料的收集是必不可少的。研究者除了自己通过调研收集数据以外,还可以通过查阅文献了解研究领域的发展情况或者直接从其他机构已经整理好的数据中挑选出自己需要的那一部分。
      收集这一类资料的传统的方式是查阅纸质资料,如借阅图书馆藏书和阅读包含自己研究内容的CSSCI(南大核心期刊)。但这种方式是非常不方便的,往返图书馆太浪费时间,纸质资料的收集成本过大,并且太过久远的资料寻找起来会很困难。所以在“大智移云”的信息化时代,这种方式已经不再占据主流地位。取而代之的是研究者只需坐在一台小小的电脑前点点鼠标,就可以从各种电子资源库里面得到相关资料。下图是上海国家会计学院图书馆包含的电子资源的一部分。

     

     

     

     

      最常用也最为人所知的是知网。除了知网以外,叶博士还向学员推荐了谷歌学术搜索和读秀。其中读秀包括430多万种中文图书、10亿页全文资料,它能为用户提供深入内容的章节和全文检索,部分文献的原文试读,以及高效查找、获取各种类型学术文献资料的一站式检索,还有周到的参考咨询服务。
    在数据收集方面,叶博士还推荐了国泰安CSMAR数据库。CSMAR系列研究数据库是国泰安公司参照国际数据库标准,并针对中国金融、经济特点设计研发的研究型精准数据库,能为客户对金融、经济等方面的研究提供方便快捷查询和详实的数据支持。不管是股票市场研究的数据还是公司研究的数据抑或是科技金融研究的数据,都可以在这个网站中分门别类找到详尽的资料。
    这些专门的资源都要IP登录或者账号登录指定网站才能得到,个人用户若想使用必须付出大笔金钱。但是上海国家会计学院的学员可以申请自己的VPN账号和密码,这样即使不在上国会的校园内也能够无偿使用上国会的大量电子资源。

     

     

     

     

      巧妇难为无米之炊,大量的收集资料,大量的阅读资料,了解自己想要研究的领域的最新动态,为自己想要研究的方向找到文字或者数据支持是研究必经的过程。这也是研究者站在他人肩膀上让自己看得更远的过程。

    抽丝剥茧,排沙见金——主要计量模型介绍
      做科研犹如建房子,初步收集的资料数量再多也只是堆积在一起的原料,若想构建自己的大厦,必须从这堆杂物中剔除出木头、布匹等等没有用的东西,然后对剩下的石头、沙子按照一定的方式进行加工,使它变成可以拿来使用的砖头。计量模型就起到了这个作用。
      叶博士在课堂上主要向学员们介绍了回归模型。说到回归模型的由来,这背后还有个很有趣的小故事。达尔文的表弟高尔顿在研究人类遗传问题时发现总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象——回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。
      回归分析的分类主要包括四种,分别是线性或非线性回归分析、Logistic回归分析、生存风险回归分析和时间序列分析。研究者需要自己做出判断,假设收集的数据中可能存在的关系,选择使用不同的分析方法。连续型因变量适用线性或非线性回归分析,分类型因变量适用Logistic回归分析,生存时间因变量适用生存风险回归分析,时间序列因变量适用时间序列分析。
      具体到公司研究上来看,文化程度对收入影响的研究可以使用线性回归分析,不同性别人士对工作是否满意的研究可以使用Logistic回归分析,公司CEO就职时间研究可以使用生存风险回归分析,而税收计划的研究可以使用时间序列分析。

     

     

     

     

     

      从大量数据中找到有用的信息这一过程是辛苦的,只有经过适当的处理才能让一个一个的数字变成可以反映在研究中的直接结果。抽丝剥茧、排沙见金,把表面上的数据变成更深层次的信息,每个研究者既是学者也是侦探。

    工欲善其事必先利其器——统计软件STATA介绍
      统计的一大特点就是大样本大数据,例如对影响公司上市地点的因素进行研究的时候,就要分别收集在上交所、深交所、纽交所、纳斯达克等地上市的公司信息,至少保证上千的样本量。这样一来手工计算已经不能现实,好在在计算机技术飞快发展的今天,各种各样的统计软件可以帮助研究者从事这样的工作。
      统计软件五花八门,常用的就有Excel、Mlogit、SPSS、SAS等。不同研究者对待统计软件的态度也不相同,有些人是重点进攻,深入钻研某一款软件,有些人则是广泛撒网,选择处理某一特定问题更方便的软件。这无所谓对错,因为“不管是白猫黑猫,抓住老鼠的就是好猫。”叶博士最常使用的统计软件是STATA,他也重点向学员介绍了这一款软件。
      STATA统计软件是目前世界上最著名的统计软件之一,国外将STATA与SAS、SPSS 一起被并称为三大权威软件。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。下图是STATA的操作界面。

     

     

     

      不同的统计软件有不同的优势,如果要对1000家上市公司10年间的纳税额进行研究,STATA一定是个处理数据的不错选择。因为STATA的优势之一在于它擅长面板数据的处理。面板数据是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。简单来讲面板数据就是数据时间维度和空间维度的结合体。
      STATA还有个优势是它是一个开放的平台,这使它能始终处于计量经济学和统计学的最前沿。STATA提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,同时可随时到STATA 网站寻找并下载最新的升级文件。下载后可以直接使用,也可以自行修改、添加功能。许多STATA 程序员会针对计量经济学发展编写一些最新的程序(ADO 文件),这一点有点类似iphone的appstore。
      STATA还有个和数据处理关系不大却十分实用的优势。STATA的图形制作功能强大,生成的图片可以直接运用于论文之中。这给很多研究者节省了大量的时间。

     

     

      科研之路注定漫长但是又艰辛,但是这条路不是孤独的。众多的研究者在自己做科研的过程中也不停地总结经验和方法并且将其分享出来。有时候,掌握一些技巧和方法,可以帮助研究者们在这条路上走的更远。

     

     

     

    (编辑:李泓)