统计可谓无所不在:企业需要用统计方法进行质量控制;研究市场时,企业要观察新产品的接受程度、电视广告的收视率、产品的价格需求关系;经济学上还常用时间序列分析的方法来预测未来经济的发展趋势。
不过,“看数字要小心!”香港中文大学决策科学与企业经济系主任李庆琦教授日前在上海国家会计学院高级财会人员专业会计硕士(EMAPCC)项目上授课时发出警告。
李教授告诉我们的是:统计方法本身是科学的,但怎样使用却是艺术的。统计也会撒谎。有的人只给你看你想看的数字,而掩盖你所不希望看到的事实。所以,你必须正确对待统计,并且要注意不被统计数字所迷惑。
寻找“同月同日生”
李教授在课堂上做了这样的游戏:让全班50号学员每人拿一张小纸,然后不让别人看见,从0-300中选择一个自己想到的数字写在纸上。纸折好后全部上交到了李教授手里。
“这个游戏可以叫作‘心有灵犀一点通’,你们会发现有很多人写的数字是相同的”,李教授一一打开小纸片念出上面的数字,大家果然发现:虽然0-300有这么多数字,但有3个人同时写了7,3个人同时选了9,5个人同时选了100……
接着,李教授又让全班学员报自己的生日,结果发现同月同日生的竟然有6对。
“两个游戏其实意义差不多,后面的一个游戏等于是让你的父母在1—365中选定一个数字。”李教授风趣地说。“在我的执教生涯中,这样的游戏玩过好多遍,我发现50个人中平均会出现4对同月同日生者;运气好时会在40人中发现7对;但还从未发现过40人以上没有一对同月同日生的。”
李教授又开玩笑道:你们也可以和人玩这个“同月同日生”游戏打赌,但当对象在30人以下时就别冒风险了。“通常27个人中出现同月同日生者的概率是50%;如果有40个人以上,你就基本上十拿九稳了”,李教授说。
李教授的游戏让大家明白了这样的道理:大部分数字都遵循一定的规律,我们看它们觉得很乱,那是因为我们不知道它的运作规则。而统计就是希望通过系统的方法找出这些信息运作的规则。比如当你把一串数字堆起来时,你就会发现数字会呈中心曲线正态分布。你不管到哪里,都可以看到这样的曲线。统计可以使我们洞悉数字的奥妙。
美国欲弃人口普查?
说到这里,何谓统计,这个问题也就明晰起来了:统计就是收集数据,然后用系统的方法来分析,找出这些隐藏在数字背后的运作规则,用以最后的决断。
李教授告诉我们:正确使用统计方法,可以让我们节省许多时间和金钱,并得出基本上比较可靠的结论。
比如要得出13亿人的平均身高,科学应用统计方法,我们只要抽样10万人就可以精确到只相差一两厘米。“美国甚至还准备放弃人口普查呢,因为人口普查成本很高,而且数据量很大,光是输入过程就很容易出错。其实,调查5万人就可以得到很准确的人口信息,也就是说只需抽样美国人口的六千分之一,就可以得到和普查一样的结论。”李教授透露。
统计常被人和数学联系在一起,但李教授说:数学和统计不同,数学是有个定理,然后去证明,也就是说数学是逻辑推断和证明的过程;而统计不能证明,统计是从小样本看大样本,只能从小样本来说大样本或总体“可能”是什么。
李教授讲述了一个发生在许多年前的有趣故事:某学者在一著名医学杂志上发表文章,他把各国的烟草人均消费量和肺癌的发病率联系起来,由于他发现它们有很强的正相关关系,所以他说:“吸烟导致癌症”。但是一位美国大学教授看了这篇论文后并不服气,他仿照上面那位学者的分析方法,用各国霍乱发病率的数据和各国烟草人均消费量联系起来,结果这两个数据呈明显的负相关,所以他写文章说:“吸烟可以防止霍乱”。他真的把这篇文章送到了刊登第一篇文章的杂志社,但遭到了拒绝。
其实,前一篇论文是有明显漏洞的,后面这位教授的行动实际上就是对前面这位学者论文的讽刺。因为虽然烟草的人均消费量和肺癌的发病率呈正相关是事实,但不能因此说“烟草导致癌症”。如果真要证明烟草导致癌症,那你就非得做类似这样严格的实验:找一百对双胞胎从小就开始养起来,让他们吃喝拉撒的条件都完全相同,同时把他们分成两组,一组人抽烟,另一组人不抽烟,十年后看看有多少人得了癌症。
所以,李庆琦教授指出:统计只能反映事物的密切关系,但不能推断出因果关系。统计让你从数字上得到一些信息,你可以说A和B两个数字中哪个可能是对的,但你只能说“A更像是真的”,不能说“A就是真的”。
统计真的会撒谎
据说国外流行这样一句格言:“谎言有三种:谎言、混账谎言、统计”。也就是说:最轻的不伤害人的那种谎话叫谎言;比较伤人的那种叫“混账谎言”;杀伤力最大的那种叫“统计”。
这句话虽然很夸张,但李庆琦教授告诉我们:统计真的会撒谎。
李庆琦举了几个统计如何撒谎的有趣例子。
他给了一张表格,上面列出了两位美国职业棒球手Eddie Murray和Orlando Merced在1991年的击球统计数据,他们均是著名的左右手都能击球的选手。无论是左手还是右手的击球成功率,Murray都胜过Merced,但是奇怪的是,他的平均击球成功率却比Merced低。
是数字搞错了吗?非也。李教授透露:奥秘在于两个棒球员左右手的击球次数不同:Eddie Murray的左右手击球次数分别为100次和75次,所以平均击球率为(0.35×100+0.2×75)/175=0.2857;Orlando Merced的左右手击球次数分别为100次和40次,所以平均击球成功率为:(0.34×100+0.175×40)/140=0.2926。
“所以,你向俱乐部推销Murray时,应该给人看表格的上面两行,提供左右手的击球成功率;而推销Merced时,给人看表格的最下面一行,提供总击球成功率。这样,你推销的成功率就高了。”李教授打趣道。
李教授说的这个例子让人联想到了“辛普森悖论”所阐述的:一件事物可以这么看,也可以那么看。“所以,看数字要格外小心”,李教授强调。
接着,李教授又给学员看了两张根据同样数据所做的美国联邦政府的收入与消费支出比例图,整个美国地图代表联邦政府的收入,而阴影的部分则代表联邦政府的消费支出。前一张是美国一民间团体做的,他们认为联邦政府在浪费纳税人的钱,因为相当于美国西部好几个大州上缴的税收都被政府消耗掉了,阴影部分黑压压一大片。美国联邦政府立即做了另一张图予以反驳,图上只有一小片阴影,表达出的意思是:我们消耗的只相当于美国东北部几个小州上缴的税收。其实,美国东西部发展是不平衡,美国东北部州小而富裕,西部则州面积大却相对贫穷。两张图虽然数据相同,但由于表达方式不同,给人的感觉完全不一样,传达了完全不同的信息。
由此,我们可以清楚地发现:统计方法本身是科学的,但怎样使用却是艺术的。使用统计数字的技巧性很强,数据是死的,但表达方式是活的,有多种多样。“学会统计,可以使我们能更正确地解释数据,读懂各种统计报表,并洞悉其中的奥妙,用简单的逻辑推断出这个数字合不合理,不易被数字所迷惑,这样,我们才能作出正确的决策”,李庆琦教授总结道。
郎咸平能发现某些公众公司存在的问题,其实也可归因于他善用统计。显然,每一个经理人都应该把统计当作一门必修课。
本报记者唐蓓茗