为什么拜登的选票不符合本福特定律?
Richard Xu
数学等 3 个话题下的优秀回答者
致知计划 · 科学季收录
点击报名
806 人赞同了该文章
大概前天我就在朋友圈看到有朋友转发了Twitter上ID为@statsguyphd对选票是否作弊的质疑,这位仁兄拿密尔沃基(Milwaukee)478个区(ward)的选票结果去尝试了一下本福特定律(Benford's Law),发现拜登的得票数不符合这个定律,而特朗普则大致符合,如下图,灰色线是本福特定律给出的频率,橙色是特朗普,蓝色是拜登。
新闻报道可参见:
嚯,“本福特定律”都来了-观察者网
简单地说,本福特定律指的是,在数字自然增长的场景下,在一组数字当中,首位数字为1至9的频率应当逐渐下降,且首位数字为
的频率应当大致相当于
。严谨地说,判断一组数是否符合本福特定律应当用统计检验的方式(比如卡方检验),但是通常大家都是靠肉眼观察一下,看看是不是1最多然后其他的逐渐递减来做一个定性的判断。在上图中,显然拜登的选票数首位数字为4/5/6的频率明显高于预测,甚至超过了1的频率,因此被很多吃瓜群众认定“作弊实锤了”。
但问题在于,拜登的选票
应该符合本福特定律吗?让我从三个角度讨论这个问题:
(1)显然,并不是任意一组数字就得符合本福特定律。我在上面特别写到,本福特定律描述的是
数字自然增长的场景下的统计规律。
而选票的数量恰恰不符合这个要求:选票有上下限的问题(由每个区的注册选民数量和投票率决定),还有倾向的问题(选民愿意投民主党还是共和党),最终有多少选票并不是数字自然增长的结果。
就密尔沃基的情况而言,拜登获得了70%的选票,而特朗普只获得了30%的选票。投票选民数量的分布如下所示:
有很多个区的投票人数在500~1000人之间,在这些区拜登的选票数首位数字更有可能落在4~7的范围内,而相应地特朗普的选票数首位数字更有可能落在1~3的范围内;而拜登更有可能获得首位数字1~3的区,则是那些投票选民数在0~500人或者1500人以上的区。如此一来,拜登选票数的首位数字为何是那样的曲线就并没有什么奇怪的了。
那么有没有什么数字是自然增长的呢?当然有:在计票率较低的时候,点数票数这个过程就是自然增长的。下面这张图是另一位Twitter网友@推倒柏林墙 发的另一张“实锤”图,这位网友指出,在某个时间点密尔沃基突然计入了大量的选票(他称之为“整容”),“整容前”的首位数字是蓝色曲线,符合本福特定律,而“整容后”就变成了橙色曲线,不再符合本福特定律。
然而这张图恰恰论证了我的观点:在所谓“整容”前,密尔沃基州总的计票率只有30%左右(这位网友引用的是别人的数据,我去查了被引数据的Archive页面),数投票的过程恰恰就是数字会自然增长的场景,这时候符合本福特定律一点都不奇怪。而作为对比的“整容后”数字其实是最终投票结果,为什么橙线长成这样我想上面我已经解释过了。
(2)那么有人要问,为什么特朗普的选票首位数字就符合本福特定律呢?还有那些除了共和党和民主党之外的候选人,他们的选票首位数字也符合本福特定律啊?
这就回到我上面说的,首位数字为1的最多,然后依次递减,这是本福特定律的一个直观判断标准,但严谨的检验必须运用卡方检验。而@statsguyphd给出了这个检验的结果(p-value):
Biden 1.5076774999383611e-27
Trump 0.00048111250713426005
解读一下,如果这组数据真的应该符合本福特定律,那么拜登的选票数字为真的概率是1e-27,而特朗普的选票数字为真的概率是0.0005。
特朗普的概率竟然高出那么多,是不是说特朗普的选票是真的而拜登的是假的?
错!这只能说明,两者都不符合本福特定律而已,因为通常我们选择的概率阈值是5%,最多到1%。
那为什么除了拜登以外的候选人的数据看上去更符合一点呢?
不太算是巧合的一方面是,注册选民人数进而投票人数应该大体上是自然增长的,这应该有点关系;
而比较巧合的一方面是,特朗普的支持率恰好落在会让他的选票更像是本福特定律的区间。(这一点请继续阅读下一段的模拟结果)
至于其它独立候选人,他们的支持者真的是从零开始自然增长起来的(因为本来就没有那么大的民众基础),更像是本福特定律也不奇怪。
(3)最后,有些杠精可能会说,这些不过是你说说而已,你可以说没有作弊,我也可以说有作弊(而且杠精还会继续搬出本福特定律作为他们的“证据”)。
我给这些杠精准备了两份模拟结果:
模拟1:假设我们现在知道各个区注册选民数量,也知道整个州整体的投票概率(包括是否去投票的概率和如果投票选哪一位候选人的概率),我们应当“期望”最终的选票是什么样的?特别地,我们应当“期望”最终的选票的首位数字分布是什么样的?
我从密尔沃基官网上获取了每个州注册选民的数量(去掉了人数为0的三个区,和人数为2,只有1人投票的一个区,剩余474个区),然后根据今年大选结果确定了投票率(turnout ratio)为83.67%,而投票的民众投拜登的比例为69.13%。
现在,
假设我不知道任何一个区的真实投票结果,只用注册选民数量和这两个比例来进行模拟:对每个区,先用二项分布确定投票选民数量(服从B(# Registered Voter, 0.8367)的随机变量),再用二项分布确定投票给拜登的选民数量(服从B(# Ballots Casted, 0.6913)),最终的选票首位数字分布如下图:
作为对比,下图是真实的选票首位数字分布,两者都出现了相同的4/5/6反而更高的模式:
或者我们也可以简单粗暴一点,我们假设每个区的注册选民中
恰好就有相同比例的人去投拜登,这个比例取为q=83.67%*69.13%=57.84%,那么最终的选票首位数字分布是:
调整比例q,可以发现,当q=0.1和0.2时,选票数量将会符合本福特定律;当q=0.3时,峰值移动到首位数字2,而且随着q逐步增大,峰值继续向右移动,直到q=0.6时出现类似拜登真实选票的模式;然后,当q=0.7之后,又会突然翻转回到符合本福特定律的情形。(这就是我说的,特朗普的支持率恰好落在让他的选票数字更符合本福特定律的区间)
模拟2:本福特定律本身并不依赖于进制,即使换一个进制,数字自然增长的过程中一定也是先达到1再达到2,依此类推。我们不妨考察其它进制下拜登的选票数字:
这就奇怪了,难道拜登有没有作弊竟然取决于我们用什么进制来计数吗?
编辑于 11-08
统计
2020 年美国大选
乔·拜登
赞同 806170 条评论
分享
喜欢收藏
推荐阅读
170 条评论
切换为时间排序
写下你的评论...
发布
精选评论(2)
-
羊心求回复tikyc11-07
你就是看一下百度百科也能知道,本福特定律是适合任何进制的啊
90查看回复回复踩举报
-
知乎用户11-10
经过对美国4000多个郡投票人数的统计,我可以肯定地告诉你,选举投票是适合用本福特定律进行检测的。只要数字满足以下条件:1、数据量足够多,建议100个以上;2,数据跨度达三个量级以上,例如从个位、十位到万、十万。3、数据非人为生成。
- 为什么拜登的选票不符合本福特定律?