个人资料
  • 博客访问:
正文

用科学的方法看待2020大选舞弊之争

(2024-10-08 12:01:45) 下一个

我没有真相,也肯定这里谁都没有真相,不管你是相信有系统舞弊也好,不相信也好。作为一个外国人,本人也没兴趣去搞清这个真相,但看着城里两派(各有自己好友)越撕越裂,作为一个老城民于心不忍,想帮大家找到一个可以言说的common ground, 无论政治立场和价值观,大家都相信科学吧,那好,就帮大家用科学方法理一理思路。这个方法叫贝叶辛原理Bayesian Theorem, 是个以极简呈现智慧的统计学原理

说到对概率意义的解释,有两大学派,一派是古典的frequentist 频率假说,其认为一个事件发生的概率是事件固有的特性,可以通过足够量的重复采样来获得;另一派来自18世纪中叶的数学家贝叶斯,贝叶辛假说认为概率是一种对可能性的主观判断,这个主观判断不是一成不变的,而是会随着认识的更新而修正。这其实不难想象,一件事,即使不熟悉,你对它发生的可能性会有一个‘’凭空‘’或先入为主的臆断,譬如去国外某地旅游,去之前,你对当地在该季节遭遇暴雨的可能性或许有个估摸 (譬如来自社媒印象)- 不太可能有暴雨,然后你去了那里,不幸地一星期里下了三天暴雨,无疑你会根据此体验对你的原先估摸作出修正,以后朋友这时候去那里玩你会忠告:备好雨具,很可能下暴雨。贝叶辛概率里,前面那主观而来的估摸叫先验概率,而后面经过实际体验修正的不妨叫后验概率,显然,后验概率要比先验概率更接近事实

好了,回到大选舞弊的争论上来,我们的贝叶辛问题可以这样构建设定两个概率事件,事件C为大选舞弊,事件S 为选民相信大选有舞弊,大选舞弊的先验概率记为P(C),根据美国历年的民主选举经验,应该很低,假定为1%。我们现在要计算- 当2020大选后出现选民相信大选有舞弊(S)这个条件下,大选果真舞弊的后验概率,记为P(C/S)并与P(C)相比,如果超出很多,应该真的有所警惕,如果两者非常接近,多半不必过虑。这听起来或许有些玄乎,道理是这样的,对于有否舞弊,每个选民个人,几乎可以肯定难有确凿全面的证据,但每个人会根据自己投票的经历,观察到或听闻来的现象,作出一定逻辑推断,上亿理性选民的观察和判断集成起来,当可形成一个较强的依据。问题是上亿选民你不可能一个个问过来,这就用到了统计和抽样调查。有没有这样的抽样调查呢,我记得是有的,好像2020大选后共和党选民里有60-70%相信舞弊存在,民主党里自然绝大部分不相信,有兴趣者可以帮我核对。相信舞弊这件事,即S),包括两种可能,确实舞弊了你相信得没错,没有舞弊你误信了,前者概率记为P(S/C),后者为P(S/!C)(注:! 代表否定,/代表在什么条件下。)

不妨让我们根据抽样调查结果,在合理范围内估摸一下两者的概率,P(S/C)在共和党选民里应该很高,姑且算90%吧,鉴于两党选民严重分裂,民主党选民应该较难采信,算20%;P(S/!C) ,同样鉴于目前两党选民极度分裂的现状,在共和党选民里姑且算30%,在民主党选民里应该接近没有,算1%。对于选民总体,概率值应该是两者按选民比率的加权平均(就算对半开好了)。

由此根据贝叶辛公式

? P(C/S) = P(S/C) × P(C) ÷ [ P(S/C) × P(C) + P(S/!C) × [ 1 - P(C) ] ]

代入以上经过两党加权平均的各值,可以算得2020大选后根据选民对舞弊的怀疑而修正的舞弊发生的概率 P(C/S) 为 3.46% 。

显然上面取值有很多估摸,你尽可以按自己认定更接近现实的值来代入计算,当然结果也会和上面不同。那如何来合理理解计算的结果?前面说了要和先验概率(1%)比较,拿上面算值为例,3.46%本值也是一个很小的概率,要加以忽视也是说得过去的,但是,它是先验概率1% 的近3.5倍,对于一个性质当为小概率的事件,概率增加3.5倍当足以引起人们警惕

再次强调,以上计算只是个示范例子,你按自己的认知对? P(C), P(S/C)和P(S/!C) 取不同的值代入计算,结果会相当不同。本帖开首就说了,贝叶斯不会给出真相,他不是上帝,但贝叶辛原理让我们可以在信息极度有限和混乱的情况下,对自己的思路作出尽量理性的梳理,不盲从,不夸大其词,不掉以轻心

最后提一下,觉得与其用两党铁杆选民当主体来算,不如用中间派当主体来算更有效,如果有数据的话。虽然他们人数不一定多,但他们的态度变化来的更加说明问题。

 

[ 打印 ]
阅读 ()评论 (16)
评论
老键 回复 悄悄话 忽然想到要在回武胜网友里要加一句:老键作为一个相当中立的个体,可以看作是被有理有据有节的论述较大程度转化信念的一个个案,我这全是在贝叶辛框架里的叙事,不牵扯政治。
老键 回复 悄悄话 回复 '武胜' 的评论 : 同意,所以我包括并区分了两党选民,试图稍加平衡。也谢你支持用中间选民来分析的想法,你如有数据,不妨一试。
老键 回复 悄悄话 回复 'kflin' 的评论 : 谢谢转这个分析,如我答前面新林院网友,我不在这里介入具体分析,但我要说像这样有理有据有节的陈述方式,是会让其内容被传播和被人吸收的,我相信事实上这已经发生了,你的转载就是一个例子。而这,会影响贝叶辛的后验概率。
老键 回复 悄悄话 回复 '新林院' 的评论 : 谢谢你提供的理论和分析。我先不过度介入,但要提一下的是,这和贝叶辛分析间接有关,说间接是因为贝叶辛并不关心某特定内容,理论也好数据也好,但是,其有理性和说服度影响观察者(选民)的信念转化,这却是和贝叶辛有关的。在回答其他网友评论时我多次强调,(1)贝叶辛是基于事件观察者或经历者而不是事件本身,(2)观察者的有限理性是贝叶辛之所以有用的大前提。就事论事,两党选民间有相互攻击对方没理性,但平心而论大家都不是疯子,虽然他们的信念不一定客观(偏向于所选党的价值观),在大选舞弊争论中,有惊人的指责,也有理性的陈述和分析,它们对大众的说服度是不同的,因而对他们的后验转化也不同。
kflin 回复 悄悄话 OBAMA +++ TRUMP +++ BIDEN
69,000,000 +++ 74,000,000 +++ 81,000,000

873 Counties +++ 2497 Counties +++ 477 Counties

18/19 Bellwethers +++ 18/19 Bellwethers +++ 1/19 Bellwethers

Win FL, OH, IOWA +++ Win FL, OH, IOWA +++ Lose FL, OH, IOWA

Win House Seats +++ Win House Seats +++ Lose House Seats
武胜 回复 悄悄话 贝叶斯定理基于条件概率,即事件的关联性。选民认知与选票舞弊真实性的关联取决于舆论传播。在对立严重的环境下,舆论的公正性大打折扣。选民能听到的几乎都是极化的信息,以之为统计基础来试图接近真实,恐怕事与愿违。同意中间选民当主体来统计更有效,他们比较兼听则明。
kflin 回复 悄悄话
网上转来的, 想听听有何解释:

今天满怀着信心准备看完参众两院的辩论期待结果,谁知才进行到AZ的辩论一半,意外就发生了,很失望。。。


我这人最不喜欢的就是听的就是“人家都怎么怎么了。。。。你还不信?” “法院都怎么怎么了。。。你比法院还厉害?” “这么多人都说什么什么了。。。你别固执了”。我这人就是这么固执和执着,因为我脑袋上长了一个角(不是说着玩儿的,曾经害怕做了一个CT检查,脑门上多长一块骨头医生说没事儿,所以一直要有刘海当着)。昨天看文昭的推特,他问我们个人对这次大选的看法,下面是我的答复。

我坚信老川这次大选是赢的,为什么?因为我相信统计学。一个赢了3个风向标的州和18/19(95%)风向标的县的候选人,却输了大选,统计学上解释不通。大选的根基就是data. 为了证明老川团队的宣传没作假,也验证一些数学家统计学家的分析,为此,今天在看新闻的同时我把“风向标”县的问题自己做了一番研究。

我使用的数据是来源于今天的维基百科. 如果分析得不对,请大家指出讨论。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。

我使用的数据是来源于今天的维基百科. 如果分析得不对,请大家指出讨论。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。

首先,我们要在同一个起跑线上上,让我们看看定义。什么叫风向标县?

打个比喻,一个大的学校,你的高三年级有3000名学生参加高考,这3000个学生中,有80名成绩非常好,其中18个是超级棒的学生,每次考试他们都是先后名列前茅总是top 1%之内,他们的答案几乎可以当作标准答案。还有62名学生成绩非常优异,他们的答案也可以当作标准答案参考。


我把1988年以来维基百科提到的所有风向标县以及它们所在的州列表出来。还有自1980年来(包含2020年),所有有2次县选举结果最终不同于Electoral College (EC) vote的县也列在表里。总共105个县involved (out of 3141 counties (3.34%)涉及到27个州. 提及到2020年大选的共有80个县(19个州)。在这80个县中,18个县是在过去44-72年来第一次支持了一个“失败”的候选人(backing a losing candidate, as of today, referrs to Trump)。 在其余的62个县中,这62个县自1980年来(40年历史)共有2次选举不同于它们州的EC vote (Deviation)(其中有一次包括2020年)。也就是说它们州确认了JB, 但是这些县支持的是DT。这62个县中,41个县所在的州认证JB(该县实际投给了DT), 21个县所在的州认证DT(该县投给了JB)。所以说整个80个县中,59个县(74%)犯下了几十年来第一次或第二次错误? 这说明了什么? Made a sense to you? Not at all to me.


回到刚才高考的比喻,这等于说是最终考试结果出来了,这18个优等学生考试全部砸锅,另外62个上等生也考了很低的分数,结果这80个学生全部不能录取,这样的概率,可能吗?我的答案:不可能!随便你怎么辩解很难说服我,除非你告诉我考卷被调包了,偷梁换柱了这能解释得通。至于如何调包的,恕我无能力去侦破,但是我知道老川这次大选赢是个大概率事件。我相信数据产生信息,信息带给我们知识这个过程 (Data --> Information --> Knowledge),这是个颠簸不破的真理。


OBAMA TRUMP BIDEN
69,000,000 74,000,000 81,000,000

873 Counties 2497 Counties 477 Counties

18/19 Bellwethers 18/19 Bellwethers 1/19 Bellwethers

Win FL, OH, IOWA Win FL, OH, IOWA Lose FL,OH, IOWA

Win House Seats Win House Seats Lose House Seats


新林院 回复 悄悄话 东方明月【至少要上百万选票作弊才能改变选举结果。】
实际上,并不需要上百万选票作弊才能改变选举结果。
只需要在四个摇摆州里不到八万张选票作弊就能改变选举结果。
2020年选举,选举人团票数:拜登 306,川普 232。
亚利桑那州,拜登得 1,672,143 票,川普得 1,661,686 票。拜登的票里只要有 10,458 张假票就足以改变选举结果,得 11 张选举人团票。
佐治亚州,拜登得 2,473,633 票,川普得 2,461,854 票。拜登的票里只要有 11,780 张假票就足以改变选举结果,得 16 张选举人团票。
内华达州,拜登得 703,486 票,川普得 669,890 票。拜登的票里只要有 33,597 张假票就足以改变选举结果,得 6 张选举人团票。
威斯康辛州,拜登得 1,630,866 票,川普得 1,610,184 票。拜登的票里只要有 20,683 张假票就足以改变选举结果,得 10 张选举人团票。
加起来,在四个摇摆州里,拜登的票里只要有 76,518 张假票,就足以改变这四州选举结果,得到 43 张选举人团票。
也就是说,在四个摇摆州里,拜登的票里只要有 76,518 张假票,就足以在选举人团把拜登 (263 : 275) 输的结果,变成拜登 (306 : 232) 赢的结果。

老键 回复 悄悄话 回复 '镜子里的猴儿' 的评论 : 你有正解也有误解,根本纠结其实和这里的其他评论者相同,还没有跳出古典概率的框缚。我不是说古典概率有什么错,而是它不适应于探讨这个问题。古典概率是基于事件-大选舞弊,作为一个随机变量它在特点环境下服从特定的分布,通过不断采样你可以获得对其分布各参数的估值,这是没错的,问题是你做不了,除非你有FBI的权力。另外也偏离了我们讨论的话题,选民对大选舞弊的争论。贝叶辛概率是基于事件的观察者- 选民,而不是事件本身,贝叶辛对事件本身是相当粗疏和不重视的,就是估算个先验概率,也不讲求它背后的分布函数。贝叶辛着重于观察者信仰念belief在事件发生前后的变化,并且根据这些belief的变化,来推断事件发生的可能性。可以这样做的前提是,观察者-选民是有限理性的,他们个体可以有各种偏差,被价值观影响,受党派调制,但对各自的经历都有一定理性的认知反应。所以,说你有正解,是因为我在贝叶辛框架里确实只着重观察者的“期待”,更准确说“信念”的变化,说你误解,是因为观察者的信念和信念的变化并非空穴来风,而是他们对事件经历的理性反应,我无法深入事件,但我至少可以接触人们对事件的反应,从而估算事件发生的可能性
老键 回复 悄悄话 回复 'chenmo520' 的评论 : 你当然可以这么去想,但你只是一个人,即使把所有民主党支持者合起来也就一半人。还有起码一半人与你的想法很不同。你认为他们是疯子是希特勒显然是一种情绪,其实大家都是有限理性人,也就是说大家都有理性思维的能力但又受党派价值观的调制。作为一个中立观察者我对所有的人都一视同仁,我无意,不该,也不必去搞清谁,或谁比谁更多,掌握真理或真相,或谁比谁更理性,在贝叶辛框架了这个纠结根本不存在,这是和古典概率最不同的地方,我不苦恼于去发现舞弊有无或舞弊本身的几率几何,而是观察选民的反应,把他们当作取样分析器,他们个体也许理性有限存在各种各样偏差,但合起来肯定是不错的。我贴里对贝叶斯的运用是一种极简,因为稍微复杂一些就无法用纸笔来计算了,但我将两党选民分开估值就是一种额外的平衡企图,而不是只看一党的反应。
镜子里的猴儿 回复 悄悄话 您对于贝叶斯的分布推断理解有误,. 因为您给与的假设前提不对, 贝叶斯的分布推断条件是观察数据的概率模式, 观察数据应该是随机变量, 而不是期待值. 一个人出门捡到钱包的贝叶斯分布推断前提是过去10年行人在此地丢失钱包的概率, 而不是男女行人对于在此捡到钱包的期待值. 同样, 你把共和党和民主党员对于投票舞弊的相信程度作为贝叶斯的分布推断和行人对于捡到钱包的期待值的谬误同样荒谬, 因为共和民主两党党员对于舞弊的期待值不是舞弊发生的必要条件.

所以, 您文中的公式只有一种情况下才能成立, 美国大选舞弊的随机变量是多少? 比方说, 邮寄投票的欺骗数据是多少, 或者各地选票统计误差是多少, 假设, 统计证明在过去 50 年里, 美国大选的邮寄选票误差超过 10%, 那么, 你可以把这个变量作为贝叶斯推断的前提来计算舞弊可能性.

你弄错了变量.
chenmo520 回复 悄悄话 共和党的后验概率并未得到验证。事实上,在过去的四年里,官司一个也没有打赢。因此丢了一些粉丝,包括我。所以他们采用了希特勒的助手的做法:谎言重复一万遍就成了真理。 因此,贝叶斯概率中的后验一定是得到验证的:雨真的下了。此处不成立。
老键 回复 悄悄话 回复 '东方明月-' 的评论 : 没错,你这是古典概率的范畴。贝叶辛是说,即使只有一个始作俑者真作弊了,但既然人群里已有怀疑传开,他的罪行可能已经这样那样有所暴露,贝叶辛不是去追求真相 - 这人是谁,有多严重,而只是根据人们的反应重新估算作弊的可能性。古典概率如你所说对此一筹莫展
老键 回复 悄悄话 回复 '新林院' 的评论 : 贝叶幸原理是基于理性人的,如果理性人说街上有虎,一定有些原因,即使没虎也有个超大的猫或豹子什么
东方明月- 回复 悄悄话 概率论最简单的方法就是:
至少要上百万选票作弊才能改变选举结果。即使每个作弊被发现的可能性只有万分之一,100万作弊选票不被发现的可能性是1亿亿亿亿亿分之37,一共44个零。
事实是2020年选举,共和党百万悬赏,只发现两张作弊选票,还都是trump支持者作弊投票trump,所以trump作弊的可能性要比biden作弊的可能性要大整整一亿倍。
新林院 回复 悄悄话 能不能用贝叶辛原理分析一下“三人成虎”(Evidence by Citation)?
如果严格套用贝叶辛原理,如果三个人说街上有老虎,那么,根据贝叶辛公式,街上有老虎的概率是不是会从0%增加到3%?
(不是抬杠,只是好奇。)

登录后才可评论.