2018 (429)
2020 (127)
2022 (141)
我没有真相,也肯定这里谁都没有真相,不管你是相信有系统舞弊也好,不相信也好。作为一个外国人,本人也没兴趣去搞清这个真相,但看着城里两派(各有自己好友)越撕越裂,作为一个老城民于心不忍,想帮大家找到一个可以言说的common ground, 无论政治立场和价值观,大家都相信科学吧,那好,就帮大家用科学方法理一理思路。这个方法叫贝叶辛原理Bayesian Theorem, 是个以极简呈现智慧的统计学原理。
说到对概率意义的解释,有两大学派,一派是古典的frequentist 频率假说,其认为一个事件发生的概率是事件固有的特性,可以通过足够量的重复采样来获得;另一派来自18世纪中叶的数学家贝叶斯,贝叶辛假说认为概率是一种对可能性的主观判断,这个主观判断不是一成不变的,而是会随着认识的更新而修正。这其实不难想象,一件事,即使不熟悉,你对它发生的可能性会有一个‘’凭空‘’或先入为主的臆断,譬如去国外某地旅游,去之前,你对当地在该季节遭遇暴雨的可能性或许有个估摸 (譬如来自社媒印象)- 不太可能有暴雨,然后你去了那里,不幸地一星期里下了三天暴雨,无疑你会根据此体验对你的原先估摸作出修正,以后朋友这时候去那里玩你会忠告:备好雨具,很可能下暴雨。贝叶辛概率里,前面那主观而来的估摸叫先验概率,而后面经过实际体验修正的不妨叫后验概率,显然,后验概率要比先验概率更接近事实。
好了,回到大选舞弊的争论上来,我们的贝叶辛问题可以这样构建,设定两个概率事件,事件C为大选舞弊,事件S 为选民相信大选有舞弊,大选舞弊的先验概率记为P(C),根据美国历年的民主选举经验,应该很低,假定为1%。我们现在要计算- 当2020大选后出现选民相信大选有舞弊(S)这个条件下,大选果真舞弊的后验概率,记为P(C/S),并与P(C)相比,如果超出很多,应该真的有所警惕,如果两者非常接近,多半不必过虑。这听起来或许有些玄乎,道理是这样的,对于有否舞弊,每个选民个人,几乎可以肯定难有确凿全面的证据,但每个人会根据自己投票的经历,观察到或听闻来的现象,作出一定逻辑推断,上亿理性选民的观察和判断集成起来,当可形成一个较强的依据。问题是上亿选民你不可能一个个问过来,这就用到了统计和抽样调查。有没有这样的抽样调查呢,我记得是有的,好像2020大选后共和党选民里有60-70%相信舞弊存在,民主党里自然绝大部分不相信,有兴趣者可以帮我核对。相信舞弊这件事,即S),包括两种可能,确实舞弊了你相信得没错,没有舞弊你误信了,前者概率记为P(S/C),后者为P(S/!C)(注:! 代表否定,/代表在什么条件下。)
不妨让我们根据抽样调查结果,在合理范围内估摸一下两者的概率,P(S/C)在共和党选民里应该很高,姑且算90%吧,鉴于两党选民严重分裂,民主党选民应该较难采信,算20%;P(S/!C) ,同样鉴于目前两党选民极度分裂的现状,在共和党选民里姑且算30%,在民主党选民里应该接近没有,算1%。对于选民总体,概率值应该是两者按选民比率的加权平均(就算对半开好了)。
由此根据贝叶辛公式
? P(C/S) = P(S/C) × P(C) ÷ [ P(S/C) × P(C) + P(S/!C) × [ 1 - P(C) ] ]
代入以上经过两党加权平均的各值,可以算得2020大选后根据选民对舞弊的怀疑而修正的舞弊发生的概率 P(C/S) 为 3.46% 。
显然上面取值有很多估摸,你尽可以按自己认定更接近现实的值来代入计算,当然结果也会和上面不同。那如何来合理理解计算的结果?前面说了要和先验概率(1%)比较,拿上面算值为例,3.46%本值也是一个很小的概率,要加以忽视也是说得过去的,但是,它是先验概率1% 的近3.5倍,对于一个性质当为小概率的事件,概率增加3.5倍当足以引起人们警惕。
再次强调,以上计算只是个示范例子,你按自己的认知对? P(C), P(S/C)和P(S/!C) 取不同的值代入计算,结果会相当不同。本帖开首就说了,贝叶斯不会给出真相,他不是上帝,但贝叶辛原理让我们可以在信息极度有限和混乱的情况下,对自己的思路作出尽量理性的梳理,不盲从,不夸大其词,不掉以轻心。
最后提一下,觉得与其用两党铁杆选民当主体来算,不如用中间派当主体来算更有效,如果有数据的话。虽然他们人数不一定多,但他们的态度变化来的更加说明问题。
69,000,000 +++ 74,000,000 +++ 81,000,000
873 Counties +++ 2497 Counties +++ 477 Counties
18/19 Bellwethers +++ 18/19 Bellwethers +++ 1/19 Bellwethers
Win FL, OH, IOWA +++ Win FL, OH, IOWA +++ Lose FL, OH, IOWA
Win House Seats +++ Win House Seats +++ Lose House Seats
网上转来的, 想听听有何解释:
今天满怀着信心准备看完参众两院的辩论期待结果,谁知才进行到AZ的辩论一半,意外就发生了,很失望。。。
我这人最不喜欢的就是听的就是“人家都怎么怎么了。。。。你还不信?” “法院都怎么怎么了。。。你比法院还厉害?” “这么多人都说什么什么了。。。你别固执了”。我这人就是这么固执和执着,因为我脑袋上长了一个角(不是说着玩儿的,曾经害怕做了一个CT检查,脑门上多长一块骨头医生说没事儿,所以一直要有刘海当着)。昨天看文昭的推特,他问我们个人对这次大选的看法,下面是我的答复。
我坚信老川这次大选是赢的,为什么?因为我相信统计学。一个赢了3个风向标的州和18/19(95%)风向标的县的候选人,却输了大选,统计学上解释不通。大选的根基就是data. 为了证明老川团队的宣传没作假,也验证一些数学家统计学家的分析,为此,今天在看新闻的同时我把“风向标”县的问题自己做了一番研究。
我使用的数据是来源于今天的维基百科. 如果分析得不对,请大家指出讨论。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。
我使用的数据是来源于今天的维基百科. 如果分析得不对,请大家指出讨论。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。
首先,我们要在同一个起跑线上上,让我们看看定义。什么叫风向标县?
打个比喻,一个大的学校,你的高三年级有3000名学生参加高考,这3000个学生中,有80名成绩非常好,其中18个是超级棒的学生,每次考试他们都是先后名列前茅总是top 1%之内,他们的答案几乎可以当作标准答案。还有62名学生成绩非常优异,他们的答案也可以当作标准答案参考。
我把1988年以来维基百科提到的所有风向标县以及它们所在的州列表出来。还有自1980年来(包含2020年),所有有2次县选举结果最终不同于Electoral College (EC) vote的县也列在表里。总共105个县involved (out of 3141 counties (3.34%)涉及到27个州. 提及到2020年大选的共有80个县(19个州)。在这80个县中,18个县是在过去44-72年来第一次支持了一个“失败”的候选人(backing a losing candidate, as of today, referrs to Trump)。 在其余的62个县中,这62个县自1980年来(40年历史)共有2次选举不同于它们州的EC vote (Deviation)(其中有一次包括2020年)。也就是说它们州确认了JB, 但是这些县支持的是DT。这62个县中,41个县所在的州认证JB(该县实际投给了DT), 21个县所在的州认证DT(该县投给了JB)。所以说整个80个县中,59个县(74%)犯下了几十年来第一次或第二次错误? 这说明了什么? Made a sense to you? Not at all to me.
回到刚才高考的比喻,这等于说是最终考试结果出来了,这18个优等学生考试全部砸锅,另外62个上等生也考了很低的分数,结果这80个学生全部不能录取,这样的概率,可能吗?我的答案:不可能!随便你怎么辩解很难说服我,除非你告诉我考卷被调包了,偷梁换柱了这能解释得通。至于如何调包的,恕我无能力去侦破,但是我知道老川这次大选赢是个大概率事件。我相信数据产生信息,信息带给我们知识这个过程 (Data --> Information --> Knowledge),这是个颠簸不破的真理。
OBAMA TRUMP BIDEN
69,000,000 74,000,000 81,000,000
873 Counties 2497 Counties 477 Counties
18/19 Bellwethers 18/19 Bellwethers 1/19 Bellwethers
Win FL, OH, IOWA Win FL, OH, IOWA Lose FL,OH, IOWA
Win House Seats Win House Seats Lose House Seats
实际上,并不需要上百万选票作弊才能改变选举结果。
只需要在四个摇摆州里不到八万张选票作弊就能改变选举结果。
2020年选举,选举人团票数:拜登 306,川普 232。
亚利桑那州,拜登得 1,672,143 票,川普得 1,661,686 票。拜登的票里只要有 10,458 张假票就足以改变选举结果,得 11 张选举人团票。
佐治亚州,拜登得 2,473,633 票,川普得 2,461,854 票。拜登的票里只要有 11,780 张假票就足以改变选举结果,得 16 张选举人团票。
内华达州,拜登得 703,486 票,川普得 669,890 票。拜登的票里只要有 33,597 张假票就足以改变选举结果,得 6 张选举人团票。
威斯康辛州,拜登得 1,630,866 票,川普得 1,610,184 票。拜登的票里只要有 20,683 张假票就足以改变选举结果,得 10 张选举人团票。
加起来,在四个摇摆州里,拜登的票里只要有 76,518 张假票,就足以改变这四州选举结果,得到 43 张选举人团票。
也就是说,在四个摇摆州里,拜登的票里只要有 76,518 张假票,就足以在选举人团把拜登 (263 : 275) 输的结果,变成拜登 (306 : 232) 赢的结果。
所以, 您文中的公式只有一种情况下才能成立, 美国大选舞弊的随机变量是多少? 比方说, 邮寄投票的欺骗数据是多少, 或者各地选票统计误差是多少, 假设, 统计证明在过去 50 年里, 美国大选的邮寄选票误差超过 10%, 那么, 你可以把这个变量作为贝叶斯推断的前提来计算舞弊可能性.
你弄错了变量.
至少要上百万选票作弊才能改变选举结果。即使每个作弊被发现的可能性只有万分之一,100万作弊选票不被发现的可能性是1亿亿亿亿亿分之37,一共44个零。
事实是2020年选举,共和党百万悬赏,只发现两张作弊选票,还都是trump支持者作弊投票trump,所以trump作弊的可能性要比biden作弊的可能性要大整整一亿倍。
如果严格套用贝叶辛原理,如果三个人说街上有老虎,那么,根据贝叶辛公式,街上有老虎的概率是不是会从0%增加到3%?
(不是抬杠,只是好奇。)