彩票理论研究大作战

对于我这种生性懒惰,却又成天想着养家糊口讨老婆的人,自然不能放过任何可以发一票的机会。虽然我国法律明令禁止一切赌博活动,但还是有伟大的中国福利彩票,于是我一心抱着为公益事业做贡献的想法,偶尔也去买两张。一不小心看到有讲彩票理论的文章,惊叹不已,总结了一下。如果压根不知道彩票怎么玩的,请看最大路的双色球规则。

直接颠覆概率论

不要选择过去已经中出过的大奖号码;不要把一组号码(6–7个)都选择在同一个分区中(按照四或六分区计算);不要选择数字相连的一组号码,例如:1–7或2–8等等;不要选择模式化的号码,例如,完全按照斜线、直线或横线排列;不要选择成倍数型的号码。例如:05、10、15、20、25、30、35等等;不要选择完全奇数或完全偶数的号码

任何学过概率的人都会觉得这很荒谬,中过奖的号码和没中奖的号码下次出现的概率不还是一样么,特殊分布的号码和看起来没什么规律的组合出现的概率也是一样的,这个错的太离谱,too naive

另有一种很常见的彩票理论是统计每个号码遗漏的次数,即有连续几期摇出的中奖号码里没有这个数字,那这个数字就是下一期的热门候选。基于这个思想,演变出各种神奇的规则。这个想法有一定道理,符合大数定律的原理,可惜大数定律的条件是试验次数趋向无穷大,在我们凡人的彩票摇奖试验里是不能适用的。

阴谋论

阴谋论基于假设:一切摇奖过程都是控制在主办方手中的,他们想摇出什么号码就出什么号码。电脑摇奖作弊简单自不必提,那种彩球的摇奖机(如图)呢,在球里有RFID芯片,路过阀门的时候阀门就读出是几号球,如果是想要的就在1ms内啾的打开让球出去……

如果中奖号码可以任意决定,那控制者会倾向于选出当期被彩民选中最少的号码作为中奖号码,同时也有可能为了故意混淆视听选出有人中大奖的号码,但不论怎样彩民预测主办方会选什么号码的难度实在太大,我没兴趣继续研究了。当然没兴趣的主要原因是我根本不相信这种阴毛论,所以让我们直接进到下一种,听着还有点靠谱的说法。

最大似然法

当然这个名字是我乱取的,因为这个方法就是从摇奖历史似然估计出先验概率。原理很简单,比如双色球,我们先只考虑红球,共33个,每期从中摇出6个,那么每个球被摇出的概率是 1-C(32,6)/C(33,6)=0.18181818…… 但这是在理想环境下,现实中,由于每个球的材质做工上的差异,比如上面涂了数字1的球可能比33号球少了一点涂料的分量?或者有的球比别的球更光滑一点?这些细微的差异导致有些球比其他球更容易被摇出,我们只要选择更多的被摇出过的球,就能获得概率上的(微弱)优势。听上去还蛮有道理的,那接下来让我们实证一下吧!

利用我的小小爬虫,我得到了双色球从03年至今的每期中奖号码,先从最近的2010年看起,一年一共摇奖了153次,根据概率18.18%,平均每个球应该出现27.8次,现在按照实际出现次数排序得到(第一行球的号码,第二行出现次数):

排在前面的几个球竟然超过平均次数这么多,那么这种情况和时间有没有关系呢,接下来我从153组结果里随机抽取一半即76组,同样按每个号码出现次数排序,重复十次实验,结果如下(只截取了每次排名靠前的号码):

可见强者恒强,1号8号之流排名都还是靠前的。做30次这样的实验,统计一下30次里各个号码排名位于前11名的次数:

偏置还是很明显的,1号和8号跨越时空的几乎全中,如果在你的号码组合里有这两个数字,那去年的中奖率一定大大提升了。再看看09年,这里只贴随机抽取10次的实验结果了:

仍然看得到15号,30号这种榜上常客。这应该就是所谓的“热门号码”了吧。

同时我发现,每一年的上半年的热门号码,大约会有1/3延续到下半年,进而成为全年的热门,没有延续的可能就是因为运气好而在上半年成为热门而已;去年下半年的热门号码,基本在下一年没有得到任何延续,可能是因为福彩中心每年换一次摇奖设备导致?我不确定,以上的实验过程并不严密,我困了,就先做到这里咯,起码下次买彩票选号应该有方向了吧。