美国大选几经反转,终于尘埃落定,拜登现在以290票击败232票的特朗普,将成为下一任美国总统。然而拜登选举敲诈的听说也甚嚣尘上,最初拜登选票造假的质疑基于本福特定律,厥后陆续有重复计票等新闻传出。本福特定律是宇宙中许多数据都适用的纪律,虽不能作为直接证据,但常被用于探测数据造假。本文先容了本福特定律,而且应用到区块链行业,找出满足本福特定律的数据指标,并从本福特定律的视角考察链上数据的合理性。
一、本福特定律:普遍存在的数据纪律
1. 普遍存在的自然纪律
就像牛顿因苹果落地发现了万有引力定律,西蒙·纽康和弗兰克·本福特因翻对数表发现了本福特定律。凭据本福特定律,对于许多数据样本,第一位数字是1的概率远远大于其他数字,而且数字越大,泛起的概率越小。详细而言,对于最常用的10进制数字,首位数字泛起的概率如下:
人口、GDP、面积等数据被验证相符本福特定律,甚至斐波那锲数组、放射性元素半衰期等绝对自然的数据也满足本福特定律。但本福特定律是一个经验性的自然纪律,没有严酷的证实推导。通常来讲,本福特定律的适用条件如下:
样本数目和数目级跨度尽可能大。如跨度小的身高数据不适用,但实践解释,对一些较小样本数据也适用;
数据不能有人为操控的痕迹。人为划定的数字如电话号码、邮编等不满足本福特定律。当数据被人为窜改后,很可能不相符本福特定律,也正因此,本福特定律可以被用来探测数据造假;
对于随着时间呈指数型增进的数据,本福特定律一定契合。这一点是可以从数学上严酷证实的,在b进制中数字n泛起的概率即。这类数据的特点是早期增进迟缓,厥后增进得越来越快;数据自己有自己的漫衍纪律则很可能不相符本福特定律。如收益率不满足本福特定律。
人口、GDP、营业收入、播放量、交易量等数据由于规模效应或者网络效应,早期从1到2很艰难,但发展到一定规模后,从8增进到9相对容易,所以在较小数字停留时间长,在较大数字停留时间短,最终数字首位漫衍出现出本福特定律。
2. 用于探测数据造假
本福特定律常用于探测数据造假,尤其是财政数据中。2003年美国华盛顿州诈骗案中,最初是会计师Darrell Dorrell用本福特定律发现了支票汇款数据的不合理性,通过进一步考察发现了涉案金额高达1亿美元的诈骗。无独有偶,安然公司2000-2001年的每股盈利也与本福特定律相去甚远。事实上,自20天下70年代以来,本福特定律被普遍用于挖掘会计敲诈性行为。
除了金融财政领域,本福特定律也被用于其他领域的数据,如2009年的伊朗大选、希腊政府的宏观经济数据、公共计划经济数据,比尔·克林顿的纳税申报数据……
但值得注意的是,本福特定律不能作为呈堂供证,只能作为数据造假的推测,需要后续的取证考察。即使是在华盛顿州诈骗案这一乐成应用案例中,会计师Darrell用本福特定律的磨练只是最先,历经多方起劲和3年的搜证才将主犯凯文·劳伦斯(Kevin Lawrence)送进牢狱,判处20年徒刑。加之,本福特定律在某些领域的适用性存在争议,如哈佛大学一份研究解释本福特定律不适用于选票数据。基于以上缘故原由,网友对拜登选票举行本福特定律磨练,在适用性和说服力上存在问题,不能作为选票造假的直接有力证据。
二、本福特定律在区块链领域的应用
,,菜包钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜包Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。
上文讲述了本福特定律的一样平常性应用,下文立足于区块链行业,挖掘哪些指标满足本福特定律,并连系区块链手艺的特征探讨链上数据的合理性。
1. 区块链行业中适用本福特定律的数据
由前文可知,一些宏观数据如人口、GDP、面积等相符本福特定律。在区块链行业,区块链专利数目、企业数目等宏观数据也满足本福特定律。下图展示了2020年至今各省市的区块链专利数目和Wind全球企业库中的区块链企业数目,其首位漫衍均较相符本福特定律。
除此之外,区块链行业中的财政数据也是本福特定律的典型适用场景,下文的数据来自区块链指数成分股。
2. 从本福特定律视角看链上数据的合理性
区块链手艺自己具有漫衍式和数据透明的特点,有利于数据的多方监视,数据的不能窜改性也增加了数据造假的成本,敲诈行为会永久留痕,因此区块链手艺可以有用抑制数据造假。现在,区块链已在金融、公益等多个领域应用落地,辅助解决数据造假的痛点。
本文先考察了成交额数据的一样平常特征,再对比了相似体量的基于区块链和不基于区块链的平台数据。首先,在考察了样本量为100多,1000多,2000多的交易平台数据后,发现成交额十分相符本福特定律,而且样本越大数据越靠近本福特定律理论值。接下来,从基于区块链的一个交易平台获取成交额数据,整理114个有用样本并对照其首位数字漫衍和本福特定律理论值,考察发现链上成交额与本福特定律较吻合,除了数字8。为了对比,选取了一个不基于区块链手艺的相似体量的交易平台,有用样本数为195,但其成交额在6和7偏高。考虑到链上数据样本量的劣势和整体情形的吻合,仅从本福特定律出发,基于区块链的成交额数据更为合理。
公益项目水滴筹自称是基于大数据和区块链的应用,下文以官网宣布的122名失约筹款人黑名单为例,从本福特定律的视角探讨区块链手艺链上数据的真实性。凭据前文讨论,手机号、身份证号等人为划定的数据不相符本福特定律,于是研究工具定为2017年至今每月失约人数目,效果如下。
受制于样本数目,失约职员数目首位漫衍未完全吻合本福特定律,但大要出现数字越大泛起概率越低的趋势。
三、结语
虽未获得严酷证实,但大量实践磨练解释本福特定律是普遍存在的有趣数据纪律,被用于挖掘数据造假,尤其是财政数据中。此次美国大选中拜登选票不相符本福特定律的问题在数据适用性和说服力上存在问题,因此不能作为推翻选举效果的有力证据。正如本文一再强调的,本福特定律仅仅是发现可疑性的方式,而非足够证据,只是数据打假的起点而非终点。