标签归档:全量数据

用大数据来看看我们的百家姓

大数据不解释了,解释我也解(bu)释(dong)不明白,我的理解就是数据量够大,现在我收集了3亿这样一个量级的人名、所在地等字段的数据,听起来还算是比较大了吧,今天只拿来验证一下我们举全国之力人口普查得来的百家姓排名结果,或者说拿人口普查的结果验证一下我收集的数据是不是全面吧。
全国最近一次人口大普查2010年11月1日凌晨结束,据官方公开数据显示:全国总人口13亿7千万,百家姓前十就占了5.5亿人口,前十分别是:李,9530万,占总人口7.94%;王,8899万,占总人口7.41%;张,8480万,占总人口7.07%;刘,6460万,占总人口5.38%;陈,5440万,占总人口4.53%;杨,3700万,占总人口3.07%;赵,2750万,占总人口2.29%;黄,2680万,占总人口2.23%;周,2540万,占总人口的2.12%;吴,2460万,占总人口2.05%。
使用的mysql语句“select left(name,1) as xing,count(left(name,1)) as num from xxx where length(name)<5 group by xing order by num desc limit 100;”,下面是前十的结果:
排序 姓氏 人数 比例
1 王 11700000 3.34%
2 李 11100000 3.17%
3 张 10000000 2.88%
4 刘 7480000 2.13%
5 陈 5810000 1.66%
6 杨 4690000 1.34%
7 赵 2660000 0.76%
8 周 2530000 0.72%
9 黄 2300000 0.65%
10 吴 2200000 0.62%
为避免过于精确带来不必要的问题,对人数已经进行了简单加工,只保留约数,发现百家姓排名中李和王、周和黄排序存在颠倒的问题,姓氏比例也不对,其他都是准确的,说明我的样本还是比较大的,但是还不够大,否则排序基本跟全国人口普查结果一致。分析不完全一致的原因那就是我收集的数据片面的体现中国劳动力人口的状况(能上网的大部分都是有劳动能力的吧),而没有老人、幼儿及文盲等,总结经验那就是在用大数据解决问题的时候要保证数据足够全面,多少是全面,那要有专门的算法师时刻监控结果的准确性随时给出结果,不能盲目地相信结果,如果样本足够全面到极限接近全量数据时,结果将可以用精确来说了。 继续阅读