分类目录归档:大数据

windows创建软连接附加mysql数据库

mysql数据库MyISAM引擎数据库表有三个文件,分别是*.frm、*.MYD、*.MYI,只要备份这三个文件也就完全备份了数据库,非常方便,有时候会遇到临时读取备份数据库的情况,全部拷贝到开发环境未免太过繁琐,其实合理利用windows系统的软连接即可解决问题,即把移动硬盘(或其他目录)的数据库文件夹软连接到mysql的数据库文件夹即可,命令如下:
mklink /J linkname dstdir
例如:mklink /J mydata D:\mydata\
重启mysql服务后,即可在数据库里正常使用D:\mydata\目录下的数据库了。

一次千万级数据迁移遇到的问题及解决方法

这次是4千万记录从oracle迁移到mysql数据库,操作系统均为windows,oracle端使用PL/SQL Developer操作:
1、select出所有数据后,使用PL/SQL Developer自带导出工具导出sql文件,文件巨大,然后mysql端命令行下登录后使用source命令直接导入,那叫一个慢,而且plsql导出的sql文件是每条记录一行insert into 所以导致文件巨大,而且效率低下,如果使用ultraedit编辑替换掉insert into语句也要很长时间,所以这个方法放弃,想到了使用mysql的load data方法; 继续阅读

史上最全的大数据分析和制作工具(转)

以下是一些用于大数据分析的“必备神器”,其中很多功能非常强大的,希望大家能从中找到对自己有帮助的工具。全选地址,拷贝到浏览器中,即可。

1微信大数据分析工具

新媒体指数:http://www.gsdata.cn

2数据可视化工具

百度ECharts:http://echarts.baidu.com/

Cytoscape:http://www.cytoscape.org/

图表秀:http://www.tubiaoxiu.com/

数据观:http://shujuguan.cn/

微博足迹可视化:http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html 继续阅读

PostgreSQL(简称pgsql、psql)的一些简单命令

PostgreSQL是以加州大学伯克利分校计算机系开发的 POSTGRES 版本 4.2 为基础的对象关系型数据库管理系统(ORDBMS)。
有些特性据说超过mysql,没有应用需求也就没有具体使用,反正原生支持全文检索、GIS应用挺吸引眼球。
如果记不住一些命令可以直接输入h [命令]或者?即可查看相应命令或用法,返回结果如下:
一般性
copyright 显示PostgreSQL的使用和发行许可条款
g [文件] or; 执行查询 (并把结果写入文件或 |管道)
h [名称] SQL命令语法上的说明,用*显示全部命令的语法说明
q 退出 psql

查询缓存区
e [FILE] [LINE] 使用外部编辑器编辑查询缓存区(或文件)
ef [FUNCNAME [LINE]] 使用外部编辑器编辑函数定义
p 显示查询缓存区的内容
r 重置(清除)查询缓存区
w 文件 将查询缓存区的内容写入文件

输入/输出
copy … 执行 SQL COPY,将数据流发送到客户端主机 继续阅读

Python数据抓取学习笔记20151126

1、使用httplib2读取网页出现”zlib.error: Error -3 while decompressing data: incorrect header check”错误怎么解决?
大致意思是zlib错误:当解压数据时发现HTTP头信息不正确,百度了一圈一个参考做法是:找到”..httplib2__init__.py”, line 318, in _decompressContent中改为content = zlib.decompress(content, -zlib.MAX_WBITS),我没有试,既然是文件网页压缩解压失败,那我要求不压缩网页就可了,于是在请求头文件中将”Accept-Encoding”改为空或”gzip”,经实测成功,比对两次网页文件大小发现使用gzip压缩,仅仅节约了数十字节,不值得使用,建议设置为空,减少本地机cpu开销。
2、Python怎么安装第三方模块?
恨透了没有仔细学习Python操作方法,一直傻兮兮地网上寻找第三方模块,其实很简单,只需要安装Python集成的pip工具既可以随时下载更新安装的模块。windows系统的安装方法是:运行-》cmd-》”cd (你的Python安装路径)/Python27/Scripts/”-》命令:”easy_install pip”即可完成pip的安装,如果需要安装第三方模块,只需要使用命令”pip 模块名”即可安装,例如安装BeautifulSoup4则输入命令”pip install BeautifulSoup4″回车即可,安装httplib2输入命令”pip install httplib2″,真的很简单。
3、Python爬虫采集中文信息插入Mysql需要过滤和转义那些特殊符号? 继续阅读

安装MYSQL-python时遇到的几个问题

python可以说是学习数据爬取、挖掘的全能选手,又支持web应用开发,完全符合我的需求,开学了2天了,今天尝试操作mysql,安装MYSQL-python时遇到几点问题,各种错误各种出。
1、首先安装mysql-server、mysql-client,这个过程顺利:
sudo apt-get install mysql-server
sudo apt-get install mysql-client
2、下载安装MySQL-python,下载地址是:https://pypi.python.org/packages/source/M/MySQL-python/MySQL-python-1.2.5.zip:
wget https://pypi.python.org/packages/source/M/MySQL-python/MySQL-python-1.2.5.zip
进入下载目录,使用unzip命令解压:
unzip MySQL-python-1.2.5.zip
cd MySQL-python-1.2.5.zip
sudo python setup.py install 继续阅读

转:大数据全栈式开发语言-Python

前段时间,ThoughtWorks 在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用 JavaScript 进行前端、服务器端,甚至数据库(MongoDB)开发,一个 Web 应用开发人员,只需要学会一门语言,就可以实现整个应用。

受此启发,我发现 Python 可以称为大数据全栈式开发语言。因为 Python 在云基础设施,DevOps,大数据处理等领域都是炙手可热的语言。

领域 流行语言
云基础设施 Python, Java, Go
DevOps Python, Shell, Ruby, Go
网络爬虫 Python, PHP, C++
数据处理 Python, R, Scala

就像只要会 JavaScript 就可以写出完整的 Web 应用,只要会 Python,就可以实现一个完整的大数据处理平台。

云基础设施 继续阅读

Access大数据量情况下更改字段类型提示磁盘空间或内存不足的解决

遇到一个问题,access下双精度数字在导出为文本后会自动保留为两位小数,设置双精度小数点后15位依然存在这个问题,最后不得不更改字段类型为文本,可是Access大数据量情况下更改字段类型总是提示“磁盘空间或内存不足”,导致问题依然无法解决,请出神器度娘,有网友说修改注册表可以解决问题,微软知识库里也是这个解决方案,运行>regedit.exe>找到”HKEY_LOCAL_MACHINESOFTWAREMicrosoftJet4.0EnginesJet 4.0″,更改MaxLocksPerFile的值为你要处理的记录数。我用了这个方法重启电脑问题依旧,最终绞尽脑汁曲线救国,创建一个文本型的空字段,用一句”update table set 新字段=要更改的字段;”,然后删除原来的字段问题解决,内牛满面啊,浪费太多时间了T.T。

用大数据来看看我们的百家姓

大数据不解释了,解释我也解(bu)释(dong)不明白,我的理解就是数据量够大,现在我收集了3亿这样一个量级的人名、所在地等字段的数据,听起来还算是比较大了吧,今天只拿来验证一下我们举全国之力人口普查得来的百家姓排名结果,或者说拿人口普查的结果验证一下我收集的数据是不是全面吧。
全国最近一次人口大普查2010年11月1日凌晨结束,据官方公开数据显示:全国总人口13亿7千万,百家姓前十就占了5.5亿人口,前十分别是:李,9530万,占总人口7.94%;王,8899万,占总人口7.41%;张,8480万,占总人口7.07%;刘,6460万,占总人口5.38%;陈,5440万,占总人口4.53%;杨,3700万,占总人口3.07%;赵,2750万,占总人口2.29%;黄,2680万,占总人口2.23%;周,2540万,占总人口的2.12%;吴,2460万,占总人口2.05%。
使用的mysql语句“select left(name,1) as xing,count(left(name,1)) as num from xxx where length(name)<5 group by xing order by num desc limit 100;”,下面是前十的结果:
排序 姓氏 人数 比例
1 王 11700000 3.34%
2 李 11100000 3.17%
3 张 10000000 2.88%
4 刘 7480000 2.13%
5 陈 5810000 1.66%
6 杨 4690000 1.34%
7 赵 2660000 0.76%
8 周 2530000 0.72%
9 黄 2300000 0.65%
10 吴 2200000 0.62%
为避免过于精确带来不必要的问题,对人数已经进行了简单加工,只保留约数,发现百家姓排名中李和王、周和黄排序存在颠倒的问题,姓氏比例也不对,其他都是准确的,说明我的样本还是比较大的,但是还不够大,否则排序基本跟全国人口普查结果一致。分析不完全一致的原因那就是我收集的数据片面的体现中国劳动力人口的状况(能上网的大部分都是有劳动能力的吧),而没有老人、幼儿及文盲等,总结经验那就是在用大数据解决问题的时候要保证数据足够全面,多少是全面,那要有专门的算法师时刻监控结果的准确性随时给出结果,不能盲目地相信结果,如果样本足够全面到极限接近全量数据时,结果将可以用精确来说了。 继续阅读