python通过OCR引擎识别字符型验证码

写爬虫的过程中不可避免地要面对打码,一般打码工具都有很强的针对性,一款通用的验证码识别工具非常必要,tesseract-ocr开源工具就是这一需求的最好解决方法,它来自于大名鼎鼎的google,可以支持中文,可以使用再带工具训练自己的字符集。
环境:
python2.7
PIL:使用pip install Pillow即可安装,版本无限制
pytesser3:使用pip install pytesser3即可安装,该模块通过tesseract-ocr开源引擎实现
tessertact-ocr引擎:该引擎可以到github根据自己的系统下载,该链接为4.0版本
DEMO:
#以上环境安装完成后既可以按照下面DEMO正常识别图片中的字符串,对于稍微复杂的二维码可以使用PIL模块处理后再识别

from pytesser3 import image_to_string
from PIL import Image
image = Image.open('authimg.jpg')
print image_to_string(image)