标签归档:python验证码识别

python通过OCR引擎识别字符型验证码

写爬虫的过程中不可避免地要面对打码,一般打码工具都有很强的针对性,一款通用的验证码识别工具非常必要,tesseract-ocr开源工具就是这一需求的最好解决方法,它来自于大名鼎鼎的google,可以支持中文,可以使用再带工具训练自己的字符集。
环境:
python2.7
PIL:使用pip install Pillow即可安装,版本无限制
pytesser3:使用pip install pytesser3即可安装,该模块通过tesseract-ocr开源引擎实现
tessertact-ocr引擎:该引擎可以到github根据自己的系统下载,该链接为4.0版本 继续阅读