1 安装

tesseract-ocr支持多平台,针对windows,可在官方指定的地址中下载tesseract-ocr安装包下载,安装时可不关心额外的语言包,直接连续下一步安装结束,软件默认支持英文识别,其它语言可在这个网址下载对应的语言包,但这些网址通常速度不佳。

2 图片识别

有时会出现 Warning:Invalid resolution 0 dpi. Using 70 instead,并无大碍,只是目标图片本身没给出明确的分辨率。

为方便使用,我们结合python使用该工具,首先安装对应模块:

我们对上述的python图片做识别,运行代码:

结果基本是可以的。但也很明显会对额外的内容做错误的识别,这一点在图片较杂乱时尤为明显。

因此,在很多情况下需要对图片做处理,通过二值化等方式突出主要内容,而这一工作主要交给了Pillow模块处理,在python2中这一工作主要由PIL处理,但在python3中则由其分支Pillow代替,安装:

网上对于Pillow的操作有不少介绍,也可以通过官方的文档了解pillow各种方法和类的细节。

这里,简单地给出二值化的代码: