admin 管理员组文章数量: 1184232
tesserocr
1.OCR,光学识别符。
tesserocr是Python的一个OCR库,但其实是对tesseract做的一层Python APIde 封装,所以他的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
2.相关链接
tesserocr PyPI :
tesseract下载地址:
3.windows下的安装
先下载tesseract,他为tesserocr提供了支持
带dev的为开发版本,不带dev的为稳定版本。选择不带dev的下载。如tesseract-ocr-setup-3.05.01.exe
下载完成后双击,勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,然后一路点击Next按钮。
接下来再安装tesserocr即可,此时使用pip安装。
pip3 install tesserocr pillow
4.验证安装
我们使用tesseract和tesserocr来分别进行测试。
以图片.png 可以直接下载
首先使用命令进行测试,将图片下载下来并保存为image.png 然后用tesseract命令进行测试:
tesseract image.png result -l eng&& cat result.txt
运行结果如下:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
Python3WebSpider
这里我们调用了tesseract命令,其中第一个参数为图片名称。第二个参数为result为结果保存的目标文件名称,-l制定使用的语言包,在此使用英文(eng).然后,在用cat命令将结果输出。
裕兴结果便是图片的识别果果:Python3WebSpider 。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:
import tesserocr
from PIL import Image
image=Image.open('image.png')
print(tesserocr.image_to_text(image))
我们首先利用Image读取了图片文件,然后调用了tesserocr的image_to_text()方法,再将其识别结果输出。
运行结果如下:
Python3WebSpider
另外,我们还可以直接调用file_to_text()方法,这样可以达到同样的效果:
import tesserocr
print(tesserocr.file_to_text('image.png'))
运行结果:
Python3WebSpider
如果输出成功。则证明tesseract与tesserocr都已经安装成功。
本文标签: tesserocr
版权声明:本文标题:tesserocr 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1686539712a7710.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论