如何安装Tesseract
更新时间:2023-10-26什么是Tesseract
Tesseract是一个OCR(Optical Character Recognition,光学字符识别)引擎,可以识别包括中文在内的多种语言的文本。它由HP实验室开发,在2005年后由谷歌接管并开源。Tesseract已经成为目前最先进的OCR引擎之一,可应用于图像识别、文本识别等领域。
如何安装Tesseract
安装Tesseract之前,需要先安装前置依赖项——leptonica和libjpeg。leptonica是一个处理图像相关的库,libjpeg用于JPEG文件的读写。在Unix/Linux系统下,可以使用以下命令行安装:
sudo apt-get install libleptonica-dev libjpeg-dev
安装完依赖项后,就可以下载并安装Tesseract了。官方的Tesseract GitHub仓库提供源代码和安装说明。在Ubuntu上,可以使用以下命令安装:
sudo apt-get install tesseract-ocr
安装完成后,可以使用以下命令检查Tesseract是否正确安装:
tesseract --version
如果输出了Tesseract引擎的版本号,则说明安装成功。
如何在Python中使用Tesseract
Tesseract支持多种编程语言,这里我们以Python为例介绍如何使用。
首先,我们需要在终端中安装Python的Tesseract库pytesseract。可以使用以下命令:
pip install pytesseract
安装完成后,在Python中导入pytesseract库,并调用image_to_string方法即可完成图像的文本识别:
# 导入pytesseract库 import pytesseract from PIL import Image # 加载图像 image = Image.open('test-image.png') # 使用Tesseract进行文本识别 text = pytesseract.image_to_string(image) # 输出识别结果 print(text)
上述代码将test-image.png图像中的文本识别出来,并输出到控制台。
如何在命令行中使用Tesseract
Tesseract还支持命令行的方式进行文本识别。假设我们有一张名为test-image.png的图像文件,可以使用以下命令进行文本识别:
tesseract test-image.png output -l eng+chi_sim
上述命令会将test-image.png中的文本识别出来,并将识别结果保存到output.txt文件中。其中-l参数指定了识别的语言,这里选择了英文和简体中文。
如果需要识别多张图像,可以使用以下命令:
for f in *.png; do tesseract "$f" "$(basename "$f" .png)" -l eng+chi_sim; done
上述命令将当前目录下所有的PNG图像文件进行文本识别,并将识别结果保存为与文件名相同的txt文件。