CentOS7下编译安装tesseract-ocr流程

2018-04-19服务器
164

什么是tesseract-ocr
 
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
 
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
 
现在托管在GitHub中~
 
源代码位置
 
托管于 http://code.google.com/p/tesseract-ocr/ 
目前项目转移到GitHub https://github.com/tesseract-ocr

首先要安装依赖包leptonica
 
官网地址: http://www.leptonica.org/download.html
 
 wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
 tar xvzf leptonica-1.72.tar.gz
 cd leptonica-1.72/
 ./configure
  make && make install

安装tesseract
 
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

下载安装英文,中文繁体,中文简体 识别库。
 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
                      
cp/mv *.traineddata /usr/local/share/tessdata/

配置文件位置
 
/usr/local/share/tessdata
 
 
准备测试图片,上传到测试服务器
 
验证
 
tesseract /root/code.jpg out
 
查看结果
 
cat out.txt

The End
CentOS

相关推荐

CentOS7下编译安装tesseract-ocr流程
什么是tesseract-ocr OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化...
2018-04-19 服务器
164

centos中安装字体
在使用phantomjs做自动化网页截图时,发现截图都没有文字。最后好久才发现是centos中没有安装字体的原因。 安装方法: 1.用fontconfig来安装字体库: yum -y install fontconfig 2.这时在/usr/share目录就可以看到fonts和fontconfig目录了(我自己操作时没有...
2018-01-24 服务器
191

 如何增加CentOS(Linux)的字体
1、在网上找到你要的目标字体。 2、上传到CentOS 7系统的 /usr/share/fonts 目录中。 3、执行# sudo mkfontscale(如果命令不存在,请yum安装mkfontscale)。 4、执行# mkfontdir (如果命令不存在,请yum安装mkfontdir )。 5、执行# fc-cache -fv(如果命...
2018-01-24 服务器
135

linux下openoffice启动和自动启动设置(centos)
一、启动步骤: 1.cd /opt/openoffice4/program (安装路径) 2.运行命令 soffice -headless -accept=socket,host=127.0.0.1,port=8100;urp; -nofirststartwizard 或者1 2合并为以下这一个命令来启动: 启动命令 /opt/openoffice4/program/soffice -headless...
2018-01-02 服务器
201

linux centos 宝塔主机控制面板安装和安全狗安装过程记录
linux 宝塔控制面板 安装过程 yum install -y wget wget -O install.sh http://103.224.251.79:5880/install/install.sh sh install.sh 下载完成后 有个确认是否安装面板,输入y确认。 大约3分钟完成。 然后安装LAMP套装,大约16-20分钟。 此时可以同时上传...
2017-12-26 服务器
232

设置让php能够以root权限来执行exec() 或者 shell_exec()
一、查看启动你php的进程的用户是谁。 可以通过在命令行执行:ps -ef | grep php来看。或者在php中执行 echo exec(whoami) 来查看。centos下默认会是nobody。 nobody默认没有任何权限。 此时先自己添加一个用户和组。 /usr/sbin/groupadd xxxx/usr/sbin/user...
2017-12-20 服务器
133