小技巧:如何在Linux上从图像和PDF中提取文本

系统 Linux
gImageReader是一个GUI工具,可利用tesseract OCR引擎从Linux中的图像和PDF文件中提取文本。

 gImageReader是Tesseract开源OCR引擎的前端。Tesseract最初是由HP开发的,然后于2006年开源。

基本上,OCR(Optical Character Recognition光学字符识别)引擎使您可以扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。

但是,Tesseract本身就是没有任何GUI的命令行工具。因此,在这里,gImageReader可以帮助任何用户利用它来从图像和文件中提取文本。

让我重点介绍一些有关它的内容,同时提及我在测试期间的使用经验。

gImageReader:Tesseract OCR的跨平台前端

为了简化工作,gImageReader可以方便地从PDF文件或包含任何类型文本的图像中提取文本。

无论是拼写检查还是翻译都需要它,它对于特定的用户组应该很有用。

gImageReader功能介绍:

  •  从磁盘,扫描设备,剪贴板和屏幕截图添加PDF文档和图像
  •  旋转图像的能力
  •  通用图像控件可调节亮度,对比度和分辨率
  •  直接通过应用程序扫描图像
  •  能够一次处理多个图像或文件
  •  手动或自动识别区域定义
  •  识别纯文本或hOCR文档
  •  编辑器显示识别的文本
  •  可以拼写检查提取的文本
  •  从hOCR文档转换/导出为PDF文档
  •  将提取的文本导出为.txt文件
  •  跨平台(Windows)

在Linux上安装gImageReader

注意:您需要显式安装Tesseract语言包以从软件管理器中的图像/文件中进行检测。

您可以在某些Linux发行版(例如Fedora和Debian)的默认存储库中找到gImageReader。

对于Ubuntu,您需要添加一个PPA,然后再安装它。为此,您需要在终端中输入以下内容: 

  1. linuxmi@linuxmi:~/www.linuxmi.com$ sudo add-apt-repository ppa:sandromani/gimagereader  
  2. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt update 
  3. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install gimagereader tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-chi-tra -y  
  4. linuxmi@linuxmi:~/www.linuxmi.com$ sudo apt install tesseract-ocr-chi-sim-vert tesseract-ocr-chi-tra-vert -y 

您还可以从其构建服务中为openSUSE找到它,AUR将成为Arch Linux用户的地方。

到存储库和软件包的所有链接都可以在其GitHub页面中找到。

使用gImageReader的经验

gImageReader是一个非常有用的工具,可以在需要时从图像中提取文本。当您尝试使用PDF文件时,它的效果很好。

为了从智能手机拍摄的照片中提取图像,检测很接近,但是有点不准确。也许当您扫描某些内容时,从文件中识别字符可能会更好。

因此,您必须自己尝试一下,看看它在您的用例中的效果如何。我在Ubuntu 20.04.2 LTS上进行了尝试。

操作步骤

打开 gImageReader

添加pdf

识别语言选择 多种语言 ==> 简体字[chi_sim]+ English[eng]

复制或保存识别文本

操作结果参照下图:

我只是在管理设置中的语言时遇到了一个问题,但没有得到快速的解决方案。如果遇到此问题,则可能需要对其进行故障排除,并进一步了解如何解决该问题。

除此之外,它工作得很好。

永久链接:https://www.linuxmi.com/linux-ocr-gimagereader-pdf.html 

 

责任编辑:庞桂玉 来源: Linux公社
相关推荐

2021-03-15 21:50:22

Linux提取文本GUI工具

2023-11-29 11:30:17

PDF语言模型

2023-11-15 13:04:30

Python提取表格

2020-07-08 07:54:03

PythonPDF数据

2021-05-13 23:54:12

DockerDockerfile镜像

2014-02-28 10:26:16

Linux文本搜索ack

2018-03-25 08:44:07

iPhonePDF网页

2018-01-26 09:02:30

LinuxPDF创建视频

2023-11-20 22:07:51

PythonPDF

2016-01-26 11:08:54

2021-08-16 11:51:16

微软Windows 365Azure

2015-08-04 14:04:28

UbuntuPDF文件

2013-04-01 11:14:56

IT大数据网络信息化

2020-10-30 11:02:16

物联网人工智能机器学习

2022-11-23 10:31:54

2023-08-28 15:52:10

LinuxPDF

2019-08-14 09:42:06

LinuxElasticsearKibana

2015-11-24 10:46:06

LinuxNetworkManasystemd-net

2021-12-07 12:00:12

UbuntuLinuxQt 6.2.2

2018-08-06 09:30:00

LinuxPbcopyPbpaste
点赞
收藏

51CTO技术栈公众号