PDFDeal PDF文件处理与OCR工具 -- 知识铺
PDFDeal 是一个强大的工具,专门设计用来简化PDF文件的处理流程。它不仅能够从PDF中提取可读文本,还支持OCR(光学字符识别)技术,用于识别文档中的图像文字并将其转换为可编辑的文本格式。此外,该工具还能帮助用户构建知识库,通过提取和处理文本来提高知识库的准确性和可用性。最近更新的版本V0.1.3引入了多项新功能和改进,包括在Markdown文件中将所有远程图像替换为本地图像的能力,以及对pdfdeal
函数进行了重构以支持批量处理文件。此外,此版本还修复了一些与OCR文件处理相关的输出格式问题以及在某些情况下无法正确输出md文件的问题。值得注意的是,从这个版本开始已经移除了早期版本中使用过的Doc2x组件。
|
|
使用 pytesseract
,需要先安装 tesseract:
|
|
使用自定义OCR函数或Doc2x或跳过OCR:
从源码安装:
|
|
使用 deal_pdf
函数处理PDF文件
从模块 pdfdeal
中引入的 deal_pdf
函数提供了对PDF文件进行多种方式处理的能力。下面将详细介绍该函数及其参数使用方法。
函数定义
|
|
参数说明
-
input (str or list): 输入可以是一个PDF文件的路径字符串或多个PDF文件路径的列表。
-
output (str): 指定输出格式,可选值包括:
-
texts
:以文本列表形式返回内容。 -
md
:以Markdown格式返回内容。 -
pdf
:生成一个新的PDF文件作为输出。 -
ocr (function, optional): 用户自定义的OCR识别函数,默认为
None
。当需要使用特定OCR逻辑时提供。 -
language (list, optional): OCR过程中使用的语言列表,默认是简体中文(
ch_sim
)和英文(en
)。 -
GPU (bool, optional): 是否启用GPU加速OCR过程,默认不启用(
False
)。 -
path (str, optional): 当输出类型为
pdf
或md
文件时,指定保存这些文件的目录路径。
示例用法
假设你需要处理一个PDF文档,并希望将其转换成包含提取文本的Markdown文件,你可以这样做:
|
|
处理文件夹中的所有PDF文件,并保存到Output文件夹
|
|
获取PDF中文本内容的列表
|
|
使用pytesseract进行OCR处理
|
|
跳过OCR处理
|
|
支持Doc2x
|
|
详细官方文档和代码示例可以参考GitHub仓库。
未找到相关的 Issues 进行评论
请联系 @go2coding 初始化创建
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek002/post/202410/PDFDeal-PDF%E6%96%87%E4%BB%B6%E5%A4%84%E7%90%86%E4%B8%8EOCR%E5%B7%A5%E5%85%B7--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com