
Surya:功能强大的开源OCR文档处理工具包,支持90多种语言的OCR识别,提供布局分析、阅读顺序检测和表格识别等功能。无论是PDF、图像还是Word文档,Surya都能高效处理。基于先进的多模态模型,Surya实现了精准的文本检测、灵活的布局分析和智能的表格识别,提升文档数字化处理效率。
Surya:开源OCR文档处理工具包,支持90多种语言识别
主要功能特点:
- 多语言OCR: 支持90多种语言的OCR识别,与云服务相比具有竞争力的基准测试结果,覆盖了全球大部分常见语言。
- 文本检测: 能够进行行级文本检测,不受语言限制,确保精确的文本识别。
- 布局分析: 检测文档中的表格、图像、标题等元素,提供全面的布局分析功能。
- 阅读顺序检测: 能够理解文档的逻辑阅读顺序,确保生成的文档内容有序且易于阅读。
- 表格识别: 识别文档中的表格结构,包括行和列,支持复杂表格的精确提取。
- 高效性能: 基于先进的多模态模型,Surya实现了高效的文本处理和识别,提升了文档处理效率。
- 多种文档类型: 支持PDF、图像、Word文档等多种文档格式,灵活应对不同类型的文档处理需求。
- 使用简便: 安装和使用简单,支持Python 3.10+和PyTorch,用户可以快速上手。
- GPU优化: 使用GPU时,通过正确设置环境变量,可以显著提高性能,适应大规模文档处理需求。
- 开源项目: 作为开源项目,Surya可以自由获取和使用,适合开发者进行二次开发和功能扩展。
使用方法:
一、安装和设置:
1.安装Python和PyTorch: Surya需要Python 3.10+和PyTorch。请确保您的环境中安装了这两个工具。
2.克隆Surya项目: 打开终端,运行以下命令克隆Surya项目:
git clone https://github.com/VikParuchuri/surya.git
cd surya
3.安装依赖: 运行以下命令安装Surya的主要和开发依赖项
poetry install
4.激活虚拟环境: 运行以下命令激活虚拟环境
poetry shell
二、使用Surya进行OCR
1.加载模型: Surya的模型权重将在首次运行时自动下载。
2.运行OCR示例代码: 以下是如何从Python使用Surya进行OCR的示例代码
from PIL import Image
from surya.ocr import run_ocr
from surya.model.detection.model import load_model as load_det_model, load_processor as load_det_processor
from surya.model.recognition.model import load_model as load_rec_model
from surya.model.recognition.processor import load_processor as load_rec_processor常用加载图片
image = Image.open(“IMAGE_PATH”)
langs = [“en”] 常用替换为你的语言 – 可选但推荐常用加载模型
det_processor, det_model = load_det_processor(), load_det_model()
rec_model, rec_processor = load_rec_model(), load_rec_processor()常用运行OCR
predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor)
三、 高级功能
1.启用模型编译: 设置环境变量来启用模型编译
export COMPILE_RECOGNITION=true
export COMPILE_DETECTOR=true
export COMPILE_LAYOUT=true
export COMPILE_TABLE_REC=true
常用或者使用
export COMPILE_ALL=true
2.文本行检测: Surya可以检测文本行并输出包含检测到的边界框的JSON文件。
3.布局和阅读顺序: Surya可以输出包含检测到的布局和阅读顺序的JSON文件。
4.表格识别: Surya可以输出包含检测到的表格单元格和行/列ID以及行/列边界框的JSON文件。
四、性能优化
使用GPU优化: 在使用GPU时,正确设置 RECOGNITION_BATCH_SIZE 环境变量可以显著提高性能。每个批次项将使用40MB的VRAM,可以实现非常高的批量大小。
五、故障排除
提升OCR效果: 增加图像分辨率,使文本更大。如果分辨率已经很高,尝试将其降低到不超过2048px的宽度。 对图像进行预处理(二值化、去倾斜等)可以帮助处理非常老旧/模糊的图像。 可以调整 DETECTOR_BLANK_THRESHOLD 和 DETECTOR_TEXT_THRESHOLD 以获得更好的结果。
通过以上步骤,您可以充分利用 Surya 进行高效的OCR文档处理。
数据统计
相关导航

ZenShot是一款由禅道团队开发的基于Qt的开源跨平台截图工具。提供智能选择、自由选择、添加边框、马赛克、自由绘制等功能,支持多样标注和命令行调用,方便与其他应用集成。ZenShot兼具易用性和高性能,支持Windows、macOS和Linux多平台,适用于日常工作、技术支持和教育培训等场景,帮助用户高效、便捷地捕捉和标记屏幕内容。

HiveChat
HiveChat是一个专为中小团队设计的开源AI聊天应用,支持多种主流 AI 模型,如 Deepseek、OpenAI、Claude 和 Gemini。它具备 LaTeX 和 Markdown 渲染、图像理解、AI 智能体、云端数据存储等功能,通过灵活的部署方式和完善的权限管理,HiveChat 为企业提供了安全且高效的聊天工具。

Godot
Godot是一款免费的开源2D和3D游戏引擎,旨在帮助开发者创建、动画和渲染各种类型的游戏世界和角色。它支持多平台发布,允许游戏在桌面、移动设备和网页上运行。Godot的节点和场景系统提供强大的灵活性,多语言支持(包括GDScript、C#、C++等)使开发者能够选择最合适的编程语言。无论是简单的2D游戏,还是复杂的3D游戏,Godot都能提供所需的工具和资源。

VideoFusion
VideoFusion是一款免费开源的批量化视频处理工具,旨在为用户提供简单快捷的视频编辑解决方案。通过其多样化的功能,支持自动去黑边、视频压缩、AI降噪和快速二次编辑等。用户可以轻松优化视频质量、节省存储空间,并批量完成视频处理任务。

Rclone
Rclone是一款免费开源的同步文件和目录命令行工具,轻松同步和备份您的云存储文件。作为云供应商 Web 存储接口的功能丰富替代方案,Rclone 支持超过 70 种云存储产品,包括 S3 对象存储、企业和个人文件存储服务以及标准传输协议。

ClipCascade
ClipCascade是一款免费开源的多平台剪贴板同步工具,轻松实现多设备间的剪贴板共享。通过安全登录认证和端到端加密技术,保障用户隐私,确保剪贴板内容仅对授权用户可见。支持 Windows、macOS、Linux 桌面系统和 Android 移动端,提供 Docker 镜像以支持自托管服务。实时同步复制内容,无需手动操作,提高远程办公和跨设备协作效率。

Gzm Design
Gzm Design是一款开源免费且漂亮易用的海报设计器,使用最新的 Vue3、Vite4、TypeScript 等主流技术开发,开箱即用。支持 PSD 文件导入和解析,为设计师和创意工作者提供了极大的便利。适用于生成二维码海报、图片海报、名片设计、电商产品图制作等多种场景。支持 RGB 色彩模式的 PSD 文件导入、多层蒙版、文字解析等多种设计功能。

PhotoDoodle
PhotoDoodle 是由字节跳动与来自中国和新加坡大学的研究团队基于 Flux.1 模型联合开发的一款智能图像编辑系统,专注于通过少量样本学习特定艺术风格,并将其应用于用户照片,帮助用户轻松创建具有艺术感的作品。
暂无评论...