MinerU

2周前发布 3 00

MinerU是一款将PDF 转化为机器可读格式的强大工具（如 Markdown、JSON）。MinerU 诞生于书生-浦语的预训练过程中，能够保留原 PDF 文档结构，提取文字、图片、图片描述、表格等内...

收录时间：

2024-11-29

打开网站手机查看

MinerU

MinerU是一款将PDF 转化为机器可读格式的强大工具（如 Markdown、JSON）。MinerU 诞生于书生-浦语的预训练过程中，能够保留原 PDF 文档结构，提取文字、图片、图片描述、表格等内容。它自动识别并转换 LaTeX 格式、HTML 格式，支持多语言 OCR 功能，确保高效准确地处理文档。

MinerU：开源的PDF文档提取工具

主要功能特点：

删除无关元素：自动删除页眉、页脚、脚注和页码，确保语义连贯。
输出符合阅读顺序的文本：适用于单栏、多栏及复杂排版，确保文本符合人类阅读习惯。
保留原文档结构：包括标题、段落、列表等。
提取图像及表格：包括图像、图片描述、表格、表格标题和脚注。
自动转换公式和表格：公式自动识别并转换为 LaTeX 格式，表格转换为 HTML 格式。
自动 OCR：自动检测扫描版 PDF 和乱码 PDF，并启用 OCR 功能，支持84种语言的检测与识别。
多种输出格式：支持 Markdown、按阅读顺序排序的 JSON 以及含有丰富信息的中间格式。
多种可视化结果：包括 layout 可视化、span 可视化，便于高效确认输出效果与质检。
环境兼容性：支持 CPU 和 GPU 环境，兼容 Windows、Linux 和 Mac 平台。

MinerU核心功能优势：

Magic-PDF模块：专注于PDF文档处理，能够智能识别并去除非正文内容如页眉、页脚，同时精准保留标题、段落、列表等结构，支持图片、表格、公式的提取，确保转换后的Markdown格式既准确又易于阅读。
Magic-Doc模块：针对网页和电子书，能够从网页中提取正式内容。
多模态内容处理：MinerU不仅处理文本，还能有效提取和处理图像、表格、公式等多模态内容。
多语言支持：MinerU支持包括繁简中文在内的84种语言。
格式多样：支持多种输出格式和可视化结果，适配 CPU 和 GPU 环境，兼容多平台。
自动识别转换：识别并转换公式为 LaTeX 格式，表格为 LaTeX 或 HTML 格式，还能自动检测并启用 OCR 功能。

MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域，使得我们能高效地从大量文档中提取关键信息，从而加速数据准备过程，为大模型训练、知识图谱构建等提供高质量的数据支持。

MinerU由上海人工智能实验室（上海ai实验室）大模型数据基座OpenDataLab团队开发，并在2024年的WAIC（世界人工智能大会）上发布，迅速在GitHub上获得关注，成为Python的热门项目。

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

MinerU

数据统计

相关导航

Sumatra PDF

PDF Guru

ExtractPDF

Skim

嗨格式压缩大师

依奇在线超级转换工具

11zon

FreePdfConvert

暂无评论