Sumatra PDF
Sumatra PDF是一款轻量级、开源的PDF阅读器,专为Windows用户设计。它支持多种文件格式,包括PDF、ePub、MOBI、CHM、XPS、DjVu、CBZ和CBR。Sumatra PDF以其启动迅速、界面简洁和高效著称,是处理电子书和文档的理想选择。无广告干扰,提供流畅的阅读体验。适合需要快速打开和浏览文档的用户,尤其是在低配置计算机上表现出色。
MinerU是一款将PDF 转化为机器可读格式的强大工具(如 Markdown、JSON)。MinerU 诞生于书生-浦语的预训练过程中,能够保留原 PDF 文档结构,提取文字、图片、图片描述、表格等内...
MinerU是一款将PDF 转化为机器可读格式的强大工具(如 Markdown、JSON)。MinerU 诞生于书生-浦语的预训练过程中,能够保留原 PDF 文档结构,提取文字、图片、图片描述、表格等内容。它自动识别并转换 LaTeX 格式、HTML 格式,支持多语言 OCR 功能,确保高效准确地处理文档。
MinerU:开源的PDF文档提取工具
主要功能特点:
MinerU核心功能优势:
MinerU只要应用于学术研究、市场分析、法律文档处理、知识管理等领域,使得我们能高效地从大量文档中提取关键信息,从而加速数据准备过程,为大模型训练、知识图谱构建等提供高质量的数据支持。
MinerU由上海人工智能实验室(上海ai实验室)大模型数据基座OpenDataLab团队开发,并在2024年的WAIC(世界人工智能大会)上发布,迅速在GitHub上获得关注,成为Python的热门项目。