opendatalab/MinerU
商业评分 84 · 验证评分 65 · EXPERIMENTING
AI / RAG / Agent 应用方在把内部 PDF、合同、扫描件、报表、PPT、Excel 等异构文档接入下游大模型链路时,几乎全部卡在「解析 → 清洗 → 分块 → 质检 → 入库」这条中段流水线上;MinerU 本身只解决「解析」一个环节,且原生输出离生产可用仍有分块、元数据、人工复核、合规审计等距
ai4sciencedocument-analysisdocxextract-datalayout-analysisocrparserpdf
查看 GitHub 仓库
目标用户痛点
AI / RAG / Agent 应用方在把内部 PDF、合同、扫描件、报表、PPT、Excel 等异构文档接入下游大模型链路时,几乎全部卡在「解析 → 清洗 → 分块 → 质检 → 入库」这条中段流水线上;MinerU 本身只解决「解析」一个环节,且原生输出离生产可用仍有分块、元数据、人工复核、合规审计等距离,企业真正需要的是以 MinerU 为底座的「文档解析生产平台」与「中文行业模板包」
需求信号
GitHub 侧信号极强:72,701 stars / 6,095 forks / 30 open issues,2026 年内连续发布 3.0.0、3.1.0、3.3、3.4 四个版本,3.1.0 主动从 AGPLv3 切换到基于 Apache 2.0 的自定义协议,体现商业落地决心;PyPI mineru 包提供,mineru.net 在线 SaaS 已存在证明零安装试用需求真实。但外部市场证据缺失:Hacker News / Reddit / Product Hunt / X / YouTube 均无可解读的买家语言内容,GitHub Issues 也未检索到典型企业采购对话;actions 数据 customer_count=0 / payment_signals=0,处于「需求假设存在但未验证」阶段
变现路径
mineru.net 线上 SaaS 已验证 C 端零安装需求,但企业版缺多租户、SSO、审计、透明计费、Webhook;模板包(¥499-1,999/套)、Docker/Helm 一键包(¥999-2,999)、私有化部署服务(¥6,000-30,000/项目)、行业解决方案(¥5 万-30 万/项目)、SaaS 企业版(¥0.02-0.10/页,月封顶 ¥3,000-20,000)五条路径清晰,但当前 actions 中 payment_signals=0,定价尚未被买家验证,需通过预售或意向订单确认
7 天验证测试
可行且明确:D1-D2 完成 5 套 JSON Schema(合同要素 / A 股财报章节 / 增值税专票 / 病历主诉 / K12 试卷)+ 对应 VLM Prompt + 后处理脚本;D3-D4 包装 Python SDK 调用示例 + LangChain/RAGFlow/Dify 接入示例;D5 制作 Docker Compose 一键包(模型源自动选择 + 本地缓存命中 + 单机多卡 router + Prometheus 指标);D6 上线 landing page 含 5 个行业 demo PDF 与模板包预售;D7 启动 3-5 场企业 RAG 开发者定向访谈。退出标准:7 天内获得 ≥3 个模板包预售订单(¥499/套)或 ≥1 个部署服务意向(¥6,000+)即进入下一阶段