Show HN: Ocrbase – pdf → .md/.json document OCR and structured extraction API

原始链接: https://github.com/majcheradam/ocrbase

## OCRBase:可扩展的PDF数据提取 OCRBase利用强大的开源OCR模型(如PaddleOCR-VL-0.9B)将PDF转换为结构化、可用的数据。您可以定义自定义模式,并以干净的JSON格式接收结果,从而实现高度准确和定制化的数据提取。 OCRBase专为大规模处理而设计,采用基于队列的系统,能够处理数千份文档。一个类型安全的TypeScript SDK,包含React hooks,简化了与应用程序的集成。 主要功能包括通过WebSockets提供的实时作业进度更新,以及在您自己的基础设施上进行自托管的选项。 **要求:** Docker、Bun以及具有12GB+ VRAM的CUDA GPU。 如需API访问、本地部署或咨询,请联系[email protected]。文档和SDK可供进一步探索。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 展示 HN: Ocrbase – pdf → .md/.json 文档 OCR 和结构化提取 API (github.com/majcheradam) 10 分,adammajcher 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 2 条评论 hersko 发表于 10 分钟前 | 下一个 [–] 我有一个流程,先用 pdf-parse 从 pdf 中提取文本,然后将文本发送给 AI 进行数据提取。如果失败,则将其转换为 png 并发送图像进行数据提取。这效果很好,而且通常发送文本给模型比依赖图像更便宜。直接发送图像进行 OCR 不会更贵吗?回复 mechazawa 发表于 20 分钟前 | 上一个 [–] 只支持 bun 还是也支持普通的 node?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:
相关文章

原文

Turn PDFs into structured data at scale. Powered by frontier open-weight OCR models with a type-safe TypeScript SDK.

  • Best-in-class OCR - PaddleOCR-VL-0.9B for accurate text extraction
  • Structured extraction - Define schemas, get JSON back
  • Built for scale - Queue-based processing for thousands of documents
  • Type-safe SDK - Full TypeScript support with React hooks
  • Real-time updates - WebSocket notifications for job progress
  • Self-hostable - Run on your own infrastructure
import { createOCRBaseClient } from "@ocrbase/sdk";

const client = createOCRBaseClient({ baseUrl: "https://your-instance.com" });

// Process a document
const job = await client.jobs.create({ file: document, type: "parse" });
const result = await client.jobs.get(job.id);

console.log(result.markdownResult);

See SDK documentation for React hooks and advanced usage.

See Self-Hosting Guide for deployment instructions.

Requirements: Docker, Bun, CUDA GPU with 12GB+ VRAM

Architecture Diagram

MIT - See LICENSE for details.

For API access, on-premise deployment, or questions: [email protected]

联系我们 contact @ memedata.com