Show HN: Ocrbase – pdf → .md/.json document OCR and structured extraction API

原始链接: https://github.com/majcheradam/ocrbase

## OCRBase：可扩展的PDF数据提取 OCRBase利用强大的开源OCR模型（如PaddleOCR-VL-0.9B）将PDF转换为结构化、可用的数据。您可以定义自定义模式，并以干净的JSON格式接收结果，从而实现高度准确和定制化的数据提取。 OCRBase专为大规模处理而设计，采用基于队列的系统，能够处理数千份文档。一个类型安全的TypeScript SDK，包含React hooks，简化了与应用程序的集成。主要功能包括通过WebSockets提供的实时作业进度更新，以及在您自己的基础设施上进行自托管的选项。 **要求：** Docker、Bun以及具有12GB+ VRAM的CUDA GPU。如需API访问、本地部署或咨询，请联系[email protected]。文档和SDK可供进一步探索。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交登录展示 HN: Ocrbase – pdf → .md/.json 文档 OCR 和结构化提取 API (github.com/majcheradam) 10 分，adammajcher 发表于 1 小时前 | 隐藏 | 过去 | 收藏 | 2 条评论 hersko 发表于 10 分钟前 | 下一个 [–] 我有一个流程，先用 pdf-parse 从 pdf 中提取文本，然后将文本发送给 AI 进行数据提取。如果失败，则将其转换为 png 并发送图像进行数据提取。这效果很好，而且通常发送文本给模型比依赖图像更便宜。直接发送图像进行 OCR 不会更贵吗？回复 mechazawa 发表于 20 分钟前 | 上一个 [–] 只支持 bun 还是也支持普通的 node？回复指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系搜索：

Turn PDFs into structured data at scale. Powered by frontier open-weight OCR models with a type-safe TypeScript SDK.

Best-in-class OCR - PaddleOCR-VL-0.9B for accurate text extraction
Structured extraction - Define schemas, get JSON back
Built for scale - Queue-based processing for thousands of documents
Type-safe SDK - Full TypeScript support with React hooks
Real-time updates - WebSocket notifications for job progress
Self-hostable - Run on your own infrastructure

import { createOCRBaseClient } from "@ocrbase/sdk";

const client = createOCRBaseClient({ baseUrl: "https://your-instance.com" });

// Process a document
const job = await client.jobs.create({ file: document, type: "parse" });
const result = await client.jobs.get(job.id);

console.log(result.markdownResult);

See SDK documentation for React hooks and advanced usage.

See Self-Hosting Guide for deployment instructions.

Requirements: Docker, Bun, CUDA GPU with 12GB+ VRAM

MIT - See LICENSE for details.

For API access, on-premise deployment, or questions: [email protected]