用视觉语言模型替换OCR
Replace OCR with Vision Language Models

原始链接: https://github.com/vlm-run/vlmrun-cookbook/blob/main/notebooks/01_schema_showcase.ipynb

GitHub页面代表一个名为“ VLM-RUN/VLMRUN-COOKBOOK”的存储库,该存储库似乎是一个公共项目。它已经获得了236颗星星,并分叉了6次。存储库包括代码,6个开放问题,无拉请求,动作和项目。存储库中的密钥文件位于“ VLMRUN-COOKBOOK/NOTEBOOKS/01_SCHEMA_SHOWCASE.IPYNB”,称重为6.5 MB,页面试图为该文件加载一个查看器。该页面还包括指向GitHub条款,隐私政策,安全信息,状态页,文档,联系信息,Cookie管理选项和数据隐私设置的链接。此外,它提示用户登录以更改通知设置。

OCR的LLM由于幻觉的潜力而有风险,他们可以在其中重写整个文件或完成句子不准确。与本地化且易于检测的OCR错误不同,LLM错误是无限的。 使用视觉和空间信息对文本令牌进行分类的Layoutlm模型提供了更安全的替代方案,但需要数据注释和培训。虽然VLM在手写,图表和信息图表方面表现出色,但传统OCR更适合标准化文档和密集文本。 VLM还可以利用诸如填充未标记轴的任务的上下文。 关注LLMS的可靠性仍然存在,尤其是在准确性至关重要的情况下。尽管LLM可能会重新创建缺失字体,但围绕专利字体设计的版权问题构成了挑战。彻底的测试对于定义基于LLM的OCR的可靠用例范围至关重要。尽管他们承诺,但LLM仍然是一种不成熟的技术。
相关文章
  • (评论) 2025-02-28
  • (评论) 2024-04-01
  • (评论) 2024-08-10
  • (评论) 2024-03-17
  • (评论) 2024-05-30

  • 原文
    Skip to content

    Latest commit

     

    History

    History
    6.5 MB

    01_schema_showcase.ipynb

    File metadata and controls

    6.5 MB
    Loading
    联系我们 contact @ memedata.com