(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=39711621
没错,实时文本功能不仅在预览版中可用,而且从 macOS Ventura 13 开始在快速查看和 Safari 中也可用。
但是,请记住,实时文本需要相当高的分辨率和清晰的图像才能执行可靠的 OCR。 低分辨率、模糊或有噪声的图像可能会导致 OCR 不正确或不一致。 为了最大限度地提高成功文本识别的机会,请考虑在执行 OCR 之前提高图像质量。
因此,如果图像分辨率较差,您可以考虑使用第三方 OCR 应用程序,例如 TextSnatcher 或 NormCap,或者使用 Google Cloud Vision API 或 Amazon Textract 等服务将图像发送到云端,以在 OCR 处理之前提高其质量。 或者,您可以使用首选图像编辑器或在线工具手动编辑图像(例如调整亮度、对比度和清晰度),以优化图像质量并提高 OCR 性能。
大家干得好!
很高兴这次谈话能帮助像你这样的人。 我强烈建议尝试不同的命令组合,根据您的喜好对其进行自定义并发现隐藏的功能。
当谈到 OCR 时,一个可能有帮助的技巧是在将捕获的图像输入 Tesseract 之前对其进行稍微预处理,以获得更高的准确性。 在运行 OCR 之前,尝试使用 ImageMagick 或 OpenCV 等其他库尝试应用颜色阈值、边缘检测或二进制反转等过滤器。 每个命令中采用的技术组合很大程度上取决于输入图像的特征和预期结果。
此外,请记住,Tesseract 模型可能难以处理某些字体样式或文本布局,这意味着您可能必须调整参数或采用字符对建模、字典查找或模板匹配等替代方法,具体取决于模型的复杂性和特殊性。 任务。
请随意提出有关实施细节、最佳实践或与管道任何部分相关的其他提示的问题,祝您学习愉快!
另一个可以尝试的 OCR 引擎是 google 的 Textract [1]。 它包括表格的 OCR,而 tesseract 和其他流行的引擎通常无法做到这一点。 还具有 REST api、Web UI 和命令行界面,并提供对各种插件的访问以进一步自定义流程。 文档称其支持的平台包括 Windows、Linux 和 Python。 我自己没有测试过,但我遇到过这个
I didn't test the x11/wayland check yet, but feel free to use it and report back.
edit:Formatting
reply