展示HN:1730年代-1960年代报纸的大规模文章提取
Show HN: Large Scale Article Extract of Newspapers 1730s-1960s

原始链接: https://snewpapers.com/

1730年代 – 1960年代 • 美国历史……并且是唯一阅读过这些报纸的人。600万个故事——并且每天都在增加——等待您去探索。从250年的美国历史中提取和整理,由我们的AI完成。您不会在谷歌上找到这些。它们不在ChatGPT上。它们只在这里……

## SNEWPAPERS:一个全新的历史报纸档案 Brettnbutter 启动了 SNEWPAPERS 项目,历时 7 个月,从 Chronicling America 收藏的 1730 年代至 1960 年代的历史报纸中提取了超过 60 万页(5TB)的全文内容。 与仅提供图像扫描和关键词搜索的现有档案不同,SNEWPAPERS 利用复杂的 AI 流程——结合版面、OCR、LLM 和 VLLM 技术——创建几乎完美、语义可搜索的文本。它还提供了一个“代理”搜索工具,帮助用户构建有效的查询。 创建者鼓励用户从“Sleuth”页面开始,获得引导式体验,然后探索保存的搜索查询。初步反馈强调了其令人印象深刻的技术成就,但建议通过提供一个易于搜索的示例数据集(例如一年与奥运会相关的文章)来改善可用性,而无需注册。现在可以通过以下链接进行一些示例搜索,无需身份验证:[https://snewpapers.com/components/…](https://snewpapers.com/components/…)
相关文章

原文

1730s – 1960s • American History

…and the only one that has read the papers.

6 million stories — and growing daily — are waiting for you to explore. Extracted and organized by our AI from 250 years of American History.

You won’t find these on Google.

They aren’t on ChatGPT.

They’re only here on…

联系我们 contact @ memedata.com