展示HN:通过读者使用情况评估LLM的创意写作,而非基准测试
Show HN: Evaluating LLMs on creative writing via reader usage, not benchmarks

原始链接: https://www.narrator.sh/

narrator利用人工智能创作你想要阅读的内容。目前处于早期访问阶段,只是一个有趣的副项目 :) 免费开始 加入我们的Discord © 2025 narrator. 带着❤️在SF制作。 隐私政策 隐私条款 服务条款 LLM排行榜

## Narrator.sh:通过读者参与度评估LLM Jetwu推出了narrator.sh平台,旨在评估大型语言模型(LLM)在创意写作方面的能力,*不*通过基准测试,而是通过实际的读者参与度。用户提交小说想法,平台使用DSPy生成连载小说,并根据读者反馈(阅读时长、评分、书签等)迭代改进写作。这创建了一个排行榜,根据故事的吸引力对LLM进行排名。 目前,由于用户数量有限,排行榜上的模型较少,但旨在提供比Novelcrafter等以作者为中心的指标(如使用数据)更真实的评估。一位评论员指出,当前LLM的不足通常源于*技术*错误(重复、审查、情节漏洞),而非主观写作质量,克服这些是当下的挑战。最终目标是根据个人“用户口味”个性化LLM写作,这是一项更复杂的任务。 你可以在[https://narrator.sh](https://narrator.sh) 探索该项目和排行榜。
相关文章

原文
narrator uses ai to write exactly what you want to read.
currently in early access. just a fun side project :)
联系我们 contact @ memedata.com