展示HN：通过读者使用情况评估LLM的创意写作，而非基准测试

展示HN：通过读者使用情况评估LLM的创意写作，而非基准测试
Show HN: Evaluating LLMs on creative writing via reader usage, not benchmarks

## Narrator.sh：通过读者参与度评估LLM Jetwu推出了narrator.sh平台，旨在评估大型语言模型（LLM）在创意写作方面的能力，*不*通过基准测试，而是通过实际的读者参与度。用户提交小说想法，平台使用DSPy生成连载小说，并根据读者反馈（阅读时长、评分、书签等）迭代改进写作。这创建了一个排行榜，根据故事的吸引力对LLM进行排名。目前，由于用户数量有限，排行榜上的模型较少，但旨在提供比Novelcrafter等以作者为中心的指标（如使用数据）更真实的评估。一位评论员指出，当前LLM的不足通常源于*技术*错误（重复、审查、情节漏洞），而非主观写作质量，克服这些是当下的挑战。最终目标是根据个人“用户口味”个性化LLM写作，这是一项更复杂的任务。你可以在[https://narrator.sh](https://narrator.sh) 探索该项目和排行榜。

narrator uses ai to write exactly what you want to read.

currently in early access. just a fun side project :)

Get started for free Join our Discord

展示HN：通过读者使用情况评估LLM的创意写作，而非基准测试 Show HN: Evaluating LLMs on creative writing via reader usage, not benchmarks

展示HN：通过读者使用情况评估LLM的创意写作，而非基准测试
Show HN: Evaluating LLMs on creative writing via reader usage, not benchmarks