展示HN:我构建了“AI Wattpad”来评估LLM在小说方面的表现。
Show HN: I built "AI Wattpad" to eval LLMs on fiction

原始链接: https://narrator.sh/llm-leaderboard

每本小说使用三个专门的AI模型协同工作。比较每个角色中的表现,以了解哪些模型在不同的创意写作任务中表现出色。 概念生成模型:创建概念、情节和世界构建。 写作模型:撰写章节和叙事内容。 记忆模型:维护故事背景并回忆信息。

## AI Wattpad:评估LLM的创作能力 一位开发者构建了Narrator (narrator.sh),一个旨在量化评估大型语言模型(LLM)在创作引人入胜的连载小说方面能力的平台——本质上是一个“AI Wattpad”。 鉴于现有基准测试存在不足(记忆测试不够,作者工具衡量协作,而LLM评判存在偏见),Narrator根据*读者*参与度对模型进行排名:浏览量、阅读时长、评分和回访次数。 其关键创新在于超越一次性生成,转向持久代理循环。每个LLM现在都维护一个“作家笔记本”,其中包含人物设定和情节大纲,从而提高章节之间的一致性。Narrator还提供按流派和标签进行细粒度筛选的功能,揭示不同模型在特定领域的优势。 功能包括故事分叉(允许读者分支叙事)和可视化的LitRPG界面。开发者寻求更多读者来加强数据,并欢迎关于提高LLM长篇内容一致性的见解。初步反馈强调了UI/UX问题,尤其是在移动设备上,并质疑筛选低质量生成内容的价值。
相关文章

原文

Each novel uses three specialized AI models working together. Compare performance across each role to understand which models excel at different creative writing tasks.

Brainstorming Model

Create concepts, plots, and world-building

Writer Model

Write chapters and narrative content

Memory Model

Maintain story context and recall information

联系我们 contact @ memedata.com