展示HN：从头开始构建的文本到视频模型（两兄弟，两年，20亿参数）

展示HN：从头开始构建的文本到视频模型（两兄弟，两年，20亿参数）
Show HN: Text-to-video model from scratch (2 brothers, 2 years, 2B params)

原始链接: https://huggingface.co/collections/Linum-AI/linum-v2-2b-text-to-video

Hugging Face 模型数据集 Spaces 社区文档企业定价登录注册 Linum-AI 的 Collections Linum v2 (2B, text-to-video) Linum v2 (2B, text-to-video) 更新于 3 小时前 360p 或 720p, 2-5 秒, Apache 2.0 赞 1 Linum-AI/linum-v2-360p 文本到视频更新于 2 天前 3 Linum-AI/linum-v2-720p 文本到视频更新于 3 天前 2 赞 1 分享 Collection 查看历史 Collection 指南浏览 Collections 系统主题公司使用条款隐私关于招聘网站模型数据集 Spaces 定价文档

## Linum V2：新型文本到视频模型 Sahil和Manu兄弟发布了Linum V2，这是一个从头开始训练的、拥有20亿参数的文本到视频模型，采用Apache 2.0许可。该模型生成2-5秒的360p或720p视频片段，性能可与阿里巴巴的Wan 2.1媲美，但在运动和美观方面有所改进。受现有模型的局限性和对完全控制的渴望驱动，他们重建了系统，利用T5进行文本编码，并采用DiT变体骨干网络和流匹配。一个关键的重点是构建有效的数据整理流程。目前，该模型擅长卡通风格、食物和自然场景，但在复杂的物理现象、快速运动和一致的文本方面存在困难。开发者旨在通过后训练、知识蒸馏和添加音频功能来解决这些限制，最终进一步扩展模型规模。他们强调拥有底层模型对于构建他们设想的具体产品功能至关重要，这超出了现有API（如Veo/Sora）所能提供的范围。模型链接已在Hugging Face上提供。

Hugging Face

Linum-AI 's Collections

Linum v2 (2B, text-to-video)

updated about 3 hours ago

360p or 720p, 2-5 seconds, Apache 2.0

展示HN：从头开始构建的文本到视频模型（两兄弟，两年，20亿参数） Show HN: Text-to-video model from scratch (2 brothers, 2 years, 2B params)

Linum v2 (2B, text-to-video)

展示HN：从头开始构建的文本到视频模型（两兄弟，两年，20亿参数）
Show HN: Text-to-video model from scratch (2 brothers, 2 years, 2B params)