展示HN:从头开始构建的文本到视频模型(两兄弟,两年,20亿参数)
Show HN: Text-to-video model from scratch (2 brothers, 2 years, 2B params)

原始链接: https://huggingface.co/collections/Linum-AI/linum-v2-2b-text-to-video

Hugging Face 模型 数据集 Spaces 社区 文档 企业 定价 登录 注册 Linum-AI 的 Collections Linum v2 (2B, text-to-video) Linum v2 (2B, text-to-video) 更新于 3 小时前 360p 或 720p, 2-5 秒, Apache 2.0 赞 1 Linum-AI/linum-v2-360p 文本到视频 更新于 2 天前 3 Linum-AI/linum-v2-720p 文本到视频 更新于 3 天前 2 赞 1 分享 Collection 查看历史 Collection 指南 浏览 Collections 系统主题 公司 使用条款 隐私 关于 招聘 网站 模型 数据集 Spaces 定价 文档

## Linum V2:新型文本到视频模型 Sahil和Manu兄弟发布了Linum V2,这是一个从头开始训练的、拥有20亿参数的文本到视频模型,采用Apache 2.0许可。该模型生成2-5秒的360p或720p视频片段,性能可与阿里巴巴的Wan 2.1媲美,但在运动和美观方面有所改进。 受现有模型的局限性和对完全控制的渴望驱动,他们重建了系统,利用T5进行文本编码,并采用DiT变体骨干网络和流匹配。一个关键的重点是构建有效的数据整理流程。 目前,该模型擅长卡通风格、食物和自然场景,但在复杂的物理现象、快速运动和一致的文本方面存在困难。开发者旨在通过后训练、知识蒸馏和添加音频功能来解决这些限制,最终进一步扩展模型规模。 他们强调拥有底层模型对于构建他们设想的具体产品功能至关重要,这超出了现有API(如Veo/Sora)所能提供的范围。模型链接已在Hugging Face上提供。
相关文章
联系我们 contact @ memedata.com