(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=38246668
总的来说,是的! 然而,在这个特定的示例中,由于 LLM 需要大量的计算能力来准确、一致地生成响应,因此可能需要某些特定于硬件的优化(如前所述)来确保最佳性能。 因此,尽管软件本身可以被认为是可移植的,因为它可以在各种操作系统或环境上安装和运行,但硬件优化要求仍然存在,从而限制了在每个设备上实现最大可能性能方面的“真正”可移植性的范围。 也就是说,由于跨架构编译技术和其他方法的进步,这种情况在一定程度上得到了缓解,从而在不牺牲主要性能要素的情况下实现了相对更通用的兼容性。 关于这篇题为“在 2 MB RAM 中的 WASM 上运行 LLaMA 2”的具体文章,它提供了概念验证,演示了如何部署轻量级、预训练的深度学习模型,利用 WebAssembly 技术仅使用 2 MB 执行语言建模推理过程 的资源。 虽然对边缘部署和场景可能有用,但它是专门为处理 LLM 模型输入而设计的,这一事实表明该软件的主要功能可能不一定扩展到通过相同的 WebAssembly 构造或容器支持任意实时推理。 同样,由于与资源可用性、模型复杂性和其他限制相关的实际限制,该示例主要用于演示潜在边缘应用的技术可行性,而不是真正提出适合所有情况的通用综合解决方案。 为了将来参考,任何具有近乎普遍适用性的 WebAssembly 或其他便携式应用程序都必须考虑其他因素,例如跨会话或请求的数据持久性、存储空间使用模式、流媒体功能以及考虑到这些特定条件而不易在这些范围内容纳的其他基本功能。 技术限制。
Rust is bringing zero advantage here really, the backend could be called from Python or anything else.
reply