Llama.cpp现已支持Vision模型。
Vision Now Available in Llama.cpp

原始链接: https://github.com/ggml-org/llama.cpp/blob/master/docs/multimodal.md

llama.cpp 是由 ggml-org 维护的一个公共 GitHub 仓库。它是一个非常受欢迎的项目,拥有庞大的社区,这从其 79.5k 星标和 11.7k 分支数量可见一斑。该仓库托管代码,跟踪问题(329 个未解决),管理拉取请求(435 个未解决),并促进讨论。它还包括 Actions、项目(9 个)、Wiki、安全功能和 Insights。GitHub 提供了一套功能,例如 GitHub Copilot(AI 代码助手)、高级安全功能、Actions(工作流程自动化)、Codespaces(基于云的 IDE)、问题跟踪、代码审查、讨论区和代码搜索。它为企业、小型团队和初创公司提供服务,为 DevSecOps、DevOps 和 CI/CD 提供解决方案。GitHub 还通过 GitHub Sponsors 支持开源开发者,并提供文档、学习路径、活动和电子书等资源。

Hacker News正在讨论llama.cpp(一个运行大型语言模型的框架)中新的视觉能力。用户dust42报告说,在M1 Mac上使用Gemma模型获得了令人印象深刻的性能。Danielhanchen重点介绍了优化的“unsloth”量化方法,以实现更快的视觉处理,并提供了命令行指令。用户现在可以直接使用`llama-mtmd-cli`工具。Banana_giraffe分享了一个使用Gemma3 4b为照片生成关键词和描述的项目,并将结果存储在SQLite数据库中。讨论涉及与Ollama相比的优化以及llama.cpp与ggml生态系统集成的优势。ngxson指出,llama.cpp现在支持SmolVLM系列,用于快速视频分析。Simonw提供了在macOS上运行新的视觉功能的详细信息,包括使用交互式终端或Web服务器。对话涵盖了GPU卸载和`convert_hf_to_gguf.py`工具的改进。几位用户表达了对更快、本地视觉处理的潜在影响的兴奋之情。

原文
Skip to content
联系我们 contact @ memedata.com