请启用 JavaScript 并禁用任何广告拦截器。
请启用 JavaScript 并禁用任何广告拦截器。
请启用 JavaScript 并禁用任何广告拦截器。
加载中...
客户端挑战:您的浏览器已禁用 JavaScript。请启用 JavaScript 以继续。网站的必要部分无法加载。这可能是由于浏览器扩展、网络问题或浏览器设置造成的。请检查您的连接,禁用任何广告拦截器,或尝试使用不同的浏览器。
彭博社 需要帮助?请联系我们 我们检测到您的计算机网络存在异常活动 要继续,请点击下面的框来确认您不是机器人。 为什么会发生这种情况? 请确保您的浏览器支持 JavaScript 和 cookies,并且没有阻止它们加载。 更多信息请查看我们的服务条款 和 Cookie 政策。 需要帮助? 关于此消息的咨询,请联系 我们的支持团队并提供下面的参考ID。 阻止参考ID:559c49ab-0050-11f1-8168-8f8e66e94ab1 通过彭博社订阅,随时掌握最重要的全球市场新闻。 立即订阅
🛡️ 安全验证 验证您是否为机器人 ⏳ 正在验证您的浏览器… 验证并继续 ✓ 验证完成 此页面将在稍后自动跳转…
多年来,作者依靠通过10Gbps网络使用`rsync`来传输大型视频项目(通常包含数百个文件,有些高达10GB),在NAS和雷雳SSD之间进行传输。尽管存储和网络硬件很快,但`rsync`的单线程特性将传输速度限制在约350MB/秒,复制约59GB的数据需要超过8分钟。尝试使用压缩或守护进程优化`rsync`效果不佳,甚至由于NAS的基于Arm的处理器而导致速度变慢。 解决方案是`rclone`,这是一种先前用于云备份的工具。利用`rclone`的`--multi-thread-streams`选项,作者实现了4倍的速度提升,使传输速度达到1GB/秒的网络连接上限,并在短短2分钟多一点的时间内完成了相同的传输。虽然报告的数据大小存在细微差异(可能由于文件排除),但`rclone`的并行传输能力极大地提高了效率。对于增量更改,两种工具的性能相似,这表明`rclone`的优势在于其能够并发传输多个文件。
## AdBoost:一款别出心裁的浏览器扩展
AdBoost 是一款独特且带有讽刺意味的浏览器扩展,专为 GitHub 设计,旨在*添加*广告到网页——与典型的广告拦截器相反。它由 surprisetalk 创建,并被宣传为“唯一一款向网页添加广告的浏览器扩展!”
该项目在 GitHub 上公开可用,需要通过 Chrome 的扩展开发者模式手动安装。它包含一个 `manifest.json`、`content.js` 和 `readme.md` 文件。
目前,AdBoost 获得了 2 颗星和 0 次分叉,表明它更像是一个新奇项目,而不是一个被广泛使用的工具。它作为对在线广告盛行的有趣评论,以及扩展开发的一个演示。
## Nano-vLLM:深入探讨LLM推理
大型语言模型 (LLM) 推理依赖于像 Nano-vLLM 这样的引擎,它是一个精简的(约 1,200 行 Python 代码)实现, 遵循 vLLM 的核心原理。本系列文章将探讨提示如何转换为令牌并被高效处理,从而影响系统设计。
Nano-vLLM 采用生产者-消费者模式:提示会被标记化并添加到调度器队列中。调度器将这些序列分批处理,平衡吞吐量(处理速度)和延迟(响应时间)——更大的批次会提高吞吐量,但可能会延迟单个响应。 推理发生在两个阶段:*预填充*(处理初始提示)和 *解码*(生成输出令牌)。
一个关键创新是块管理器,它将序列划分为固定大小的块,并通过哈希缓存常用前缀,以最大限度地减少冗余计算。该控制平面有效地管理 GPU 内存,重用块而不是重新计算它们。模型运行器然后执行模型,可能利用张量并行性将工作负载分配到多个 GPU 上。 CUDA 图进一步提升了性能,减少了解码阶段的开销。 最后,采样将模型输出(logits)转换为令牌,温度控制生成文本的随机性。
第二部分将深入研究模型的内部计算,包括注意力机制和张量并行性,从而完成对整个推理流程的理解。