每日HackerNews RSS

## GM-SEUS 数据集 v2 摘要 美国地面安装太阳能 (GM-SEUS) 数据集的第二个版本已发布,在初始版本的基础上扩展,包含超过 340 万个太阳能电池板,以及一个新的屋顶阵列数据集。该分析涉及使用 GDAL 和 DuckDB 在高性能工作站(AMD Ryzen 9 9950X,96GB 内存,4TB NVMe SSD)上处理数据,操作系统为通过 Windows 11 运行的 Ubuntu 24 LTS。 该数据集已转换为 Parquet 格式,以实现高效分析。屋顶阵列数据集包含 5,822 条记录,电池板数据集包含 3,429,157 条记录,阵列数据集包含 18,980 条记录。分析揭示了数据质量信息,包括每个数据集列中的空值百分比和唯一值计数。 生成了热图以可视化屋顶和地面安装阵列的分布。来源归属因地理位置而异,OSM 是屋顶阵列最常见的来源,而 OSM/USPVDB 是地面安装阵列的常见来源。还分析了容量统计数据,显示了基于安装年份的平均和最大容量趋势。数据突出了阵列和电池板数据集之间来源归属和覆盖范围的不一致性。

在最近的美国和以色列军事行动后,伊朗国家媒体声称,思科、瞻博网络、Fortinet和MikroTik的网络设备在袭击期间出现故障,即使伊朗已断开与全球互联网的连接——暗示通过隐藏的固件或后门进行蓄意破坏。这些说法尚未得到证实。 美国已确认开展网络行动,以扰乱伊朗通讯,作为“史诗狂怒行动”的一部分,但尚未直接回应具体指控。值得注意的是,所有四家被提及的厂商都有记录在案的安全漏洞历史,包括潜在监控植入物(思科)和可利用的代码(瞻博网络、Fortinet、MikroTik)。 中国国家媒体扩大了伊朗的说法,将其作为美国硬件中后门的进一步证据。伊朗的互联网仍然受到严重限制,自袭击开始以来,经历了创纪录的52天近乎完全关闭。虽然破坏程度尚不清楚,但该事件凸显了对网络基础设施安全性和广泛使用的设备中潜在漏洞的担忧。

对不起。

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

对不起。

Meta正在其员工电脑上部署新的监控软件“模型能力计划”,以收集数据用于改进其人工智能模型。该工具将追踪击键、鼠标移动并截取屏幕截图,员工在使用Gmail和VS Code等工作应用程序时会被监控。 Meta声称,人工智能需要理解人类电脑使用方式,才能构建能够处理诸如预订旅行或管理电子邮件等任务的有效“代理”,最终目标是实现人工智能完成大部分工作,而人类提供指导的未来。 考虑到Meta过去大量收集用户数据和隐私问题,这一举动具有讽刺意味。员工现在将体验到之前仅对其数十亿用户保留的相同级别的监控,因为该公司正在追求由首席执行官马克·扎克伯格领导的“个人超级智能”愿景。Anthropic、OpenAI和微软等其他科技公司也在开发类似的代理技术。

## 超越更长的上下文:为什么LLM需要权重更新 目前改进LLM学习的主流方法是增加上下文窗口大小,利用KV缓存压缩和高效注意力机制的进步。然而,这假定仅仅增加足够的上下文长度就能消除模型权重更新的必要性——这是一个错误的假设。上下文和权重共同塑造了Transformer的内部表示(激活),但运作方式不同。上下文通过KV缓存提供*临时*的激活偏移,功能上模拟了单步梯度下降,而权重更新则创建了对模型核心计算的*永久*改变。 虽然令人印象深刻,但上下文本质上是运行在模型“硬件”(冻结权重)上的“软件”。它在模型预训练的分布范围内表现出色,但在需要新颖内部表示的任务面前会达到上限。权重修改则相反,*重新设计*了硬件,从而实现全新的计算。 此外,基于权重的学习更有效率——知识被编译到模型中(O(1)成本),而长上下文则需要持续的注意力成本(O(n))。最终,两者都至关重要:长上下文提供工作记忆,而权重更新则实现持久的知识积累和泛化。正如大脑同时利用快速、临时和缓慢、持久的记忆一样,LLM需要同时具备上下文*和*权重空间学习,才能实现真正强大和适应性的智能。

对不起。

## GPS工作原理:摘要 GPS依赖于巧妙地将**时间转化为距离**。卫星广播信号,你的手机测量信号到达所需的时间——本质上使用一个秒表。已知光速,行程时间揭示了到每颗卫星的距离。 然而,仅一颗卫星只能将你定位在围绕它的某个**球体**上。**三颗卫星对于准确的定位至关重要**,通过一种称为三边测量(三角定位)的过程,三个球体的交点可以确定你的位置。 **第四颗卫星对于校正手机时钟的不准确性至关重要**,因为手机时钟不如卫星上板载的原子钟精确。即便如此,**爱因斯坦的相对论**也至关重要;卫星的速度和高度会影响时间,导致时钟漂移,如果不进行校正,会导致每天数公里的误差。 现代GPS接收器利用来自**多个卫星星座**(GPS、GLONASS、Galileo、北斗)的信号,并采用技术来最大限度地减少信号反射(多径效应)造成的误差,并优化卫星几何形状以获得最准确的结果。这个复杂的系统能够让你的手机将你的位置精确定位到米级,这既是对工程学也是对物理学的证明。

对不起。

要使用 Mastodon 网页应用程序,请启用 JavaScript。或者,尝试为您的平台使用 Mastodon 的原生应用程序。

Meta公司因宣布将在美国员工的工作电脑上安装软件以追踪键盘敲击、鼠标移动和屏幕内容而面临内部反对。这些数据将被用于训练其人工智能模型,帮助它们更好地理解人类与电脑的交互方式,例如使用快捷键和下拉菜单。 尽管Meta声称已采取保障措施来保护敏感信息,并将追踪限制在Gmail和GChat等工作应用程序中,但员工们表达了不适和沮丧。一个主要担忧是缺乏退出选项,Meta的首席技术官已证实这一点。 此举是Meta大力发展人工智能的一部分,包括成立“超级智能实验室”部门。虽然员工的工作设备已经受到监控,但这项新计划扩大了追踪范围,引发了对隐私的担忧,尽管Meta做出了保证。

对不起。

## C10K 问题与异步编程的演变 处理数千并发连接的挑战(C10K 问题)催生了一系列解决方案,每一个都在改进前一个的基础上,但也引入了新的复杂性。 最初,为每个连接分配一个线程被证明是不可持续的,因为线程的成本很高——内存使用和上下文切换开销。 回调作为最初的响应,通过使用事件循环避免了线程泛滥。 然而,这造成了“回调地狱”——深度嵌套、难以管理的、错误处理分散的代码。 Promises/Futures 通过将最终结果表示为对象,从而改进了易用性,实现了链式调用和更好的错误管理,但难以处理流,并引入了类型划分(同步与异步)。 Async/await 进一步简化了代码,使异步操作*看起来*是顺序执行的。 然而,这引入了“函数着色”——同步函数和异步函数之间的划分,需要对整个项目进行代码修改。 这导致了生态系统碎片化(例如在 Rust 中)以及微妙的错误,如“futurelocks”。 每一波都解决了之前的问题,但积累了成本——代码库的结构性变化、新的错误类型以及隐藏的并发性——这表明了一种模式:专注于*管理*并发,而不是从根本上重新思考它的方法。 虽然单个异步函数的开发体验有所改善,但整个系统的复杂性却增加了。

更多

联系我们 contact @ memedata.com