## 世界模型与预测的力量
下一帧和下一词元预测是强大的预训练任务,因为它们迫使模型直接从数据中学习世界运作方式,所需的先验知识最少。减少对接下来发生的事情的不确定性,能够解锁越来越强大的能力——在语言模型中,随着上下文长度的增加,这一点表现得尤为明显。
这个原理延伸到从视频中学习的“世界模型”。为了预测未来的观察结果,模型必须推断世界的潜在状态以及它的变化方式,从而掌握物理学、因果关系和持久性。至关重要的是,需要*长*序列来学习维持内部“隐藏状态”——即使在未观察到的情况下也能理解事件(例如,正在注满的浴缸)。
与建立在手工规则上的传统模拟器不同,后者仅限于特定领域,世界模型*学习*从海量视频数据中进行模拟。这允许采用一种更通用、更可扩展的方法,模型可以动态地关注关键信息,而不是受预定义保真度的约束。这代表着向学习模拟本身转变,有望在表示复杂、长时效动力学方面取得重大进展。
## 新的IPv4“沼泽”:摘要
IPv4地址空间,曾经面临耗尽,现在类似于20世纪90年代历史上的“沼泽”——特点是地址管理分散、效率低下。虽然最后一个IPv4区块是在2011年分配的,但它们的分配方式反映了旧的沼泽:大量小型前缀(通常为/24)分配给众多实体。
最初,RIPE NCC和LACNIC等注册机构迅速分配了新的区块,随后是APNIC和ARIN。今天,几乎所有这些地址都已分配,但与过去不同,这并没有解决路由问题。互联网路由表中的路由数量激增(现在超过100万),/24前缀仍然占60%以上——阻碍了地址聚合。
这种碎片化影响了互联网安全。地址波动性增加——区块频繁易手——使得将活动与声誉关联变得困难,导致威胁缓解方面可能出现不准确的情况。有效的安全现在需要实时可见性、主动自动化缓解以及情报驱动的防御,以应对这个日益不稳定的环境中不断演变的网络威胁。本质上,整个IPv4空间已经采用了原始“沼泽”的特征,为网络安全和管理带来了新的挑战。
这篇帖子详细介绍了一项关于童谣“Jingle Bells, Batman Smells”的有趣非正式研究。作者是一位具有科学背景的词典编纂者,他在BlueSky上发起了一项关于人们记忆中童谣版本的调查,收到了意想不到的大量回复。
分析显示出鲜明的“跨大西洋差异”:英国的版本非常多样化,包含圣诞老人等角色和本地化参考(特定高速公路),而北美版本则 overwhelmingly 集中在“罗宾生了个蛋”和蝙蝠车掉轮子。北美的这种一致性与1989年《辛普森一家》中的一个情节有关,可能影响了集体记忆。
这项研究强调了民间传说如何演变,变体就像“进化树”中的突变。一些稀有的“活化石”版本也浮出水面,例如用孩子和屁替换蝙蝠侠的版本。最终,该项目表明,一个简单的童谣反映了文化差异以及媒体塑造——或者说*重塑*——我们记忆的力量。
## 2025年构建强大的100TB NAS:摘要
构建100TB网络附加存储(NAS)现在比以往任何时候都更经济实惠,并且更容易实现,为云存储和昂贵的预建解决方案提供了一种具有成本效益的替代方案。典型的构建成本约为2500-3500美元,使用TrueNAS SCALE(基于Linux的操作系统),配备八个18-22TB CMR企业级硬盘(Seagate Exos、WD Ultrastar或Toshiba MG系列)。关键组件包括支持ECC RAM的Supermicro X12STH-F主板(32-64GB)、Intel Xeon或AMD Ryzen CPU,以及刷新为IT模式的Broadcom LSI 9300-8i HBA,再加上10GbE网络连接。
与云服务(如Backblaze B2,100TB成本超过6000美元)或商业NAS盒子相比,这种DIY方法在五年内可以节省大量资金。它提供了对硬件、安全性和可扩展性的更大控制——对于4K视频编辑、大型数据集和虚拟化等苛刻任务至关重要。
优先选择CMR硬盘而非SMR,规划RAIDZ2以提高可靠性,并考虑未来的扩展。投资高质量的电源和UPS至关重要。TrueNAS SCALE的新OpenZFS 2.3功能,如RAIDZ扩展,进一步增强了灵活性。最终,DIY NAS以较低的成本提供企业级存储。