每日HackerNews RSS

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

一种名为“Chorba”的新CRC32算法由Sam Russell开发,并最近在zlib-ng中实现。该算法的性能令人惊讶地与硬件加速的CRC32实现相竞争,甚至在使用PCLMULQDG指令集时,略优于现有方法。 “Chorba”这个名字来源于塞尔维亚音乐家Bora Čorba,也与几个东欧和北非语言中“汤”的词语相关,其词源可追溯到波斯语。该算法的创建者指出,这一发现是意外的,由于其优于几十年来的技术,需要验证。 Hacker News上的讨论强调了实现背后的巧合——这位音乐家的出生年份与描述常见CRC32方法的GZIP标准RFC相符。虽然主要是一种软件解决方案,但也建议其可能为以太网卡等硬件应用带来好处。附带图表中的性能指标可能单位不精确,但对于比较而言是一致的。

这篇帖子哀叹了大多数编程语言处理文件访问方式出乎意料的原始。虽然语言提供了基本的读/写函数和序列化库,但它们大多将文件视为与内存分离的,迫使开发者进行冗长、顺序处理——这是基于磁带系统的遗留物。 作者将其与C的`mmap`函数形成对比,该函数允许直接内存映射文件,即使这些文件大于内存,从而提供高效、与数据类型无关的访问。这避免了代价高昂的解析和序列化。 核心论点是,语言假定文件数据*总是*需要解析/序列化,忽略了直接数据操作更可取的场景,尤其是在处理大文件的内存受限系统上。这导致了不必要的复杂性,并且常常迫使开发者转向低效的解决方法,例如在文件系统*之上*构建完整的数据库(例如SQLite),从而进一步复杂化数据访问。作者认为,鉴于现有语言特性(如自定义分配器),改进的文件处理是可行的。

## C 的文件 API:一则黑客新闻讨论总结 最近一则黑客新闻帖子引发了关于 C 是否真的拥有“最佳”文件 API 的争论,特别是强调了 `mmap` 函数。作者认为 C 的低级访问为文件操作提供了优势,但评论者很快指出 `mmap` 并非 C 独有——它是一个 POSIX 标准,在 Python 和 Java 等语言中都有实现,并且是操作系统核心功能的一部分。 讨论的核心在于 C 的直接访问是否更优越,或者高级语言是否提供具有附加安全性和可移植性的可比功能。虽然 C 在与内核级操作集成方面表现出色,但其他人认为现代语言提供了强大的替代方案。人们对 `mmap` 的错误处理(依赖于 SIGBUS 等信号)及其潜在陷阱(例如处理并发修改)表示担忧。 许多人同意 `mmap` 是一种强大的工具,但并非没有复杂性。一些人建议使用 SQLite 或 LMDB 等替代方案,以实现更强大的文件系统交互。最终,共识倾向于“最佳”是主观的,取决于具体的用例,并且 C 的优势在于它作为低级系统交互的基础作用。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

一个黑客新闻的讨论集中在一个新的“人工智能第三时代”软件开发上,重点从代码审查转向审查人工智能生成的演示。然而,评论者表达了怀疑。 一个主要担忧是“范围漂移”——即使在详细指令下,人工智能代理也倾向于在长时间运行中偏离原始请求。一位用户指出,Claude 经常会提出意想不到的下一步建议,突出了在无人监督的情况下运行代理数小时的潜在问题。 其他人对人工智能公司的营销炒作感到厌倦,建议他们优先展示实际价值(例如解决重大问题),而不是对未来工作进行哲学讨论。普遍的看法是,管理“人工智能代理团队”听起来更像是一种负担,而不是一种好处,并且担心公司正在推广这些工具以避免证明其固有的价值。

## 失去的联结艺术 最近的日常相遇引发了一种认识:我们正在失去——并且不愿——仅仅*与*彼此交谈的能力。两次看似微小的互动——一次与火车上的女性的对话,一次与餐厅服务员的聊天——促使人们反思一种正在消失的社交技能。一个儿子关于如何与陌生人搭讪的问题,突显了支配这些互动的未成文规则,这些规则似乎在现代生活中已被遗忘。 作者认为一场“关系衰退”正在进行,其动力来自技术、社会规范和焦虑。从耳机到触摸屏,随处可见阻碍随意对话的障碍。专家指出,社交技能正在下降,尤其是在年轻一代中,并且对拒绝的恐惧阻碍了联结。 虽然内向等可以理解的原因存在,但更广泛的问题是对冒险的恐惧——无论是发起还是接受联结。研究表明,我们高估了这些互动的风险。作者认为,关键在于降低风险,拥抱“微小的人性化行为”,例如评论天气,并记住,即使是简短的交流也能加强我们共同的人性。 重拾这项技能并非关于改变人生的对话,而是关于维护使我们成为人类的基本方面。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

## Polymarket 投注与内幕信息担忧 Polymarket 预测市场上的一个新账户据报道通过押注美国将打击伊朗赚取了超过 50 万美元。 这引发了 Hacker News 上的讨论,关于这些市场的完整性,许多评论员表达了对潜在内幕交易和腐败的担忧。 几位用户指出该账户早在几个月前就已建立,并且一直在积极进行预测,质疑“新账户”的说法。 一个核心论点是,旨在进行准确预测的投注市场反而吸引了那些拥有特权信息的人,本质上将期货合约游戏化。 一些人认为这些市场会激励人们为了利润而影响事件,或泄露机密信息。 另一些人则为预测市场辩护,认为它们可以减少交易摩擦,并提供有价值的价格发现。 然而,一种普遍的观点是,对少数个人做出的决策进行投注,本质上容易受到利用。 许多人同意,虽然揭露腐败*可能*是积极的,但这些市场会产生扭曲的激励,并奖励那些利用它们的人,从而可能损害整个系统。 争论也涉及此类市场是否应该存在,考虑到其潜在的滥用可能性。

## 监控的武器化 在斯诺登事件揭露八年后,美国国家安全局的大规模数据收集基础设施已经演变成一个强大、由人工智能驱动的监控和目标定位系统。该系统被像移民及海关执法局(ICE)这样的机构积极利用,超越了被动的数据收集,开始*预测*威胁并自动化执法行动——包括驱逐出境和政治镇压。 ICE已与Palantir等公司签订合同,构建“移民操作系统”(ImmigrationOS)和“ELITE”等平台,整合来自各种来源的数据——包括社交媒体、财务记录,甚至应用程序的位置数据——以创建详细的个人资料和“可信度评分”。像Zignal Labs这样的人工智能工具每天监控数十亿条社交媒体帖子,根据用户的在线活动标记个人进行审查,甚至通过地理定位追踪他们。 政府通过从数据经纪人处购买数据,绕过传统的搜查令要求,获取以前受第四修正案保护的信息。面部识别技术被部署在边境各地,尽管人们对其准确性和偏见存在担忧,但其使用范围在缺乏有效监督的情况下不断扩大。此外,旨在监控ICE活动的应用程序经常从应用商店中移除,而政府继续扩大其监控能力,引发了对言论自由的寒蝉效应和公民自由侵蚀的严重担忧。专家警告说,这种不受控制的扩张类似于一个危险的循环,反映了社交媒体时代的陷阱,但规模远大于以往。

Hacker News 上的一场讨论围绕一篇文章的来源——是人类撰写还是由人工智能生成。 许多用户认为这篇文章是使用人工智能提示生成的“点击诱饵”,并建议将其标记为如此,理由是 Substack 等平台上人工智能生成内容日益增多。 然而,其他人不同意,认为这篇文章资料翔实,并且检测工具无法识别为人工智能生成。这场争论凸显了人们对人工智能生成内容日益普及及其对在线信息的影响的担忧。 一场相关的讨论涉及反乌托邦主题,质疑在日益增长的监控和潜在的信息获取限制下,年轻一代的未来,甚至将 TikTok 作为当前的一个例子。

## gzpeek:揭示Gzip文件中的隐藏数据 Gzip文件除了压缩数据外,还包含着丰富的元数据。一个新的工具,**gzpeek**,允许用户检查这些隐藏的信息。Gzip头部会显示诸如用于压缩的操作系统(尽管可靠性各异——有些工具会硬编码值或将其设置为“未知”)、原始文件的修改时间、指示潜在文本数据的标志、压缩级别、原始文件名,甚至可选的注释或任意数据等细节。 作者出于对文件格式规范的兴趣以及学习Zig语言的愿望,创建了gzpeek来探索这些细节。虽然操作系统标志并不总是准确,并且修改时间存在日期限制,但这些元数据提供了对文件历史的有趣见解。 gzpeek是一个命令行工具,可以提取这些信息,从而比以往任何时候都更深入地了解gzip文件。它可供使用,作者鼓励用户探索并分享他们的发现。

Hacker News新 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交登录Gzpeek: 解析Gzip元数据的工具 (evanhahn.com)42 分,作者 ingve 1天前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 mzajc 1天前 [–] 有趣的东西!有点奇怪的是,gzip本身不会显示(有时甚至不会写入)这些值。另一个显示这些值的一些工具是 file(1),至少在 Debian 的 libmagic-mgc 中,例如: gzip 压缩数据,原文件名为 "file.txt",最后修改时间:2026年3月1日 20:21:34,来自 Unix,原始大小模 2^32 为 5 gzip 压缩数据,附加字段,有评论,最后修改时间:2017年12月20日 10:30:35,来自 Unix (奇怪的是,它没有显示实际的评论字符串)回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## MicroGPT:200行代码实现的LLM Andrej Karpathy 使用200行Python代码创建了一个完全可用的GPT语言模型,展示了像ChatGPT这样的模型背后的核心原理,*无需*依赖外部库。该模型从32,000个示例的数据集中学习生成合理的人名。 过程首先将名称转换为数字标记——为每个字符分配一个ID,以及一个“序列开始”标记。然后,模型预测序列中的下一个标记,学习字符之间的统计关系。这种预测依赖于“注意力”机制,允许模型权衡输入不同部分的重要性。 至关重要的是,模型通过反向传播学习,使用交叉熵方法调整其参数以最小化预测误差(损失)。这涉及计算梯度并通过像Adam这样的优化器更新参数。 虽然这个micro-GPT使用简单的Python标量,但其底层算法与更大的LLM相同——这只是规模的问题。差异在于利用GPU、更大的数据集、更复杂的标记化以及大幅增加的模型大小(参数和层)。最终,核心循环保持不变:预测下一个标记,衡量误差,并完善模型。

## Hacker News 上关于 MicroGPT 的讨论 Hacker News 上最近有一篇帖子讨论了“MicroGPT”,这是一个关于构建小型 GPT 模型的交互式解释(链接已提供)。作者“growingswe” 因帖子的深度和写作风格而受到批评,一些评论者认为它读起来像 AI 生成的内容,因为句子简短且标点符号激进。Growingswe 为自己的方法辩护,解释说“随机”的主题反映了个人兴趣,并且帖子是随着时间推移开发的。 有人对文章对初学者的可访问性表示担忧,特别是复杂的数学解释。一场更广泛的讨论出现了,关于 LLM 如何实现推理能力,有人认为这不仅仅是统计推断,还涉及分层的语义理解。 一些评论员注意到作者故意在写作中包含一些小错误,以此作为表明其内容并非由 AI 创建的信号。 围绕 Andrej Karpathy 也存在争论,他的原始博客文章启发了这篇文章,一些人质疑他目前的工作和影响力。 总而言之,这场讨论凸显了在 AI 时代解释复杂的 ML 概念和验证作者身份的挑战。

Please provide the content you want me to translate. I need the text to be able to translate it to Chinese. Just paste it here, and I will give you the Chinese translation.

几位民主党人和所有共和党人在今晚特朗普宣布禁止股票交易时起立鼓掌。有趣的是,共和党人曾试图阻止本党人乔希·霍利(@HawleyMO)的干净法案——一项直接禁止在任期间交易个人股票的法案。该法案仅以委员会投票(8-7)通过,因为所有7名民主党人加入了霍利。所有共和党成员都投了反对票。霍利的法案还将禁止总统和副总统(从2028年开始)。自2025年7月30日以来,该法案一直搁置。⬇️ 现在,正在推动的“禁令”恰好只适用于国会——不包括行政部门。

更多

联系我们 contact @ memedata.com