每日HackerNews RSS

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2025 X Corp.

一段关于杰弗里·埃普斯坦试图自杀的12秒视频在司法部网站上流传,引发了黑客新闻的讨论。最初的反应认为司法部发布了此前未公开的影像。然而,评论员很快指出该视频很可能是伪造的。 该视频是在大量与埃普斯坦相关的文件中发现的,最初因其挑衅性而被标记。用户追踪到该视频源自2020年使用Blender制作的一个业余YouTube视频,从而驳斥了其真实性的说法。司法部文件中的一份PDF也提到了一个已知的假视频。 在讨论开始后不久,司法部网站上原始文件的访问权限受到了限制。最初发布者澄清说,司法部会常规上传所有收到的文件,包括伪造内容,视频的存在很可能是由于这个过程造成的。这次讨论凸显了在大型、未过滤的数据集中验证信息的挑战。

## tc:一种与语言无关的测试框架 tc 是一个精简的、与语言无关的测试框架,专为“人工智能时代”设计,其中测试被认为是权威规范,代码是可丢弃的。它允许你编写一次测试,并将其应用于用任何语言编写的代码(Bash、Python、Rust、Go 等)。 **工作原理:** 测试被组织为目录。每个测试从标准输入读取 `input.json`,并将 `expected.json` 写入标准输出。依赖项很少——只需要 `jq`。 **主要特性:** * **语言无关性:** 使用统一的测试套件测试任何语言。 * **简单结构:** 测试组织为具有 JSON 输入/输出的目录。 * **模式匹配:** 支持在 `expected.json` 中进行动态值验证(UUID、时间戳、数字、字符串)。 * **并行执行:** 并行运行测试以获得更快的结果。 * **测试生成:** 包括 `tc new` 用于创建测试套件,以及通过 `tc-kit` 进行实验性 AI 驱动的测试生成。 **入门:** 克隆仓库,将 `tc/bin` 目录添加到你的 `PATH`(关键是避免与 Unix `tc` 命令冲突),并使用 `tc new` 创建你的第一个测试套件。 **愿景:** 实现快速的语言移植,并在实现演进时保持测试的稳定性。

荒诞海盗互联网博客的作者表达了对 Hacker News 平台上内容泛滥的沮丧,特别是以人工智能/大型语言模型为中心的文章,占据了平台的热门版块。他们并非反对真正的技术讨论,而是反对那些*专门为*吸引 Hacker News 注意力而优化的文章,这些文章通常围绕着人工智能的炒作和“范式转变”等流行词汇。 作者珍视该平台在于其日常、平凡的想法,并认为以人工智能为中心的内容削弱了这种独特的吸引力。他们明确表示,他们并非要求进行审核,只是表达了自己的不满,并劝阻任何计划表达不同意见的人——他们的意见将被忽略。本质上,他们渴望回归更真实、更少追逐潮流的内容。

## Hacker News 讨论总结:“我厌倦了 Hacker News 的垃圾内容” 一篇来自 absurdpriate.com 的 Hacker News 帖子引发了关于 Hacker News 和名为 Bearblog 的博客平台内容质量的长时间讨论。原作者抱怨“垃圾内容”——看似由 AI 生成或低质量的内容——被 Hacker News 的点赞放大,然后主导了 Bearblog 的发现页面。 对话很快演变成澄清“这个平台”指的是什么(由 Herman 托管的 Bearblog),以及争论 AI 生成内容(“AI 釉面”)在 HN 上的普遍程度。许多评论者认为该抱怨含糊不清且无益。 进一步的讨论扩展到更广泛的主题:AI 对内容创作的影响、人类创作作品的价值,以及使用 AI 进行快速原型设计与真正拥有项目之间的平衡。一些人对 AI 驱动的功能蔓延感到沮丧,并渴望更简约、经过深思熟虑的软件。具有讽刺意味的是,一位评论员承认使用 LLM 来总结这个冗长的帖子。

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## 通用推理模型摘要 一种新模型展示了改进的推理能力,在ARC1基准测试中达到53.8%,在ARC2基准测试中达到16.0%。该架构建立在HRM & TRM等先前工作之上,侧重于将循环和推理缩放集成到Transformer中,*无需*依赖完整的循环梯度追踪。 讨论的中心在于模型如何处理信息流——具体来说,后层是否能有效地访问来自前层的信息。虽然当前设计不允许直接查询早期层的数据,但有人建议通过潜在循环或修改分词过程来改进,以便高层能够检查“原始”数据。 该模型被描述为由LLM切片构建的RNN,或具有共享层权重的Transformer,提供了一种比简单地通过更大的模型“暴力”求解答案更“明智”的方法。相关论文(arxiv.org/abs/2502.05171)将这种循环与下一个token预测相结合,显示出有希望的结果。值得注意的是,这代表了工程改进,而非基础性突破,并且报告的分数并非来自官方的、私有的评估数据集。

自动收集公司信息、电子邮件和社交资料,以提升您的销售和推广效果。直接将相关网站抓取至表格中,追踪竞争对手、定价和趋势进行分析。从多个来源提取博客文章、新闻和产品信息,为市场营销或研究创建精选数据集。从任何网站收集结构化数据,并在Google表格中直接运行分析、图表或公式。提取联系信息和相关内容,以便在不离开表格的情况下快速撰写个性化电子邮件或开展营销活动。自动监控竞争对手的网站或整个行业的变化、新产品或新兴趋势。

## Vurge:基于AI的Google表格网页抓取工具 Rahulsingh34发布了Vurge,一个旨在简化小型企业数据增强的Google表格插件。Vurge提供对AI驱动的网页抓取工具的直接访问,允许用户在表格*内*提取结构化数据——无需单独的工具或编码。 该发布在Hacker News上引发了讨论,主要围绕着对“Clay”(指clay.com)不清晰的类比,而没有为不熟悉的用户提供背景信息。用户还质疑“每月80次请求”的定价结构,认为这可能具有限制性。有人建议通过移除初始测试的注册要求来降低准入门槛。 总而言之,Vurge旨在成为一个用户友好的解决方案,可在熟悉的Google表格环境中直接进行网页抓取。

## 激进分子中的一生:纪念克兰西·西格尔 本文反思了作者托德·吉特林与作家克兰西·西格尔长达数十年的联系,始于通过多丽丝·莱辛的《金色笔记本》发现西格尔,这部小说被广泛认为取材于西格尔作为幻灭的左派的生活。吉特林自己也是一位年轻的活动家,被西格尔作为一个复杂、破碎的人物形象所吸引,他正在与失败的理想作斗争。 后来,他接触到西格尔自己的作品《离去》,这部作品生动地描绘了二战后美国旧左派日益衰退的能量。吉特林在西格尔关于政治失败和对意义的追寻中的诚实中找到了共鸣。他们的联系随着岁月的流逝而加深,标志着共同的政治热情——包括女权主义和反战活动——以及与莱辛的复杂关系,她既通过小说使西格尔永垂不朽,又在西格尔看来背叛了他。 西格尔一生都保持着坚定、常常与众不同的声音,抵制简单的归类,并继续大量写作。吉特林钦佩西格尔对行动毫不动摇的奉献精神,以及即使在某些政治立场上存在分歧,他也拒绝妥协原则。最终,西格尔体现了一种充满激情的生活,既有辉煌也有心碎,并且在缺乏诚信的世界中不断追寻正直。

这个Hacker News讨论围绕着耶鲁评论发表的一篇文章《追寻克兰西·西格尔》(2021)。最初发帖人dang强烈推荐这篇文章,并指出其深度。 评论主要围绕文章的主题西格尔及其写作展开——特别是他在《大西洋月刊》上发表的几十年以前的回忆录。然而,由于一条包含不当引用的评论被标记,讨论迅速演变成关于如何回应“钓鱼”评论与根据网站准则标记它们的争论。 网站管理员dang多次介入,提醒用户避免人身攻击并遵守准则,甚至对一位评论者开玩笑地提供了“克兰西豁免”。最后一条评论揭示了一个有趣的误解——一位用户最初以为这篇文章是关于一个隐藏的“克兰西符号”。

## 独立软件开发者面临的挑战演变 过去几十年,独立软件开发者的环境发生了巨大变化。从 20 世纪 80 年代通过软盘和邮购支票分发的共享软件开始,互联网最初带来了黄金时代——价格实惠的工具、不断增长的市场和简化的在线支付。在 20 年的时间里,勤奋的工作和聪明的营销(搜索引擎优化、广告)可以带来不错的收入。 然而,作者注意到最近难度明显增加。虽然开发工具不断改进,但推广渠道的效果正在下降。由于人们越来越依赖大型语言模型(LLM)的摘要,搜索引擎流量正在减少,这降低了内容创作的价值。在线广告费用高昂且充斥着欺诈。 像应用商店这样的新平台也带来了挑战——低价预期、激烈的竞争以及对平台所有者的依赖。大型语言模型(LLM)的兴起也降低了竞争对手的进入门槛,即使他们的产品质量较差。加上生活成本危机,小型供应商越来越难获得曝光并产生可持续的收入。虽然新的渠道*通常*会出现,但目前独立开发者可行的选择却显得稀缺。

启用 JavaScript 和 Cookie 以继续。

## 科罗拉多河水危机:摘要 Hacker News 的讨论集中在科罗拉多河及其在美国西部水资源利用日益严重的危机。 州与日益减少的资源作斗争,联邦政府正加大压力,要求各方妥协。 一个关键的争论点是农业用水,尤其是在内华达等干旱州,75% 的水用于农业。 然而,评论员指出内华达州实际上用水总量*最少*,而数据中心是一个日益令人担忧的问题。 “先时先权”原则(时间优先,权利优先)确立的水权历史背景被强调为解决问题的重大障碍。 这种制度激励持续用水以避免失去权利,即使在资源稀缺的情况下也是如此。 讨论中的潜在解决方案包括开放的水市场、统一的水资源使用税,甚至是对水权的征用——尽管后者会带来重大的法律和财务挑战。 这场辩论还涉及在沙漠中耕作的可行性、公司农业的作用,以及投资基础设施以支持替代水源和更有效利用的需求。 最终,这场对话强调了法律先例、经济利益和环境现实在解决这一关键问题中的复杂相互作用。

加州公共事业委员会(CPUC)以4比1的投票结果,决定维持大型投资者拥有的公用事业公司(如南加州爱迪生)目前的利润率,尽管客户抱怨电费飙升。虽然略微降低了费率——爱迪生的费率从10.3%降至10.03%——但由于公用事业公司继续投资基础设施,导致与这些投资相关的账单组成部分增加,因此这一决定不太可能对客户成本产生重大影响。 消费者团体认为,大约10%的股本回报率仍然过高,估计如果费率接近6%,每年可节省61亿美元。他们认为这会激励过度支出,并将财富从客户转移到公司。一位反对的委员表达了同样的担忧,强调了加州人难以负担电费的困境。 公用事业公司辩称,更高的费率是由于野火风险以及吸引基础设施和清洁能源转型投资的需要。加州目前的电力费率在美国排名第二高,爱迪生的费率在过去三年中上涨了40%以上,并且有大量客户拖欠付款。

## 重新构想面向现代硬件的数据库 核心问题是:如果利用90年代以来的进步——特别是快速的本地SSD和强大的云基础设施,我们今天应该如何从头设计一个关系数据库? 当前的数据库是为慢速旋转磁盘构建的,优先考虑诸如预写日志和批量缓冲等技术。 分析表明,有几个关键的改变。 首先,**缓存大小**应侧重于预期重用30秒到5分钟的时间窗口,尽管存储速度已大大提高,但这与80年代的研究结果相符。 其次,**传输大小**应以大约32kB为目标,以最大化SSD吞吐量。 第三,**持久性**应通过可用区*之间*的同步复制来实现,从而将重点从单系统可靠性转移开。 现代网络能够在不牺牲可扩展读取的情况下实现强一致性,并利用高质量的时钟进行优化。 关键在于,可以最大限度地减少对本地持久性和恢复机制(如传统的WAL)的依赖,并用分布式日志来代替,以实现多机器持久性。 最终,关系模型、ACID属性和SQL仍然具有价值。 然而,现代数据库应将持久性、可扩展性和可用性视为分布式问题,并在多AZ环境中针对实际性能进行优化。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 固态硬盘如何改变数据库设计? (brooker.co.za) 16 分,由 arn3n 1天前发布 | 隐藏 | 过去 | 收藏 | 2 条评论 yorwba 1天前 | 下一个 [–] 之前的讨论 (142 分,2天前,120 条评论): https://news.ycombinator.com/item?id=46334990 回复 nullorempty 1天前 | 上一个 [–] 嗯,在 aurora 中,数据库进程和固态硬盘之间不还有一层吗?https://majdarbash.github.io/aws-posts/getting-started-with-... 这不应该增加另一个考虑维度吗?回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com