每日HackerNews RSS

这个独立追踪器监测 Claude Code(使用 Opus 4.5)在软件工程(SWE)任务中的表现,旨在主动识别性能下降,例如 Anthropic 在 2025 年报告的那种。 每日评估使用精心挑选的、无污染的 SWE-Bench-Pro 基准测试的一部分,*直接在* Claude Code 中进行——模拟真实用户体验。结果不受自定义测试框架的影响,能够捕捉源于模型*和*工具变化的潜在问题。 虽然每日运行使用 50 个测试的样本(引入可变性),但每周和每月的数据会进行汇总。性能以通过率衡量,并使用 95% 置信区间进行统计建模。任何在每日、每周或每月期间通过率的统计显著下降都会触发报告,从而提供潜在 Claude Code 问题的早期预警系统。

## 数字的不确定性:人口统计与全球认知 巴布亚新几内亚(PNG)最近的一起丑闻凸显了一个令人惊讶的事实:我们常常缺乏关于全球人口的可靠数据。尽管有官方估计,PNG政府承认对其人口数量不确定——最初声称基于有缺陷的2000年人口普查为940万,后来联合国报告提出近1700万。政府最终压制了联合国报告以维持现有数据,这表明了影响数据的政治压力。 这并非PNG独有。许多国家,尤其是在发展中国家,由于后勤挑战、政治操纵(例如在尼日利亚,人口数字影响资源分配)或仅仅是国家能力薄弱,缺乏准确的人口普查数据。虽然卫星图像等技术提供了潜在的解决方案,但目前尚不可靠,常常会严重低估人口,尤其是在农村或人口稠密地区。 虽然关于捏造全球数字的阴谋论可能不属实,但PNG案例揭示了一个关键点:许多国家的人口数据都存在相当大的不确定性。这会影响经济统计和发展规划。最终,承认这种知识的缺乏能够培养必要的“认识论谦逊”——认识到我们对世界的理解远比我们通常认为的要有限。

## apt-bundle:Debian 系统的声明式包管理 apt-bundle 是一个用于在基于 Debian 的系统上管理 apt 包的工具,灵感来自 Brewfile 和 Brew Bundle。它允许您在简单的 `Aptfile` 中定义系统依赖项,并使用单个命令安装它们,从而确保可重复且可共享的配置。 主要功能包括:声明式包定义、幂等操作(可安全重复运行)、仓库和密钥管理(PPAs、自定义仓库、GPG 密钥)以及版本锁定。它提供了一个简单的 CLI,用于安装、检查和从现有系统生成 `Aptfile`。 安装可以通过提供的脚本或手动下载 `.deb` 包快速完成。`Aptfile` 使用简单的格式来指定包、PPAs、仓库和密钥。 apt-bundle 使用 Go 构建,静态链接以实现可移植性,并设计为小尺寸。它非常适合自动化系统设置、管理 Dockerfile 依赖项以及确保一致的环境。完整的文档和示例可在项目网站上找到。

## 跑步的代价:专业与业余爱好者 跑步的受欢迎程度日益提高,导致“争夺跑者号码牌”的现象,赛事门票迅速售罄。虽然跑步通常被视为一项健康的活动,但它对所有参与者,无论技能水平如何,都会带来巨大的身体和精神负担。 专业跑者需要进行高强度、严格的训练——有时一天三次——并且恢复期短,这导致频繁受伤。他们的职业生涯往往很短暂,需要达到巅峰状态并把身体推向极限。然而,业余爱好者也面临着类似的挑战。马拉松训练,包括艰苦的长跑和持续十到十二周的计划,与专业训练相似,由于缺乏足够的支撑和循序渐进的训练,增加了受伤的风险。 两组人都可能经历应力性骨折和疲惫,但专业跑者受益于多年的经验、遗传倾向和专业的医疗支持。超长距离越野跑的兴起进一步加剧了这些担忧,因为它具有艰难的地形和更长的持续时间。 归根结底,跑步依靠策略性地“磨损”身体来建立韧性,但需要仔细的指导、有意识的训练和充足的休息。关键在于意识到风险和局限性,找到平衡点,并优先考虑健康——正如一位作者所指出的那样,跑步并不适合所有人。

## 黑客新闻讨论摘要:跑步与身体损耗 一篇来自 *Conversation.com* 的文章引发了黑客新闻的讨论,探讨跑步是否会对专业和业余运动员的身体造成损耗。 结论倾向于**是的,但*方式*不同。** 专业运动员在身体极限下运作,需要持续的医疗支持——并非因为他们天生更虚弱,而是为了管理因高强度训练积累的“结构性债务”。 业余爱好者有更大的安全余量,但可能更容易因不当训练或恢复不足而受伤。 许多评论员强调了跑步以外的因素的重要性:基因、饮食、持续监测、循序渐进的训练以及倾听身体的声音。 许多人分享了个人经验,提倡力量训练、划船或爬楼梯等替代运动,以及调整跑步姿势(步频、触地点)以预防受伤。 最终,讨论表明,虽然跑步本身会对身体造成压力,但运动的持久性依赖于谨慎的管理、个性化的方法,以及认识到过度努力或不够努力都可能有害。

加载中...

启用 JavaScript 和 Cookie 以继续。

## 特斯拉Model Y可靠性问题 – 摘要 近期TÜV报告显示,在2022-2023年测试中,特斯拉Model Y的可靠性最差,在强制技术检查中故障率很高。来自丹麦的数据也证实了这一点,显示Model Y和Model 3在四年后都有显著的故障率。常见问题包括刹车、车轮和悬架问题。 讨论强调了潜在的促成因素:特斯拉缺乏传统的服务网络,由于再生制动导致刹车使用频率低而生锈,以及制造商在检查前的做法可能存在差异(有些品牌会在官方检查前主动修复问题)。 虽然有人认为TÜV报告侧重于安全关键问题,并不反映车辆的整体寿命,但也有人指出爱尔兰也有类似发现。争论的中心在于特斯拉的制造质量是否天生较低,还是检查过程突出了由于较少进行传统维护而遗漏的问题。最终,数据表明,与其他品牌相比,特斯拉车辆在其使用寿命早期可能更容易出现与安全相关的问题。

一家塔斯马尼亚旅游公司“塔斯马尼亚旅游”因其人工智能生成的博客错误宣传了“韦尔德伯勒温泉”的存在而面临强烈反弹。游客开始抵达偏远的韦尔德伯勒镇寻找并不存在的温泉,给当地人(如韦尔德伯勒酒店老板)带来了困扰,他们不得不处理大量咨询。 公司老板承认,错误是由于他在旅行期间发布的一篇未经审核的文章造成的,凸显了完全依赖人工智能进行内容创作的风险。虽然公司旨在通过频繁的内容更新来与大型公司竞争,但这一事件导致了声誉受损和“令人沮丧”的在线批评。 旅游专家安妮·哈迪指出,人工智能在旅游业的应用越来越广泛,但容易出现“幻觉”和不准确之处——90%的人工智能生成的行程都包含错误。她建议旅客在计划旅行(尤其是前往偏远地区)时,用值得信赖的来源(如指南和旅行社)来补充人工智能的信息。尽管发生了这次失误,当地人对该公司表示同情,强调了小型企业面临的挑战。

## 澳大利亚AI驱动的旅行失误 一家澳大利亚旅行公司“澳大利亚旅游和邮轮”遭遇重大失误,其由AI驱动的网站将游客引导至不存在的温泉。该公司负责人承认AI“完全搞砸了”,引发了关于AI系统出错时责任归属的讨论。 该事件凸显了一种日益增长的趋势,即公司将错误归咎于AI,有效地“洗白”责任——这是“系统故障”的现代版本。评论员指出,这使得企业可以逃避后果,类似于过去在数字系统中的做法。人们对将这种缺乏责任感扩展到更关键的领域(如使用自主机器人进行执法)表示担忧。 除了追究责任之外,该事件还强调了对AI生成内容进行人工监督和验证的必要性。一些人呼吁对AI生成的内容进行强制性免责声明,而另一些人则认为,人工策划的信息将变得更受欢迎。这家旅行公司面临网络反弹,一些人认为错误源于在SEO游戏中缺乏尽职调查。最终,该事件作为一个警示故事,告诫人们不要仅仅依赖AI,而应进行适当的检查和平衡。

自有人们首次提出一种用于网页样式设计的语言以来,已经过去了25年。自90年代末以来,CSS经历了多年的平台演变。层叠、特异性和海量的值和单位选择为该语言的成功奠定了基础。但并非所有人喜欢在所有地方使用这些特性。一些人开始调整该语言以满足他们的需求。在这个以达尔文为主题的演讲中,你将了解CSS的由来,以及该语言的简洁性和灵活性如何使其在今天仍然脱颖而出。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 级联起源,通过自然选择 (2020) (hiddedevries.nl) 4 点赞,来自 omer_balyali 1 天前 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 人工智能公司真的盈利吗?以GPT-5为例 近期人工智能公司的巨额估值引发了一个关键问题:其背后的经济模式是否可行?一项新的分析,以OpenAI的GPT-5为例,表明情况复杂。虽然单个人工智能模型*可以*产生超过其直接运营成本的收入(毛利率约为48%),但实现整体盈利仍然具有挑战性。 该研究估计GPT-5在其四个月的生命周期内产生了61亿美元的收入,但考虑到人员、销售和营销等费用,以及关键的巨额研发成本(估计全年为160亿美元),其整体可能处于亏损状态。GPT-5的收入不足以在其短暂的生命周期内收回开发成本,而快速竞争加剧了这一问题。 然而,这并不一定意味着投资失败。与其他快速增长的技术公司一样,人工智能公司可能会优先考虑增长而非立即盈利,并期望未来的模型带来回报。计算成本的下降、企业采用以及广告等潜在收入来源为盈利提供了途径。最终,成功取决于延长模型生命周期并在快速发展的环境中建立竞争优势。虽然目前的财务状况好坏参半,但巨大的价值创造潜力仍然让长期前景保持乐观。

## OpenAI 的单位经济效益:摘要 一则 Hacker News 讨论围绕 OpenAI 以及人工智能公司的盈利能力展开。 许多人认为人工智能可以通过劳动力自动化创造数万亿美元的价值,但对公司是否愿意为相当于其替代的劳动力成本的人工智能工具付费表示怀疑。 用户指出了一种脱节——尽管有潜在的节省,但公司不愿大量投资于人工智能订阅。 竞争,特别是来自开源模型,是限制潜在收入的关键因素。 LLM 最终是软件,而历史上,软件的定价并未达到其节省的劳动力价值。 人们担心 OpenAI 的高研发支出超过了利润,但也有人认为推理成本的降低和模型改进可能带来盈利能力。 该讨论还强调了模型性能以外的因素的重要性,例如可靠性、合规性和易于集成,尤其是在企业采用方面。 像 OpenRouter 提供的标准化 API 使得转换成本很低,但 OpenAI 正在推动更封闭的解决方案。 最终,未来取决于人工智能实验室是否能够大幅降低计算成本、显著提高价值,或者在开源替代方案成熟时面临潜在的崩溃。

## 崩坏的科技就业市场 最近的科技裁员,例如亚马逊的16,000人裁员,并非仅仅因为人工智能——它们是根植于2008年金融政策之后的一个根本性缺陷系统的症状。廉价资金时代推动了指数级增长,而非可持续发展,导致公司故意过度招聘,将工程师视为投机资产,而非有价值的资本。 与传统行业不同,科技公司采用“彩票”模式:广泛招聘以探索众多项目(“赌注”)以及核心的收入创造性工作。当经济状况发生变化时,这些非必要团队会被迅速抛弃,裁员现在被华尔街*奖励*,作为“自律”和利润保护的标志。 这造成了一种悖论,即经过严格招聘流程的高技能工程师,往往发现自己身处可抛弃的团队中。这种趋势正在全球蔓延,甚至侵蚀了欧洲的就业保障,因为公司正在采用美国式的做法,却没有相应的薪酬。 归根结底,问题不是缺乏人才,而是市场通过削减成本而非真正增长来传递价值。除非科技行业优先考虑以足智多谋的方式建设,并将员工视为人,而非库存,否则这种“招聘和抛弃”的循环将持续存在。

更多

联系我们 contact @ memedata.com