每日HackerNews RSS

## 小米发布升级版SU7电动轿车 小米正式发布了下一代SU7电动轿车,在其最初的车型基础上进行了升级,该车型迅速成为中国畅销车之一,甚至销量超过了特斯拉Model 3。升级后的SU7拥有显著的改进,包括高达902公里(560英里)的CLTC续航里程,并且全系标配激光雷达。 主要升级包括新的897V充电架构(从400V/871V升级),实现更快的充电速度——15分钟可增加高达670公里的续航里程。动力也得到了提升,底盘经过改进,悬架和轮胎性能更好。重要的是,小米通过更强的车身结构和增加的安全气囊数量解决了安全问题。 尽管价格上涨了约800-1400美元,起价为33,000美元,但SU7在中国市场与特斯拉Model 3的价格仍然具有竞争力。小米在24小时内收到了近89,000份预订单,并计划在3月份交付超过16,000辆汽车。这次更新巩固了小米在电动汽车市场的地位,并展示了其对快速迭代和价值的承诺,尤其是在标准化激光雷达等先进功能方面。

## 构建健壮的代码库:语义函数、实用函数和模型 结构良好的代码依赖于清晰的关注点分离。这通过**语义函数**来实现——小型、自文档化的单元,专注于*做好一件事*。它们接收明确的输入,返回明确的输出,并避免副作用,从而最大限度地提高可重用性和可测试性。例如 `quadratic_formula()` 或封装复杂、可重用流程的函数。 **实用函数**则相反,编排语义函数来处理复杂的现实世界流程,例如 `provision_new_workspace_for_github_repo()`。这些本质上更混乱,并且预计会演变,因此清晰的文档记录潜在陷阱是有益的。 至关重要的是,数据**模型**应该强制正确性。避免可选或松散类型的字段;定义良好的模型使得无效状态不可能存在。使用组合(例如 `UserAndWorkspace`)而不是扁平化结构,并考虑使用“品牌类型”来区分具有相同形状但代表不同概念的值(例如 `DocumentId` 与通用 `UUID`)。 常见的陷阱是语义函数渗透到实用函数的作用中,或者模型变得过于灵活。优先使用明确的函数命名,反映函数*被使用的地方*,而不仅仅是*它做什么*,并定期重构模型以保持围绕单个概念的连贯性。

评估像Waymo这样的自动驾驶系统(ADS)的安全性时,选择合适的比较指标至关重要。**车辆层级比率**——ADS车辆行驶里程中的事故数——是最合适的。将其与**事故层级比率**(所有车辆行驶里程中的事故数)进行比较可能会产生误导,因为单位不匹配。 例如,两辆车相撞的情景会产生不同的比率:0.5次事故/100英里 vs. 1辆受损车辆/100英里。错误地比较这些数据可能会错误地表明ADS的事故率更高。 同样,**人员层级比率**(行驶里程中的受伤人数)也存在问题。随着ADS车队的扩大,即使事故参与度保持一致,其人员层级比率也可能*下降*,仅仅因为更多的车辆贡献了总体里程。 由于这些偏差和数据限制(例如不完整的受伤报告),**车辆层级比率提供了最准确和可解释的比较**,用于衡量ADS性能与传统车辆安全基准。

一项始于2015年康涅狄格州的研究揭示了住宅太阳能板采用的一个令人惊讶的关键因素:**与现有装置的距离接近程度**。虽然财富和密度等因素被考虑在内,但研究人员发现,仅仅*看到*邻居屋顶上的太阳能板,是预测另一户人家是否会安装它们的最强指标。 这种“邻近原则”在全球范围内得到了复制——在瑞典、中国和德国,证实安装的影响力主要集中在一公里半径范围内。这项研究强调了社会影响力如何驱动采用,因为可见的例子和与邻居的个人交流能够建立信任并展示益处。 然而,这一原则远远超出了太阳能领域。我们的行为和价值观受到周围的人的显著影响;优先考虑健康、养成新习惯,甚至个人成长,都受到我们选择交往的人的影响——我们真正会变得像我们所处的环境。

## 康涅狄格州与1公里效应:摘要 一篇最近发表在*alearningaday.blog*上的博文讨论了康涅狄格州太阳能板采用中观察到的局部“聚集”效应——具体来说,即在1公里半径范围内安装的倾向。这种现象通过**创新扩散**和**社会认同**的视角来解释。 创新扩散强调了可观察性——看到他人从新技术中受益——如何推动采用。社会认同表明人们会受到周围人的行为影响。研究人员发现,使网络安全实践*可见*(例如,“您的X个朋友使用额外的安全措施”)会提高采用率。 评论者分享了支持这一点的轶事,指出上门推销策略(强调社区采用率)以及早期采用者引发更广泛兴趣的影响。其他人认为,美学接受度(习惯于看到邻居屋顶上的太阳能板)和经济激励措施也发挥了作用。讨论还涉及潜在的政策影响,建议在小地理区域内有针对性的补贴可以加速新技术的采用。

由人工智能驱动的日程安排工具Clockwise,曾被Uber和Netflix等公司使用,将被Salesforce收购。经过近十年的帮助用户创造超过800万小时的专注时间并重新安排2300万次会议,Clockwise产品将于**2026年3月27日**停止服务。 团队认为加入Salesforce将扩大他们在“Agentic Enterprise”中对日程安排技术的影响。现有客户将获得任何在停机日期之后延期的预付订阅的退款。 所有Clockwise数据——包括日历偏好和专注时间块——将在访问权限移除后不久被删除,不会向Salesforce传输任何数据。鼓励用户迁移到替代方案,Clockwise已与**Reclaim**合作,提供无缝过渡,包括价格匹配、优先支持和专门的入职资源。 迁移指南可帮助重建现有设置。 客户支持将一直可用到2026年3月27日。

## Clockwise 被收购并即将关闭 Clockwise,一款日历排程工具,已被 Salesforce 收购,并将于 3 月 27 日关闭。一位前员工分享了他们的经历,强调了推荐竞争对手 Reclaim(现已被 Dropbox 收购)的艰难决定,并赞扬了 Clockwise 在关闭时删除用户数据的承诺,以维护数据隐私。 讨论的中心是收购背后的原因,许多人认为 Salesforce 主要感兴趣的是收购 Clockwise 团队(“收购人才”)。一些人质疑购买并立即关闭一个功能性产品的逻辑,尤其是在 Salesforce 最近的财务表现下。另一些人指出,在这个领域建立和维持一家成功的公司面临的挑战,包括高失败率和难以获得进展。 用户对短暂的关闭时间表和数据丢失表示担忧,一些人推测 Salesforce 的长期计划,可能将功能整合到现有产品中。总体情绪偏向失望,少数人向有抱负的日历排程市场创业者提供建议——即重新考虑。

## “让我们学习!”:游戏开发与课堂测试 作为日本的语言教学助手,我一直在开发“让我们学习!”,这是一款旨在向小学和初中学生教授英语的益智游戏。游戏挑战玩家根据英语句子解决谜题,并且可以通过简单的二维码直接在网页浏览器中访问——避免了应用程序下载问题和IT障碍。 一个关键的重点是直观的设计,这通过严格的测试来实现。我优先采用“演示,而非告知”的方法进行教程,相信有效的游戏机制应该能够在没有明确指导的情况下被发现。 我独特的身份使我能够在课堂时间*内*进行宝贵的实时测试。同时观察10-20名学生可以立即提供关于谜题设计的反馈,并发现意想不到的解决方案,甚至可以激发新的谜题想法——例如利用视角或逆向工程机制。 虽然我承认存在伦理考量,但我认为这项活动是有益的,因为它提供了一个有针对性的、免费的英语学习工具,并且我计划与其他的教育工作者分享它。然而,这种设置依赖于作为一名教育工作者并拥有分配的课堂时间,以及游戏与课程直接相关的特定组合。

这次黑客新闻的讨论集中在游测的力量上,尤其是在教育环境中。LandenLove是一位在课堂上使用游测的创作者,他强调观察学生*如何*与游戏互动,而不是直接*询问*反馈,承认学生渴望取悦老师的固有偏见。修改是基于观察到的问题进行的,即使意外的故障(比如掉落的香蕉!)产生了意想不到的积极反应。 对话扩展到收集客观反馈的挑战,以及一个致力于连接软件开发、教育和研究的社区的潜力。参与者讨论了可用性测试的伦理考量,以及从用户观察中获得的惊人见解——即使是微小的改变也可能对用户体验产生重大影响。 建议包括利用像Claude Code这样的工具进行实时修改,以及将游测作为一项服务提供,同时承认扩大此类努力的后勤障碍。核心要点是观察玩家行为对于改进游戏/软件设计的无价价值。

## 苦涩的教训与人工智能创新的未来 人工智能进步的关键,“苦涩的教训”在于扩展计算规模。近期Anthropic、Luma和ElevenLabs等人才密集的团队取得的成功证明了这一点,他们通过高效利用计算资源,取得了最先进的成果。然而,独立团队面临一个关键挑战:获取和*高效*利用大规模计算资源成本高昂,并且常常导致大量资源浪费(30-40%的FLOPs未被使用)。 这迫使人们面临艰难的抉择——要么接受低效的计算资源使用,要么加入更大的组织,这可能会扼杀创新。 提出的解决方案是“人工智能网格”——一种汇集计算基础设施,允许独立团队在保持控制权的同时,通过共享基础设施和平滑需求来最大化资源利用率。 这个网格解决了通用云提供商无法解决的独特前沿工作负载需求(数据损坏、调度),并促进集体智能和安全。 尽管一些团队最终可能会扩展到自给自足,但网格的优势——特别是平滑需求和集体解决问题——将仍然具有价值。 AMP PBC正在构建这个网格,旨在最大化前沿产出,并维持一个健康、独立的AI生态系统。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 独立AI网格的需求 (amppublic.com) 26 分,olalonde 发表于 1 天前 | 隐藏 | 过去 | 收藏 | 3 条评论 帮助 onlyhumans 发表于 1 天前 | 下一个 [–] 每个人都应该从这些数据中心获得家庭用电补贴。 qwjHag 发表于 1 天前 | 上一个 | 下一个 [–] 谷歌和 A16Z 成立的公益性公司。我确信公众将从中受益匪浅! 把你的数据中心放在卡尔格岛,然后放我们走。 pitcock 发表于 1 天前 | 上一个 | 下一个 [–] 技术已经存在——点对点 GPU 计算。 有很多选择,其中许多已经部署。 我不认为你需要一个专门的电网,就像冰箱一样。除了各种炒作之外,我不明白能源消耗的问题。 例如,AI 消耗稀土的想法是不正确的,笑死人了,那是电池的问题。在文章中看到了 :/ 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

当前LLM代码生成基准测试结果虚高,原因是评估侧重于流行的语言,如Python,模型很可能*记忆*了大量训练数据中的解决方案,而不是真正地*推理*。为了解决这个问题,研究人员创建了**EsoLang-Bench**,一个新的基准测试,使用了五种晦涩的“深奥”编程语言,这些语言的训练数据极少(比Python少5,000-100,000倍)。 对五种领先的LLM进行测试显示,性能大幅下降:准确率降至仅3.8%,而类似的Python问题的准确率约为90%。模型甚至在简单的任务上都难以应对,在更难的问题上完全失败,并且无法解决Whitespace语言。即使像自我反思这样的技术也无法带来改进。 EsoLang-Bench 凸显了报告的LLM能力与真正的编程技能之间的显著差距,表明当前的基准测试高估了它们真正的推理能力。

## LLM 与真正的推理:秘语编程基准 一个新的基准测试 EsoLang-Bench 显示,大型语言模型 (LLM) 在常用语言(如 Python,准确率约 90%)和秘语编程语言(准确率约 3.8%)上的推理能力存在显著差距。这表明当前的 代码生成很大程度上依赖于记忆训练数据,而非真正的编程逻辑。 这一发现引发了争论,一些人认为该测试不公平,因为人类在秘语编程语言方面也存在困难。然而,研究人员强调目标是评估 LLM 在超人类能力方面的 *潜力*,并探索它们如何学习新领域。 虽然具有工具和迭代功能的智能体系统表现有所改善,但核心问题仍然是:LLM 是否真的在进行推理,还是仅仅利用复杂的模式匹配? 该研究强调了 LLM 在解决新问题方面的局限性,并强化了它们擅长复制现有模式,但在真正理解和推理方面存在困难的观点,尤其是在面对不熟悉的结构时。进一步的研究,例如 ARC-AGI 基准测试,旨在更深入地探讨这一点。

## 泰纳双胞胎:一个世纪的装备测试 一对同卵双胞胎罗斯和休戈·泰纳正在进行一项独特的实验:在世界上最艰难的探险中,将现代探险装备与精心复刻的历史装备进行对比。他们受到一次险些致命的事故的启发,认识到生命的脆弱,旨在确定纺织品创新在多大程度上*实际*提高了我们在极端环境中生存和繁荣的能力。 他们的做法是,让一位双胞胎穿着最先进的服装,另一位穿着一个世纪前的装备——例如羊毛、棉花和皮革——同时用先进的生物传感器监测他们。令人惊讶的是,他们的发现挑战了持续进步的说法。对马洛里尝试攀登珠穆朗玛峰等探险的模拟数据表明,两人之间的温差仅为1.8°C,这表明一个世纪的创新大约每50年提高一度效率。 重要的是,历史装备在水分管理方面表现出色,但需要高超的技能来进行主动气候调节——一种现代装备便利性所降低的“失传的艺术”。这对双胞胎的工作并非要否定现代技术,而是要了解其局限性,并恢复如何有效利用*任何*装备的知识,认识到人类因素仍然是探险中最关键的因素。

## 黑客新闻讨论:现代 vs. 历史技术服装 一篇最近发表在carryology.com上的文章,探讨了特纳双胞胎的一个独特实验,引发了黑客新闻关于技术服装进步的争论。双胞胎在模拟珠穆朗玛峰探险中测试了现代装备与历史服装(丝绸、羊毛、防风布)。 虽然文章似乎旨在“揭穿”改进,但评论员指出数据显示,使用不同服装的双胞胎体温存在显着的1.8°C差异——考虑到正常的人体温度范围,这可能是一个很大的差距。一些人认为这证明了现代装备的有效性,它更轻便、更保暖。 讨论的重点在于解读数据,争论温度差异是否重要,以及代谢率和水分管理等因素的重要性。几位用户强调,现代服装的关键优势不仅仅是保暖,而是更宽的“工作范围”和安全裕度,允许进行更多静态活动而无需冒快速降温的风险。另一些人指出,保暖重量比以及管理复杂历史装备的认知负荷也很重要。 最后,有人对文章的写作质量以及色盲读者对图表的易读性提出了担忧。

由于内容为PDF二进制数据,无法直接翻译成可读的中文。它看起来像是PDF文件内部的压缩数据流,包含编码信息而非自然语言文本。

## 特斯拉FSD置于调查之下:报告强调未能检测性能下降 美国国家公路交通安全管理局(NHTSA)的一份最新报告正在调查特斯拉的完全自动驾驶(FSD)系统,特别是其在事故发生前未能检测到摄像头性能下降的问题。调查显示,该系统通常在事故发生*之前*才向驾驶员发出视线受阻的警告。 讨论的重点在于系统是未能*检测*到问题,还是仅仅未能对检测到的性能下降做出*适当的反应*。人们对仅依赖视觉系统的做法表示担忧,并将其与激光雷达在路面检测方面的优势进行了对比。 许多评论员指出,特斯拉的FSD在恶劣条件下(如雾或雨)经常会关闭,但缺乏向驾驶员清晰说明*原因*的沟通。一些特斯拉车主报告了无法解释的“挡风玻璃清洁”程序,表明可能存在视线问题。 争论延伸到更广泛的问题,即仅依靠摄像头的方法能否实现真正的自动驾驶能力,许多人认为需要高于人类驾驶的标准,以及冗余传感器系统的必要性。最终,该报告强调了安全问题,并质疑特斯拉在自动驾驶技术方面的做法。

更多

联系我们 contact @ memedata.com