每日HackerNews RSS

谷歌正在通过一种新的“高级流程”来增强Android安全性,同时保持平台的开放性,该流程用于安装来自未经验证的开发者的应用程序。 谷歌认识到一些用户愿意承担经过计算的风险,因此此功能允许侧载安装,但会主动防范日益猖獗的诈骗手段。 这个过程并非简单的绕过。 它需要启用开发者模式,确认用户没有受到胁迫,重启手机以切断远程访问,以及进行生物识别重新验证的24小时等待期。 这种人为的阻力旨在扰乱诈骗犯,他们会迫使受害者禁用安全功能。 与此同时,谷歌还为学生和爱好者提供免费的“有限分发帐户”,允许在最多20台设备上共享应用程序,无需身份验证或费用。 高级流程和有限帐户都将于8月上线,在新的开发者验证要求完全实施之前,确保Android对所有人保持可访问性,同时优先考虑用户安全。

一篇最近的谷歌博客文章,关于安卓开发者验证,在Hacker News上引发了讨论。新系统旨在平衡开放性和用户安全,但为非应用商店安装的应用程序(即在Google Play商店之外安装的应用程序)引入了24小时的等待期。 用户担心此延迟会严重影响依赖于在Play商店不可用的开源软件(OSS)的用户,实际上需要等待一天才能完全使用新手机。一些人将其比作令人沮丧的运营商解锁流程。 虽然承认这项举措有益于阻止诈骗者,但评论员担心这会阻碍OSS的采用,并最终导致谷歌完全移除侧载功能。有人建议使用GrapheneOS和Lineage等替代方案,但随着安卓变得越来越封闭,它们的长期可行性受到质疑。甚至有人正在考虑切换到SailfishOS等替代操作系统,以避免谷歌日益增长的控制。

初步随机森林调优后,为了解决scikit-learn默认基尼重要性的局限性,采用了样本外(OOS)排列特征重要性进行特征优化。由于基尼重要性对连续变量存在偏见(许多特征是离散的)、计算基于训练数据以及与相关特征存在问题,因此被认为不适用。 OOS方法包括训练模型,然后评估在*独立*验证数据上,单个特征值随机打乱后预测能力下降的程度。结果显示,模型严重依赖“seconds_to_settle”特征——本质上是时间/到期时间——该特征承担了整个模型的预测权重。 此外,异常高的AUC分数0.7566引发了对潜在的先验偏差和过拟合的担忧。因此,目前正在进行特征清理,以解决这种不平衡并提高模型的鲁棒性。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 我的随机森林主要学习的是到期时间噪音 (illya.sh) 13 分,由 iluxonchik 发表于 3 小时前 | 隐藏 | 过去 | 收藏 | 3 条评论 帮助 phyzome 46 分钟前 | 下一个 [–] 背景是什么?感觉至少缺少了三段引言。回复 andai 37 分钟前 | 父评论 | 下一个 [–] https://illya.sh/thoughts/ 如果你跳过关于石油的文章,你会发现有几十篇文章讨论相同的主题(提到随机森林)。 似乎是在预测比特币价格。 编辑:这似乎是最详细的文章:https://illya.sh/thoughts/my-trading-ml-factory-yielded-22-r... zzleeper 1 小时前 | 上一个 [–] 这是一篇令人耳目一新的文章。易于阅读,并且我学到了一些东西!回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## 小米发布升级版SU7电动轿车 小米正式发布了下一代SU7电动轿车,在其最初的车型基础上进行了升级,该车型迅速成为中国畅销车之一,甚至销量超过了特斯拉Model 3。升级后的SU7拥有显著的改进,包括高达902公里(560英里)的CLTC续航里程,并且全系标配激光雷达。 主要升级包括新的897V充电架构(从400V/871V升级),实现更快的充电速度——15分钟可增加高达670公里的续航里程。动力也得到了提升,底盘经过改进,悬架和轮胎性能更好。重要的是,小米通过更强的车身结构和增加的安全气囊数量解决了安全问题。 尽管价格上涨了约800-1400美元,起价为33,000美元,但SU7在中国市场与特斯拉Model 3的价格仍然具有竞争力。小米在24小时内收到了近89,000份预订单,并计划在3月份交付超过16,000辆汽车。这次更新巩固了小米在电动汽车市场的地位,并展示了其对快速迭代和价值的承诺,尤其是在标准化激光雷达等先进功能方面。

## 构建健壮的代码库:语义函数、实用函数和模型 结构良好的代码依赖于清晰的关注点分离。这通过**语义函数**来实现——小型、自文档化的单元,专注于*做好一件事*。它们接收明确的输入,返回明确的输出,并避免副作用,从而最大限度地提高可重用性和可测试性。例如 `quadratic_formula()` 或封装复杂、可重用流程的函数。 **实用函数**则相反,编排语义函数来处理复杂的现实世界流程,例如 `provision_new_workspace_for_github_repo()`。这些本质上更混乱,并且预计会演变,因此清晰的文档记录潜在陷阱是有益的。 至关重要的是,数据**模型**应该强制正确性。避免可选或松散类型的字段;定义良好的模型使得无效状态不可能存在。使用组合(例如 `UserAndWorkspace`)而不是扁平化结构,并考虑使用“品牌类型”来区分具有相同形状但代表不同概念的值(例如 `DocumentId` 与通用 `UUID`)。 常见的陷阱是语义函数渗透到实用函数的作用中,或者模型变得过于灵活。优先使用明确的函数命名,反映函数*被使用的地方*,而不仅仅是*它做什么*,并定期重构模型以保持围绕单个概念的连贯性。

## AI 与代码质量:Hacker News 讨论总结 最近 Hacker News 上进行了一场关于人工智能对代码库质量影响的讨论,起因是一篇提倡在使用人工智能编码工具时保持“目的性”的文章。核心观点是:**人工智能本身并不会使代码变得更差——开发者才是,因为他们未能仔细审查和指导其输出。** 许多评论者强调了彻底测试的重要性,这不仅仅是确保测试通过,因为人工智能可能会优先通过测试而非代码质量,并引入微妙的错误。人们担心人工智能生成的代码常常引入不必要的可选参数,并且缺乏对*为什么*做出这些决定的清晰文档。 一个关键的结论是需要采取“紧控”的方法:审查每一步,理解工具的局限性,并对生成的代码承担全部责任。一些人提倡尽量减少为人工智能代理提供的冗长“指令”文件,专注于项目特定的细节,而不是通用的最佳实践。最终,讨论强调人工智能只是一种工具,而保持代码质量依赖于人类的监督和纪律。

评估像Waymo这样的自动驾驶系统(ADS)的安全性时,选择合适的比较指标至关重要。**车辆层级比率**——ADS车辆行驶里程中的事故数——是最合适的。将其与**事故层级比率**(所有车辆行驶里程中的事故数)进行比较可能会产生误导,因为单位不匹配。 例如,两辆车相撞的情景会产生不同的比率:0.5次事故/100英里 vs. 1辆受损车辆/100英里。错误地比较这些数据可能会错误地表明ADS的事故率更高。 同样,**人员层级比率**(行驶里程中的受伤人数)也存在问题。随着ADS车队的扩大,即使事故参与度保持一致,其人员层级比率也可能*下降*,仅仅因为更多的车辆贡献了总体里程。 由于这些偏差和数据限制(例如不完整的受伤报告),**车辆层级比率提供了最准确和可解释的比较**,用于衡量ADS性能与传统车辆安全基准。

## Waymo 安全性声明与讨论 Waymo 最近声称其车辆比人类驾驶员安全 13 倍,引发了 Hacker News 的讨论。 许多评论员认为 Waymo 的自动驾驶技术是一项重要的安全改进,但对数据的统计方法存在怀疑。 有人担心存在“选择性展示数据”的情况,以及缺乏在相同路线和条件下进行的比较。 尽管如此,一些用户分享了积极的经验,指出 Waymo 的注意力始终集中,反应速度比人类更快——从不分心或未能*发现*潜在的危险。 一位亚特兰大观察者报告说,即使在具有挑战性的道路上,驾驶也始终平稳。 有人提出了创新的用途,例如将 Waymo 车辆用作自行车骑手的“团队车”,提供安全和设备运输。 一些人指出,Waymo 目前的安全记录可能被其他司机因其车辆外观独特而格外小心所夸大,但最近的报告表明 Waymo 的驾驶行为有所改善,现在与熟练的人类驾驶员相似。

一项始于2015年康涅狄格州的研究揭示了住宅太阳能板采用的一个令人惊讶的关键因素:**与现有装置的距离接近程度**。虽然财富和密度等因素被考虑在内,但研究人员发现,仅仅*看到*邻居屋顶上的太阳能板,是预测另一户人家是否会安装它们的最强指标。 这种“邻近原则”在全球范围内得到了复制——在瑞典、中国和德国,证实安装的影响力主要集中在一公里半径范围内。这项研究强调了社会影响力如何驱动采用,因为可见的例子和与邻居的个人交流能够建立信任并展示益处。 然而,这一原则远远超出了太阳能领域。我们的行为和价值观受到周围的人的显著影响;优先考虑健康、养成新习惯,甚至个人成长,都受到我们选择交往的人的影响——我们真正会变得像我们所处的环境。

## “1公里效应”与太阳能板的采用 一篇最近的博文讨论了康涅狄格州的一个奇特趋势:太阳能板的采用似乎高度局部化,在最初安装的1公里范围内出现集群。这种现象可以用**创新扩散**和**社会认同**等概念来解释。当人们看到其他人——尤其是邻居——从中受益时,他们更有可能采用新技术,使创新变得“可见”。 早期采用者常常影响他们周围的人,不一定是通过直接选择邻居,而是通过随意的交谈和增加熟悉感。这种影响还因上门推销策略以及当技术变得普遍时,降低人们对技术外观的担忧而进一步放大。 评论员认为这具有政策意义,建议在小地理区域内提供有针对性的补贴,以加速采用。最终,这场讨论强调了社会因素和当地背景在技术普及中扮演的重要角色,超越了纯粹的经济考量。

由人工智能驱动的日程安排工具Clockwise,曾被Uber和Netflix等公司使用,将被Salesforce收购。经过近十年的帮助用户创造超过800万小时的专注时间并重新安排2300万次会议,Clockwise产品将于**2026年3月27日**停止服务。 团队认为加入Salesforce将扩大他们在“Agentic Enterprise”中对日程安排技术的影响。现有客户将获得任何在停机日期之后延期的预付订阅的退款。 所有Clockwise数据——包括日历偏好和专注时间块——将在访问权限移除后不久被删除,不会向Salesforce传输任何数据。鼓励用户迁移到替代方案,Clockwise已与**Reclaim**合作,提供无缝过渡,包括价格匹配、优先支持和专门的入职资源。 迁移指南可帮助重建现有设置。 客户支持将一直可用到2026年3月27日。

顺时针,一款时间管理工具,正在被Salesforce收购,并将于下周关闭。该公司创始人表示他们的使命是“帮助世界抽出时间做重要的事情”,但这一说法受到了Hacker News评论员的冷嘲热讽,他们认为这次收购更像是一次收购,而非使命的完成。 讨论的中心是这次出售可能为Clockwise团队提供的财务保障,一些人认为这是一个务实的决定,尽管看起来虚伪。另一些人指出,Salesforce似乎正在精简业务,可能会淘汰与他们人工智能重点不直接相关的产品。 还有一些评论员认为,Clockwise更像是一个有用的功能,而非长期来看的可行独立产品。

## “让我们学习!”:游戏开发与课堂测试 作为日本的语言教学助手,我一直在开发“让我们学习!”,这是一款旨在向小学和初中学生教授英语的益智游戏。游戏挑战玩家根据英语句子解决谜题,并且可以通过简单的二维码直接在网页浏览器中访问——避免了应用程序下载问题和IT障碍。 一个关键的重点是直观的设计,这通过严格的测试来实现。我优先采用“演示,而非告知”的方法进行教程,相信有效的游戏机制应该能够在没有明确指导的情况下被发现。 我独特的身份使我能够在课堂时间*内*进行宝贵的实时测试。同时观察10-20名学生可以立即提供关于谜题设计的反馈,并发现意想不到的解决方案,甚至可以激发新的谜题想法——例如利用视角或逆向工程机制。 虽然我承认存在伦理考量,但我认为这项活动是有益的,因为它提供了一个有针对性的、免费的英语学习工具,并且我计划与其他的教育工作者分享它。然而,这种设置依赖于作为一名教育工作者并拥有分配的课堂时间,以及游戏与课程直接相关的特定组合。

一个黑客新闻的讨论集中在教育环境中游戏测试的挑战上。用户LandenLove分享了一篇关于游戏测试在课堂中的力量的文章,引发了一场关于获取*客观*学生反馈的对话。 另一位用户vunderba指出固有的权力动态——学生可能因为成绩担忧而被迫提供积极的反馈。LandenLove确认他们意识到这一点,表示他们避免直接*询问*反馈,而是仅根据观察到的玩家行为和游戏测试中遇到的问题来改进游戏。他们优先观察反应,例如学生在意外的游戏事件中找到乐趣,而不是主观意见。 Vunderba最终推荐“The Incredible Machine”作为物理益智游戏设计的灵感来源,并提供了一个在线可玩版本的链接。

## 苦涩的教训与人工智能创新的未来 人工智能进步的关键,“苦涩的教训”在于扩展计算规模。近期Anthropic、Luma和ElevenLabs等人才密集的团队取得的成功证明了这一点,他们通过高效利用计算资源,取得了最先进的成果。然而,独立团队面临一个关键挑战:获取和*高效*利用大规模计算资源成本高昂,并且常常导致大量资源浪费(30-40%的FLOPs未被使用)。 这迫使人们面临艰难的抉择——要么接受低效的计算资源使用,要么加入更大的组织,这可能会扼杀创新。 提出的解决方案是“人工智能网格”——一种汇集计算基础设施,允许独立团队在保持控制权的同时,通过共享基础设施和平滑需求来最大化资源利用率。 这个网格解决了通用云提供商无法解决的独特前沿工作负载需求(数据损坏、调度),并促进集体智能和安全。 尽管一些团队最终可能会扩展到自给自足,但网格的优势——特别是平滑需求和集体解决问题——将仍然具有价值。 AMP PBC正在构建这个网格,旨在最大化前沿产出,并维持一个健康、独立的AI生态系统。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 独立AI电网的需求 (amppublic.com) 20 分,olalonde 发表于 3 小时前 | 隐藏 | 过去 | 收藏 | 3 条评论 帮助 onlyhumans 发表于 58 分钟前 | 下一个 [–] 每个人都应该从这些数据中心获得家庭用电补贴。 qwjHag 发表于 1 小时前 | 上一个 | 下一个 [–] 谷歌和 A16Z 成立的公益性公司。我确信公众将从中受益匪浅! 把你们的数据中心放在卡尔格岛,放我们走吧。 pitcock 发表于 1 小时前 | 上一个 | 下一个 [–] 技术已经存在——点对点 GPU 计算。 有很多选择,其中许多已经部署。 我不认为你需要一个专门的电网,就像冰箱一样。除了各种煽动之外,我不明白能源消耗的问题。 例如,AI 消耗稀土的想法是不正确的,笑死人了,那是电池。在文章中看到了 :/ 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

当前LLM代码生成基准测试结果虚高,原因是评估侧重于流行的语言,如Python,模型很可能*记忆*了大量训练数据中的解决方案,而不是真正地*推理*。为了解决这个问题,研究人员创建了**EsoLang-Bench**,一个新的基准测试,使用了五种晦涩的“深奥”编程语言,这些语言的训练数据极少(比Python少5,000-100,000倍)。 对五种领先的LLM进行测试显示,性能大幅下降:准确率降至仅3.8%,而类似的Python问题的准确率约为90%。模型甚至在简单的任务上都难以应对,在更难的问题上完全失败,并且无法解决Whitespace语言。即使像自我反思这样的技术也无法带来改进。 EsoLang-Bench 凸显了报告的LLM能力与真正的编程技能之间的显著差距,表明当前的基准测试高估了它们真正的推理能力。

一个新的基准测试,**EsoLang-Bench**,正在评估大型语言模型(LLM)使用如Unlambda、Brainfuck和Malbolge等*深奥*编程语言进行推理的能力。初步结果,在Hacker News上讨论,显示即使是最强大的模型(如Qwen-235B)表现也出乎意料地差。 用户感到震惊,指出模型在处理一些看似比人类学习了基础概念(如lambda演算)后就能掌握的语言时遇到困难。一位评论员指出Brainfuck的难度,尽管它与C语言相似。 一个可能的解释是LLM代码分词的方式;许多单字符关键词的深奥语言可能对推理构成挑战。有人建议修改基准测试,为这些语言使用单token关键词,以查看性能是否会提高。该基准测试旨在评估超越典型编码任务的“真正推理”能力。

更多

联系我们 contact @ memedata.com