每日HackerNews RSS

arXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arXiv功能。个人和与arXivLabs合作的组织都认同并接受了我们开放、社群、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并且只与秉持这些价值观的合作伙伴合作。您是否有为arXiv社群增加价值的项目想法?了解更多关于arXivLabs的信息。

## X(前身为Twitter)的点赞与隐私:摘要 一项最新研究(arxiv.org)调查了将X平台上的“点赞”设置为私密是否会影响对潜在争议内容的互动。研究发现,政策改变后,**针对风险内容的点赞量没有显著的平台范围内的增加**。一项调查显示,用户*表示*在点赞私密时更愿意点赞此类内容,但这种意愿并未转化为实际行为的明显变化。 评论者质疑了研究方法,指出该研究侧重于现有用户,并未考虑新的、可能更匿名的账户。许多人也强调了平台上机器人和虚假互动的普遍性,从而对“点赞”数据的可靠性产生了怀疑。 一些用户注意到,在政策改变后,他们个人点赞帖子的频率有所增加,重新获得了因潜在的现实世界后果而失去的自由感。一个反复出现的主题是对X平台长期致力于保护隐私的怀疑,担心埃隆·马斯克可能会恢复之前的设置。讨论还涉及平台操纵、广告欺诈以及用户被用于盈利等更广泛的问题。

## 优化LLM API成本:一个真实案例 一位非技术创始人面临着每月1500美元的LLM API调用账单,默认选择GPT-5。最近的尝试表明,通过对prompt进行更广泛的模型基准测试,成本降低了80%。关键在于:**标准基准测试无法准确预测*您的*特定任务的性能。** 为了解决这个问题,建立了一个定制的基准测试流程。它包括收集真实案例(如客户支持聊天记录),定义期望的输出,然后通过OpenRouter在100多个模型上运行这些prompt。由于人工评估不可能,另一个LLM被用作“评判者”,根据预定义的标准对回复进行评分。 分析不仅考虑了质量,还考虑了成本(测量每个答案的总成本,而不仅仅是token成本)和延迟。这揭示了提供相当质量但价格明显更低的模型——有些甚至便宜10倍。最终,该创始人通过5倍的成本降低,每月节省了超过1000美元。 这个过程强调了持续监控的必要性,因为模型定价和性能变化迅速。为了简化这一过程,开发了一个名为**Evalry**的工具,可以自动在300多个LLM上进行基准测试,从而快速识别特定用例的最佳模型。如果您正在使用LLM API,使用您自己的prompt测试替代方案对于避免过度支出至关重要。

## LLM 基准测试与成本效益:摘要 最近的 Hacker News 讨论强调了在使用大型语言模型 (LLM) 时进行适当基准测试的重要性。核心论点是,**如果没有严格的评估,企业很可能在 LLM 上多花费 5-10 倍的成本。** 对话的重点在于摆脱主观评分(如 1-10 分),转向 **带有加权分数的布尔标准**——根据明确的“是/否”因素(准确性、语气、清晰度)评估 LLM 响应,并为每个因素分配相对重要性。这种方法降低了响应的波动性,同时仍然允许创造性输出。 许多评论者提倡 **在广泛的提示工程之前优先进行评估**,强调从针对问题进行设计转变为评估解决方案。 还有关于较小、更便宜的 LLM(如 Gemini-3-flash)在特定任务中的价值,以及自托管在控制和一致性方面的优势的讨论。 最终,该帖子强调需要 **经验反馈和统计评估** 来证明 LLM 选择并优化成本,而不是依赖于对模型性能的假设。 几位用户指出该帖子本质上是在宣传基准测试服务。

启用 JavaScript 和 Cookie 以继续。

## OpenAI 年龄预测:摘要 OpenAI 正在推出 ChatGPT 的年龄预测技术,引发了对数据收集和潜在广告影响的担忧。虽然这被描述为保护儿童的安全措施,但许多评论员认为其主要目标是收集用户人口统计数据以进行定向广告。 用户担心此功能将导致更严格的监控,对话会被分析以构建用户档案。担忧还包括潜在的不准确性,将成年人错误地标记为未成年人,从而需要侵入性的身份验证(如面部扫描或政府身份证)——这些数据可能会进一步增强广告能力。 许多人对 OpenAI 的动机表示不信任,指出这是一种更广泛的趋势,即科技公司优先考虑数据提取而非用户隐私。一些人建议使用注重隐私的 AI 替代方案,如 Gemini、chat.z.ai 或 Kagi 的 Assistant。 还有人强调这项技术可能被寻求更大控制权的政府滥用。 最终,讨论的中心是安全与隐私之间的权衡,许多人担心这又是朝着在保护的幌子下实现普遍监控的未来迈出的一步。

## 中欧神秘的地下通道 在欧洲中部发现了大约2000条狭窄的地下隧道,被称为*erdstall*,其历史可以追溯到公元900-1200年。这些通道宽度通常不超过两英尺,考古发现极少,仅包含少量如犁铧和磨石之类的物品。尽管年代久远,但中世纪的记录中从未提及它们的存在,这加深了对其用途的神秘感。 各种理论层出不穷,否认了它们作为逃生通道等实际用途,因为它们只有一个入口且尺寸不便。虽然有人认为它们用于秘密的异教仪式,但隧道靠近教堂的事实使得这种说法不太可能。一个领先的假设认为它们具有民间基督教的仪式功能——象征着重生的旅程。隧道狭窄的“通道”被比作产道,可能代表了那些寻求治愈或启迪的人的精神更新过程。 *erdstall* 一致的设计、保密性以及缺乏文物继续让研究人员感到困惑。它们真正的用途仍然未知,凸显了我们对中世纪生活和信仰理解中的一个重大差距。需要进一步调查才能揭开这些古老而奇特的通道中隐藏的秘密。

## 神秘的中世纪隧道引发争论 一篇近期文章详细介绍了围绕“erdstall”的持续之谜——一个遍布中欧的超过2000个中世纪隧道网络。这些结构通常从公共场所(如教堂和农舍)进入,具有单一入口和令人困惑的布局,通道狭窄且有许多死胡同。 隧道的功能仍然未知,引发了各种理论。最初的推测集中在袭击期间的藏身之处,但缺乏出口引发了被困的担忧。另一些人认为它们可能用于储存货物、逃避税收,甚至作为热稳定存储,用于储存易腐物品(如食物)。还有人提出了更不寻常的解释,例如动物挖掘的洞穴或与民间传说的联系。 讨论强调了隧道内缺乏文物,这支持了它们被用于短期避难的观点,在这种情况下,携带财物是不切实际的。争论仍在继续,许多人承认隧道可能根据地点和时间段具有多种用途。这些结构仍然是一个迷人的考古难题。

快速词位 Concordance 即时词位 Concordance,基于 超过 1,200 本公共领域经典书籍,由 Standard Ebooks 提供。点击此处了解其实现方式。

## 快速一致性工具在Hacker News分享 一个名为“快速一致性工具”(iafisher.com)的新工具,允许在超过1200本书的语料库中进行即时关键词搜索,最近在Hacker News上分享。该系统通过一种蛮力方法实现速度:利用goroutine并发地对每本书的内存文本执行正则表达式搜索。 一个关键的优化避免了慢速的单词边界正则表达式(`\b`),而是执行更简单的匹配,然后基于周围字符过滤结果——跳过直接与字母相邻的匹配项。开发者指出Unicode支持和不区分大小写的匹配是潜在的改进方向。 用户讨论了该工具的速度,并观察到结果按作者的姓氏排序。一位评论者质疑为什么没有使用预计算的倒排列表进行进一步优化。

一份新的联合国报告警告说,世界正面临“水资源破产”——由于不可持续的消耗和日益严重的气候干旱,关键淡水储备如含水层、湿地和冰川正在不可逆转地枯竭。这与暂时的水资源压力不同,这种损失是永久性的。 研究显示,超过40%的灌溉依赖于正在减少的含水层,全球超过70%的含水层正在下降。过去50年里,我们失去了比印度还大的湿地面积,冰川也缩小了30%以上。因此,现在有30亿人生活在水资源存储不稳定的地区。 中东、南亚和美国西南部是热点地区,集约化农业加剧了问题。报告强调,转向可持续农业对于防止进一步蔓延至关重要。它敦促各国政府认识并解决这一日益严重的赤字,重点是*防止*剩余资源的进一步损失,因为恢复枯竭的资源是不可能的。

## 联合国报告警告全球“水资源破产” 一份最近的联合国报告强调了迫在眉睫的全球水危机,引发了 Hacker News 的讨论。许多评论者认为未来的冲突将围绕水和食物的获取展开,一些人甚至建议需要人工智能来管理资源分配。 对话涉及了导致问题的因素:气候变化影响积雪(对美国西部等地区至关重要)、不可持续的城市规划(尤其是在美国)以及总体人口增长超过资源可用性。虽然一些人驳斥了这个问题,认为海水淡化技术或海洋水的丰富可以解决,但另一些人强调了这些解决方案相关的能源成本。 几位用户指出管理不善和基础设施投资不足是关键驱动因素,而另一些人则注意到数据中心等行业对水资源造成的压力。一个反复出现的主题是经济增长与环境可持续性之间的紧张关系,以及对资本主义将利润置于负责任的资源管理之上的担忧。最终,这场讨论强调了水危机的复杂性和相互关联性,以及可能出现的广泛社会和生态后果。

近期美国移民及海关执法局(ICE)和海关边境保护局(CBP)的行动显示,在移民执法中无视法律约束的情况令人不安地升级。这些机构不仅一再规避法律、侵蚀正当程序,现在甚至直接对抗法律监督——非法拒绝国会访问、妨碍法院运作、无视司法裁决。 一个关键例子是2025年7月的一项政策转变,该转变得益于巨额预算增加,大幅扩大了强制拘留范围,几乎涵盖所有处于驱逐程序中的个人,包括长期居民和寻求庇护者。对现有法律的这种重新解读已被联邦法院压倒性地驳回——超过300名法官在1600多个案件中下令释放——但ICE仍然每月拘留数万人,积极破坏法院命令,甚至无视全国范围内的集体诉讼裁决。 虽然人身保护诉讼提供了一些救济,但其力度远远不足。ICE庞大的行动规模,加上剥夺管辖权等法律障碍,使得法律挑战显得力不从心。因此,解决方案在于直接对抗这些机构的权力,大幅削减其资金、人员,并最终彻底解散它们,而不是试图“简化”这些本质上存在问题的机构。

## 移民机构无视法庭 - Hacker News 摘要 Hacker News 的讨论围绕一份报告(lpeproject.org)展开,该报告指控美国移民机构公然无视联邦法院命令,这得益于其庞大的规模和资金。用户表示担忧,在“监狱工业复合体”中追求利润会激励这种对法律的漠视。 一些评论员认为,个别 ICE 雇员主动选择将他们认为的使命置于司法裁决之上,这源于他们相信恢复特定的社会等级制度。 一项拟议的解决方案是为联邦执法部门建立一个类似于军队的 UCMJ 司法系统,提供超越民事法院的问责制,并延长诉讼时效(9-12年)以避免来自现任或前任总统的政治干预。然而,一些人认为联邦官员应该被要求遵守与任何公民相同的标准,并在普通法院接受审判。这场辩论凸显了对国土安全部内部不受约束的联邦权力的更广泛担忧。

## Nova Launcher 更新 - 2026年1月20日 Nova Launcher已被Instabridge收购,这是一家专注于互联网接入解决方案的瑞典公司。重要的是,**Nova不会关闭。** Instabridge的首要任务是维护Nova的稳定性、与Android的兼容性以及持续的积极开发。 他们认识到Nova强大的社区和身份,并旨在成为负责任的管理者,专注于性能、定制和错误修复。在探索可持续的商业模式——包括潜在的付费层级和**谨慎考虑的免费版本广告选项**——的同时,**Nova Prime将保持无广告**,并且现有购买将被兑现。 Nova Prime的价格已调整为3.99美元。Instabridge还在评估开源Nova的可能性,并优先考虑用户隐私,进行最少且透明的数据收集。他们强调一种审慎的方法,优先考虑质量并倾听社区的反馈,通过Reddit、Play商店和其他渠道。他们的目标是对Nova的演进进行长期投资,并持续保持卓越。

## Nova Launcher 被收购及担忧 - 摘要 Instabridge 收购了 Nova Launcher,引发了长期用户担忧。虽然 Instabridge 声称 Nova “会一直存在”,但该公告紧随动荡的历史之后:Nova 此前曾被出售给 Branch Metrics,导致裁员,最终原开发者在被阻止开源项目后离职。 用户对此持谨慎态度,引用了近期关于 Nova 中添加追踪代码的报告,以及先前备受喜爱的应用程序普遍出现的“劣化”趋势。许多人正在积极寻找 Lawnchair、Octopi 和 Kvaesitso 等替代品,优先选择开源选项。 讨论强调了对可定制启动器,尊重用户隐私并避免侵入性广告的需求。虽然 Instabridge 表示他们将探索可持续的商业模式(包括免费版中的广告),并保持 Nova Prime 无广告,但怀疑论依然很高。核心问题在于专有软件的命运,以及开源替代品对长期稳定性和用户控制的吸引力。

## Hightouch 智能体:构建可用于生产的 AI 智能体 Hightouch 开发了一种非常先进的 AI 智能体“Hightouch 智能体”,这是一种通用的营销工具,能够执行复杂的任务,例如活动策划和数据分析。 与许多智能体框架不同,Hightouch 专注于解决*长期*任务的实际挑战,超越了简单的确定性工作流程。 他们的关键创新是**智能体委托**:将规划与执行分离,允许智能体根据数据动态更新其方法。 这是通过诸如将数据缓冲到文件以供以后访问、为专注的任务创建“动态子智能体”(卸载复杂性而不会造成上下文膨胀)以及将任务策略性地“扇出”到更小、更便宜的模型,而不是仅仅依赖嵌入等技术来实现的。 与其进行复杂的上下文管理,Hightouch 赋予模型本身管理上下文的能力,决定何时缓冲数据或委派子任务。 这种方法优先考虑使模型*更好地思考*,而不是简单地链接 LLM 调用。 其结果是一个能够处理细微、开放式的营销提示并在现实世界的生产环境中提供令人惊讶的有效结果的系统。 最终,Hightouch 的成功强调了实用“上下文工程”的重要性——这项不光鲜但至关重要的工作,能够构建真正有能力的 AI 智能体。

这场 Hacker News 讨论围绕着 Hightouch 构建强大的“代理 Harness”——为其数据激活平台提供动力的基础设施。 链接文章详细介绍了他们的系统,引发了关于管理长期运行的代理会话以及“压缩”(数据清理)对性能和提示完整性的影响的讨论。 主要收获包括为可靠的自主系统进行细致的“上下文工程”的价值,以及解决该问题的不同方法。 Hightouch 专注于编排,而另一位开发者则正在探索将解决方案*嵌入*到模型和运行时层中以降低复杂性。 对话突出了开发者们的一个共同愿望——最大程度地减少营销工作——并邀请大家进一步讨论实际解决方案以及构建类似系统的经验。

我们检测到您的浏览器已禁用 JavaScript。请启用 JavaScript 或切换到受支持的浏览器以继续使用 x.com。您可以在我们的帮助中心查看受支持的浏览器列表。帮助中心 服务条款 隐私政策 Cookie 政策 版权信息 广告信息 © 2026 X Corp.

## 捆绑与企业锁定力量 最近一则源于推特讨论的 Hacker News 讨论,强调了即使是更优秀的技术,也可能在企业市场中败北。核心论点是“优秀”是不够的;与大型套件捆绑——例如 Microsoft Teams 与 Microsoft 365 一样——往往决定了成功。 虽然 Google Workspace (G-Suite) 每年产生约 90 亿美元的收入,但与 Microsoft Office 的 500 亿美元相比,相形见绌,这表明微软在企业收入方面占据主导地位。用户通常别无选择,IT 部门优先考虑捆绑解决方案,即使像 Zoom 或 Slack 这样的替代方案提供更好的功能。 讨论指出,Zoom 最初的成功源于易用性和灵活的许可,*然后*被捆绑竞争对手超越。 许多评论员哀叹谷歌放弃有前景的产品(例如 Hangouts 的早期版本),而微软则利用其现有的生态系统。最终,该讨论表明,消费者的成功并不能自动转化为企业采用,当大型公司优先考虑“封闭花园”策略时,真正的竞争会被扼杀。

更多

联系我们 contact @ memedata.com