每日HackerNews RSS

## 黑客新闻数据集:完整档案 该数据集提供自2006年成立以来,黑客新闻(HN)提交的每一项内容的完整、实时更新档案,截至2026年3月,总计超过4700万项内容。HN由Y Combinator维护,是技术人员和企业家们的重要在线社区。 数据来源于镜像HN Firebase API的ClickHouse Playground,组织成每月Parquet文件,并对当前日期进行5分钟实时更新。它包括故事、评论、投票、招聘信息和用户数据(用户名),允许对趋势、讨论和社区动态进行深入分析。 **主要特点:** * **完整且更新:** 每5分钟持续更新,确保接近实时的数据。 * **高效格式:** 存储为Parquet格式,方便使用DuckDB和`datasets`库进行快速查询。 * **详细数据:** 包括项目ID、类型、作者、时间戳、文本、评分、URL和后代计数。 * **易于访问:** 在Hugging Face上提供,方便下载和使用。 **潜在用途:** 语言模型训练、情感分析、社区研究和信息检索。 该数据集采用开放数据共享许可协议(Open Data Commons Attribution License)。更多详细信息,包括数据模式和使用示例,可在Hugging Face数据集页面上找到。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 展示 HN:Hacker News 档案 (4700万+条目,11.6GB),以 Parquet 格式,每 5 分钟更新 (huggingface.co) 30 分,由 tamnd 3 小时前发布 | 隐藏 | 过去 | 收藏 | 3 条评论 帮助 bstsb 4 分钟前 | 下一个 [–] 许可证是什么?“只要不被抓到,你可以对数据做任何你想做的事情”?还是说这只适用于大型公司?回复 Onavo 9 分钟前 | 上一个 [–] 是否可以只下载一部分?例如,Show HNs 或 HN Whoishiring。Show HNs 和 HN Whoishiring 对于课堂数据科学非常有用,即对于学生学习数据清理和工程基础知识非常有用的数据集。回复 nelsondev 5 分钟前 | 父级 [–] 它是按日期分区的,你可以只下载一个日期范围。它也是 parquet 格式,所以你可以使用合适的客户端只下载特定的列。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系方式 搜索:

最近政府的倒退表明,版权所有者在与寻求在未经许可的情况下将受版权保护的材料用于人工智能训练的技术公司之间的斗争中取得了胜利。剑桥大学出版社的曼迪·希尔赞扬了这一决定,重申了现有法律:对此类用途*需要*获得许可。 然而,政府并未完全关闭未来例外情况的大门,引发了持续的争论。Tech UK认为,清晰的框架对于英国在全球人工智能竞赛中保持竞争力至关重要,担心落后于国际竞争对手。 这场争议源于人们对人工智能开发依赖于“免费”获取创意内容,可能损害艺术家和创作者的担忧——像埃尔顿·约翰爵士这样的人物对此进行了激情的辩论,他将此比作盗窃。虽然去年对《数据(使用和访问)法案》的一项寻求人工智能训练数据的透明度的修正案被否决,但这个问题仍然未解决,并且是一个主要的争议点。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 政府在主要艺术家强烈抗议后,就人工智能和版权问题退一步 (bbc.co.uk) 10 分,由 chrisjj 44 分钟前发布 | 隐藏 | 过去 | 收藏 | 讨论 帮助 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## 朝鲜IT工人计划:日益增长的威胁 IBM X-Force和Flare Research的最新报告详细介绍了朝鲜渗透公司、使用虚假IT工人背后复杂的运作。这些工人可能遍布40个国家,总数高达10万,每年为平壤带来约5亿美元的收入,他们通过远程和全职职位窃取资金和敏感数据。 该运作涉及分层结构:招聘人员、协助者、IT工人以及合作者(提供身份的西方人)。工人们擅长网页开发和.NET,通常不知道计划的真实性质,最初被告知他们加入的是“隐秘的初创公司”,例如“C Digital LLC”。他们使用虚假的在线资料和工具,如谷歌翻译、朝鲜VPN(OConnect/NetKey)以及安全消息应用程序IPMsg。 研究人员发现证据表明工人们在Upwork等自由职业平台上追踪“投标”和“消息”。一旦受雇,他们便利用协作支持来取得成功并获得系统访问权限。缓解策略包括仔细审查在线面试行为中的不一致之处,留意人工智能修改过的视觉内容,并使用“致命问题”——直接询问关于金正恩的问题,朝鲜工人会立即结束通话以避免回答。

## 朝鲜的IT收入来源 一份最新报告详细说明朝鲜通过约10万名IT人员的网络,每年产生大约5亿美元的收入。Hacker News上的讨论集中在将这些工人定义为“虚假”的准确性上,许多人认为他们是真正的人,在完成真实工作,尽管情况具有欺骗性——通常使用被盗身份。 该计划涉及个人在国际上获得IT工作,并得到他人的支持来完成任务,他们的收入被转移回金氏政权。引发的担忧包括这些工人可能被用作未来网络攻击的“内部威胁”,以及公司在不知情的情况下雇用与敌对国家有关联人员的伦理问题。 评论员强调了朝鲜境内法律的合法性(或缺乏),与当地收入相比,美国工资的吸引力,以及促成这项活动更广泛的地缘政治背景——包括来自中国的保护以及与西方国家冲突的历史。有些人甚至将其与传统的间谍战术相提并论。

## 规范化日志:摘要 传统的日志记录方式常常将关键信息分散在多行中,阻碍了高效的故障诊断。Stripe的解决方案——现在被称为“宽事件”或“规范化日志行”——提倡为每个工作单元(通常是一个请求)发出一个*单一*的、结构化的记录,其中包含所有重要字段。 这包括诸如路由、方法、状态、持续时间、用户ID、构建/部署ID、功能标志,以及关键的、用于特定失败原因的稳定`error_slug`。这种预连接的数据允许直接查询完整的请求,而不是手动重建。 好处不仅在于改进了调试,还在于能够进行强大的分析,用于发布影响、客户支持和产品洞察。除了基本信息外,需要记录的关键字段包括路由*模板*(例如`/users/{user_id}`)、发布元数据(构建ID)、执行成本(数据库时间)和决策输入(功能标志)。 虽然像用户ID这样高基数度的字段可以通过适当的存储(如ClickHouse或BigQuery)来管理,但核心原则是*先*记录,然后聚合——保留上下文以进行更深入的关联,并回答关于系统行为的复杂问题。稳定的模式和一致的发出,即使在发生故障时,对于成功至关重要。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 广泛的日志记录:Stripe 的规范日志行模式 (alcazarsec.com) 6 分,由 alcazar 1 小时前发布 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 formerly_proven 13 分钟前 [–] 奇怪的是,日志记录如此不完善(不仅在标准库中,而且普遍而言),尽管每个人和每个应用程序都在使用它。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

启用 JavaScript 和 Cookie 以继续。

一个新的数据中心在居民区附近开业,造成了严重的噪音污染,表现为高亢的嗡嗡声。居民报告说睡眠受到干扰,生活质量下降,一些人质疑该设施在已知可能产生噪音的情况下是如何获得批准的。 讨论凸显了对地方政府能力和分区及建筑审批过程中潜在腐败的担忧。虽然数据中心运营商声称没有“异常”,但评论员指出这个问题是可以预见的。一些人认为禁止所有产生噪音的企业是不现实的(“邻避”现象),而另一些人则建议数据中心应依靠现有的电网,而不是使用燃气轮机,后者是噪音的来源。 许多评论员分享了与其他工业噪音源相关的经验,并倡导更好的声学工程和更严格的噪音污染预防措施。还分享了一段详细说明数据中心噪音对健康影响的视频。这些数据中心的长期可行性也受到质疑,有人猜测如果科技泡沫破裂,这些数据中心可能会被废弃。

与火箭爱好者交流,提问关于火箭设计的问题,分享你的经验,并与我们的开发者联系。 我们的Discord服务器是讨论、学习和与志同道合的人一起享受乐趣的理想场所。 点击下面的按钮加入:加入我们的Discord服务器

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 工作 | 提交 登录 OpenRocket (openrocket.info) 13 分,由 zeristor 1小时前发布 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 mitchbob 15分钟前 [–] 3D打印的奇迹。先是幽灵枪,现在是幽灵火箭。想知道预测市场会如何看待这些。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## NVIDIA NemoClaw:运行安全、始终在线的助手 NVIDIA NemoClaw 是一个开源堆栈,旨在简化和保护使用 OpenClaw 部署始终在线的助手。它利用 NVIDIA Agent Toolkit 的 OpenShell 运行时为代理创建隔离、沙盒化的环境,并通过 NVIDIA 云服务进行推理。 目前处于早期 alpha 阶段,NemoClaw 提供了快速设置本地环境的工具,但尚未达到生产就绪状态,并且可能会发生变化。它需要 Ubuntu 22.04+、Node.js 20+、npm 10+ 和 Docker,推荐配置为 16GB 内存和 40GB 磁盘空间。 NemoClaw 的核心是“蓝图”系统,它协调沙盒创建、安全策略(网络、文件系统、进程控制、推理路由)和模型访问。一个 CLI (`nemoclaw`) 管理堆栈,而一个交互式 TUI 允许监控和批准网络请求。 NemoClaw 目前支持 `nvidia/nemotron-3-super-120b-a12b` 模型,需要 NVIDIA API 密钥才能访问。该项目欢迎社区反馈和贡献,并随着发展不断完善。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Nvidia NemoClaw (github.com/nvidia) 16 分,由 hmokiguess 1小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 frenchie4111 1分钟前 [–] 我发现这部分很有意思:“来自代理的推理请求从不直接离开沙箱。OpenShell 拦截每个调用并将其路由到 NVIDIA 云提供商。” 看起来他们这样做是为了成为设置 OpenClaw 最简单方式的默认计算提供商。如果成功,这可能会为他们带来可观的消费者推理收入。 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

Meta 将停止其元宇宙平台 Horizon Worlds 在 Quest 头显上的 VR 版本。6 月 15 日之后,该应用将被移除,现有的世界将无法在虚拟现实中访问。 此举遵循了今年年初宣布的战略转变,优先考虑在 iOS 和 Android 上提供的 Horizon Worlds 移动版本。 在 2026 年 3 月 31 日之前,世界将从 Quest 商店中移除。 此外,允许用户分享现实世界 3D 扫描的 Hyperscape Capture 功能将失去其社交功能。 Meta 将移动应用的“积极势头”作为放弃 VR 版本的原因,表明其重心将更多地放在人工智能和智能眼镜的开发上,而不是最初的元宇宙愿景。 此举有效地结束了 Meta 最初对以 VR 为中心的元宇宙体验的尝试。

Meta将于6月15日关闭其元宇宙平台Horizon Worlds的VR访问权限,这实质上结束了2020年启动的项目。Horizon Worlds因画面质量差、功能不足(例如化身没有腿)以及内容重复等问题而备受批评,尽管投入了大量资金,但未能获得发展。 此次关闭对Meta来说是一项重大损失,导致数十亿美元的财务亏损以及数千名与VR雄心相关的裁员。虽然元宇宙的热度已经下降,但Meta仍在致力于通过System Positional TimeWarp (SysPTW)等技术改进Quest头显上的VR体验,旨在优化VRChat等 demanding 应用的性能。此举表明Meta的重点正在VR *内部* 转移,而不是完全放弃VR。

你好!你现在正在使用一个漫游控制台!漫游控制台允许你浏览来自漫游社区的随机网站和页面。漫游社区由开发和维护自己个人网站的个人组成。要设置你自己的漫游控制台,请下载这个ZIP文件,提取index.html和wander.js,并将它们放在你网站的/wander/目录下。然后按照codeberg.org/susam/wander上的说明编辑wander.js。就完成了!一旦你的/wander/目录在你的Web服务器上准备好,你就可以在这个社区帖子中分享你漫游控制台的链接。希望有人将你的控制台添加到他们的控制台中,你将成为漫游网络的一部分。有关漫游的更多信息,请参阅codeberg.org/susam/wander。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Wander – 一个微小的、去中心化的工具(只有2个文件)用于探索小型网络 (susam.net) 11点 由 oystersareyum 42分钟前 | 隐藏 | 过去 | 收藏 | 1条评论 帮助 bovermyer 12分钟前 [–] 哦,这很不错。我想真正理解它,我需要探索并尝试托管我自己的Console。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

## Snowflake Cortex 代码 CLI 漏洞摘要 Snowflake Cortex 代码 CLI 在 2026 年 2 月 2 日发布后不久被发现存在一个严重漏洞。该漏洞允许攻击者执行 CLI 沙盒*外部*的任意命令,绕过人工审批,通过精心设计的提示注入实现。 攻击链涉及欺骗 Cortex 下载并执行恶意脚本——隐藏在看似无害的第三方代码仓库中——使用进程替换并利用命令验证系统中的一个弱点。具体来说,`<()>` 表达式中的命令没有得到妥善验证,即使在“安全”命令前缀下也能执行。 成功利用使攻击者能够在受害者的机器上执行远程代码,并可能利用缓存的 Snowflake 凭据来窃取数据、删除表或破坏 Snowflake 实例。该漏洞由 PromptArmor 于 2 月 5 日负责任地披露,Snowflake 于 2 月 28 日发布了修复程序(版本 1.0.25),并在更新时自动应用。 该事件凸显了 LLM 驱动工具中提示注入的风险以及即使在沙盒环境中,健壮的命令验证的重要性。 Snowflake 的完整建议在其社区网站上提供。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 Snowflake AI 逃离沙盒并执行恶意软件 (promptarmor.com) 23 分,由 ozgune 1小时前 | 隐藏 | 过去 | 收藏 | 1 条评论 帮助 RobRivera 4分钟前 [–] 如果用户可以访问一个允许访问的杠杆,那么这个杠杆就不是提供沙盒。我原本以为这会是关于获取操作系统权限的事情。他们没有创建沙盒。 糟糕的安全设计。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

更多

联系我们 contact @ memedata.com