每日HackerNews RSS

受重新体验经典软件,如原始的《冒险》游戏在原始硬件上运行的兴趣驱动,一个名为“TOPS-10 in a Box”的项目旨在简化在现代个人电脑上运行1976-1983年的PDP-10系统。虽然SIMH等工具和在线档案存在,但对于不熟悉这些旧系统的人来说,设置所有内容可能具有挑战性。 此发行版提供了一个预配置的TOPS-10操作系统,包括FORTRAN和BASIC编译器,以及关键的,原始的Crowther和Woods完成的《冒险》游戏——以源代码和可执行文件的形式提供。这让玩家能够以最初设定的方式体验游戏,包括独特的“洞穴时间”和其不寻常的保存系统。 这个300MB的软件包是探索TOPS-10的起点,但用户需要单独下载SIMH模拟器。它面向渴望深入研究计算历史并试验复古软件的爱好者。

黑客新闻 新 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 十个顶级网站打包 (2011) (filfre.net) 9 分,由 exvi 1天前发布 | 隐藏 | 过去 | 收藏 | 讨论 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

经过25年的努力,麦克马斯特大学的研究人员创建了CANDID——加拿大可报告疾病发生率数据集,这是一个包含超过一百万条传染病记录的综合数据库,数据可追溯到1903年。戴维·恩教授最初在被忽视的卫生部存储区域发现了原始资料——数十年的手写报告,克服了最初获取历史数据的阻力。 该数据集包括脊髓灰质炎、麻疹和结核病等疾病的每周、每月和每季度病例数,涵盖加拿大所有省份和地区。这个“美丽的数据集”使研究人员能够分析过去的爆发、模拟疾病传播并了解长期趋势。 目前,公众获取加拿大传染病数据的途径有限,仅发布年度全国统计数据。恩认为,在优先保护患者隐私的前提下,增加数据共享对于改善疫情准备和应对至关重要。CANDID现在已公开可用,为流行病学家提供了一项宝贵的资源,以便从过去吸取教训并加强未来的公共卫生策略。

麦克马斯特大学的一个研究团队数字化了超过一个世纪的加拿大传染病数据,引发了Hacker News上关于此类数据集潜力的讨论。用户们思考了可以构建的工具,并提到了类似的数据库,例如医疗定价数据库。 主要讨论点包括从历史扫描件中进行数据建模和规范化的挑战,一位评论员建议,如果保留原始扫描件,未来的OCR技术可以提高准确性。 还有关于人群健康洞察与现代隐私问题之间的权衡的讨论,强调了英国生物库和“全民参与”研究项目等有价值的资源。 最后,手动转录过程(到Excel!)以及使用LLM进行更有效的数据结构化的可能性也被考虑在内。 研究期刊和数据库本身的链接已被分享。

## Phoenix: 一款现代 X 服务器 Phoenix 是一款新的 X 服务器,使用 Zig 语言从头构建,旨在成为 Xorg 的一个更简单、更安全、技术更先进的替代方案。目前,它并非完全替代品——它在现有的 X 服务器中*嵌套*运行,使用硬件加速渲染 GLX、EGL 或 Vulkan 应用程序。 主要目标包括仅支持现代硬件(约近 15 年)和精简的 X11 协议子集,专注于当代应用程序使用的功能。安全性通过自动协议解析和应用程序隔离来优先考虑,需要用户许可才能进行应用程序间的交互。 Phoenix 旨在改进现代显示功能,例如多显示器设置(具有不同的刷新率和 VRR)和 HDR 支持,以及内置合成以消除撕裂。它还引入了新的标准,例如每显示器 DPI 缩放,并计划根据需要扩展 X11 协议,可能弥合与 Wayland 应用程序的兼容性。 虽然 Phoenix 不打算完全取代 Xorg(Xorg 将保留更广泛的硬件和功能支持),但它为现代 X11 体验提供了一个有希望的基础。开发正在进行中,目前可以通过 Zig 构建进行安装。

启用 JavaScript 和 Cookie 以继续。

## 桥接匿名化:AI本地优先的个人身份信息清洗 桥接匿名化是一个新的 Node.js/Bun 管道,旨在解决现有个人身份信息 (PII) 清洗方案在 AI 工作流程中的不足,尤其是在金融和医疗等敏感行业。传统的删除可能会损害翻译质量,因为它会移除上下文信息(如性别),而将数据发送到第三方 API 常常是被禁止的。 该工具使用可逆、本地优先的处理方式。它采用类似 XML 的标签和唯一 ID 来标记 PII (`<PII type=”PERSON” id=”1”>`),允许翻译模型保留关键上下文。混合检测引擎结合了正则表达式来处理结构化数据(如信用卡号码),以及量化的 `xlm-roberta` 模型来处理“软”PII(姓名、地点)。“幻觉防护”使用模糊匹配来纠正 LLM 在 XML 标签中引入的错误,确保准确的还原。 目前,开发者正在致力于“语义遮蔽”,以进一步丰富标签的上下文信息(例如,性别)。该项目采用 MIT 许可,旨在解决隐私保护 NLP 中的“上下文丢失”问题,并可能扩展到更广泛的 LLM 应用。其核心原则是使 PII 保持本地和加密状态,并安全管理匿名化密钥。

## Confer:私密AI对话 Confer是一个新项目,专注于为AI聊天带来端到端加密,确保用户的完全隐私。由Signal创始人打造,它解决了关键问题:与人类的对话不同,当前的AI互动并非私密的。你的提示和AI的回复经常会被存储,并可能被用于训练、数据挖掘,甚至法律访问。 作者认为,AI的对话性质会引发更深入、更具探索性的思考——分享我们*如何*思考,而不仅仅是*思考什么*。这使得AI聊天比传统的在线通信(如电子邮件或搜索)更加敏感。Confer旨在创建一个空间,让用户可以自由地探索想法,而不必担心自己的想法被利用,从而防止AI驱动的广告利用我们推理和不确定性的亲密知识。 本质上,Confer努力使*界面*(私密聊天)与*现实*(真正私密的对话)保持一致,为开放的思考和学习提供一个安全的环境。

一场由一篇名为“向数据湖忏悔”(confer.to)的文章引发的 Hacker News 讨论,围绕着大型语言模型 (LLM) 及其对隐私和信息消费的影响展开。 一位用户认为 LLM 独特地*诱导*忏悔,从而引发了关于 LLM 是否符合麦克卢汉意义上的“媒介”的争论。一些人认为 LLM 确实如此,像其他媒体一样影响着我们处理信息的方式,而另一些人则认为 LLM *取代*了而不是*扩展*了人类的能力——这是麦克卢汉定义的一个关键方面。 对话还涉及了 LLM 的加密限制,指出当 LLM 本身需要解密输入以进行处理时,真正的端到端加密是不可能的。最后,一段幽默的交流将“数据湖”定义为一个易于*写入*数据,但难以*读取*数据的系统,与功能完善的“数据库”形成对比。

## 联动臂:为机器人打造“学前班” 联动臂正在解决机器人领域最大的挑战——缺乏训练数据——通过创建一个用于大规模、真实世界数据收集的系统。他们受到数据丰富的AI领域(如语言模型和游戏)的启发,正在构建一支小型、耐用且廉价的机器人队伍,以探索和与物理世界互动。 这个“机器人学前班”将专注于收集有关材料属性的数据——纹理、重量、柔韧性——这些信息难以从视频中获得。这些机器人将通过经验学习,建立对其环境和自身能力的全面理解。 联动臂设计了定制硬件,优先考虑耐用性和可扩展性,具有履带、坚固的结构和高效的制造技术等特点。这些机器人表现出惊人的力量和灵巧性,能够执行诸如操作工具(剪刀、螺丝刀)和组装结构等任务。 作为一家公共利益公司,联动臂旨在 democratize 机器人技术,降低硬件成本以实现更广泛的访问和创新。他们目前正在扩大数据收集规模,并积极研究最佳学习算法,愿景是创造能够增强人类潜力并重塑工作方式的机器人。

一个名为“Pantograph”的新项目正在构建一个“机器人幼儿园”,旨在通过游戏和模仿来教导它们技能。该项目在Hacker News上分享后,引起了用户的兴奋,许多人对视频中展示的机器人使用剪刀和螺丝刀等工具的灵巧度印象深刻。 评论者指出这些机器人与谷歌DeepMind的GDM机器人相似,并表达了尝试这项技术的意愿。一个问题是关于初始学习过程的——机器人如何在没有预先存在的模型的情况下发展出基础技能。有人建议改进网站,提供更清晰的机器人图像,以更好地吸引访问者的兴趣。总的来说,该项目被视为机器人教育和发展方面一个充满希望的步骤。

## 含铅汽油:进步与污染的警示故事 20世纪20年代,化学家托马斯·米德利倡导四乙基铅作为一种安全的汽油添加剂,以提高发动机性能,甚至公开展示其所谓的无害性。然而,早期的生产充满了悲剧——数十名工人遭受了可怕的神经损伤和死亡,使实验室获得了“疯人气体大楼”的绰号。 尽管有令人担忧的证据和像爱丽丝·汉密尔顿博士这样的科学家关于铅暴露固有危险的警告,通用汽车和标准石油仍然推动其广泛使用,将利润置于公共健康之上。他们资助了有偏见的调查研究,以淡化风险,认为强劲发动机的好处超过了潜在的危害——这是进步与污染之间经典的争论。 虽然存在乙醇等替代品,但它们缺乏专利潜力。含铅汽油在几十年里一直占据主导地位,直到最终在20世纪70年代被淘汰。有趣的是,后来的研究表明,铅暴露减少与暴力犯罪率下降之间存在相关性,突出了长期的社会成本。这个故事提醒人们,优先考虑工业利益的危险性,以及在评估潜在有害技术时进行独立科学审查的重要性。

## 为什么含铅汽油长期存在:摘要 最近的Hacker News讨论探讨了为什么含铅汽油在已知危险的情况下仍被使用这么长时间。核心问题不是缺乏替代品——乙醇被考虑过,但其较低的利润率(需要大比例的燃料混合)和损害发动机的特性,使得利润更高的四乙基铅(TEL)更受欢迎。 关键在于,四十年间,关于TEL的研究主要由Ethyl Corporation和General Motors资助,造成了研究环境的偏颇。这使得这些公司能够淡化风险并维持利润。讨论还强调了历史背景,当时过早死亡更为常见,可能降低了人们对健康风险的紧迫感。 这个问题不仅仅存在于汽车领域;由于行业游说和FAA批准替代品延迟,含铅燃料仍然是通用航空的标准。虽然美国比英国/欧盟更早禁止在汽车中使用含铅汽油,但在其他领域,例如继续使用PFAS和塑料,仍然存在优先考虑便利性和利润而非公共健康的问题。这次讨论强调了经济激励和监管俘获如何凌驾于科学证据之上,危及公众福祉。

## 世界模型与预测的力量 下一帧和下一词元预测是强大的预训练任务,因为它们迫使模型直接从数据中学习世界运作方式,所需的先验知识最少。减少对接下来发生的事情的不确定性,能够解锁越来越强大的能力——在语言模型中,随着上下文长度的增加,这一点表现得尤为明显。 这个原理延伸到从视频中学习的“世界模型”。为了预测未来的观察结果,模型必须推断世界的潜在状态以及它的变化方式,从而掌握物理学、因果关系和持久性。至关重要的是,需要*长*序列来学习维持内部“隐藏状态”——即使在未观察到的情况下也能理解事件(例如,正在注满的浴缸)。 与建立在手工规则上的传统模拟器不同,后者仅限于特定领域,世界模型*学习*从海量视频数据中进行模拟。这允许采用一种更通用、更可扩展的方法,模型可以动态地关注关键信息,而不是受预定义保真度的约束。这代表着向学习模拟本身转变,有望在表示复杂、长时效动力学方面取得重大进展。

在1996年《Quake》开发的期间,团队面临着由于早期互联网速度和新兴3D技术的限制而带来的重大技术挑战。关卡设计受到严格的1.4MB地图数据(BSP文件)文件大小限制的严重制约,以便于下载。性能也至关重要;当世界多边形数量超过350时,闪烁的红色屏幕会警告开发者,需要通过可见性阻挡进行仔细优化。 内部关卡编辑器QuakeEd,按今天的标准来说非常简陋。它从头开始构建,缺乏流畅的3D导航,并且依赖于简单的“笔刷”几何体——用于构建整个关卡的3D矩形。设计师使用有限的视角工作:俯视、侧视和一个小的渲染3D预览,使用独特的X坐标系统进行垂直放置来操作笔刷。尽管存在这些挑战,QuakeEd仍然能够在这些严格的限制下创建《Quake》的突破性关卡。

## Quake 玩家速度与技术细节 - Hacker News 总结 一场 Hacker News 讨论围绕着 John Romero 最近关于 Quake 开发的见解,特别是玩家速度和多边形限制。原始帖子链接到一个讨论这些方面的视频。 对话强调,虽然加速 Quake 成为一种流行的玩家技巧(火箭跳跃、兔子跳跃),但开发者有意保持基础速度相对现实,与 Doom 中更夸张的速度形成对比。 讨论的很大一部分集中在将可见多边形限制在 350 以维持性能的技术挑战上。用户们争论了诸如潜在可见集 (PVS) 之类的自动化解决方案的有效性,并指出可能存在误报以及在不寻常的游戏时刻偶尔出现卡顿的可接受权衡。 该帖子还涉及游戏中的耐力机制,参考了《逃离塔科夫》和《暗黑破坏神》等游戏,以及为了盈利而人为延长 YouTube 视频的趋势。

## Microdot 中的 CSRF 保护现代化 最近,作者为他们的 Web 框架 Microdot 添加了 CSRF(跨站请求伪造)保护。 最初计划实现传统的反 CSRF 令牌方法,但他们发现一种更新、更简单的方法在 Go 和 Ruby 社区中越来越受欢迎。 这种“现代”方法利用了现代浏览器自动包含的 `Sec-Fetch-Site` HTTP 标头。 该标头可靠地指示请求是否来自同一站点,从而防止恶意跨站点请求。 作者实施了此方法,并添加了选项来控制子域处理以及使用 `Origin` 标头作为后备机制,以支持缺乏 `Sec-Fetch-Site` 支持的旧版浏览器。 有趣的是,这种方法尚未获得 OWASP(开放 Web 应用程序安全项目)的完全认可,目前列为“纵深防御”而不是完整解决方案——尽管社区讨论呼吁将其提升。 尽管如此,作者认为这对 Microdot 来说是一项重大改进,符合其简约设计。 该实现是开源的,可供审查,并会持续监控 OWASP 的指导,以便进行潜在的未来更新,包括在需要时基于令牌的后备方案。

## 无Token的CSRF保护:摘要 这次Hacker News讨论的核心是CSRF(跨站请求伪造)保护的新方法,不再依赖传统的基于Token的方法。其核心思想是利用浏览器提供的`Sec-Fetch-Site`和`SameSite` Cookie等头部信息来验证请求的合法性。 作者最初强调了OWASP cheat sheet的最新变化,将Fetch Metadata(使用`Sec-Fetch-Site`)提升为主要的CSRF防御手段,但短暂的回退造成了一些困惑。讨论澄清说,依赖这些头部信息意味着信任浏览器能够准确报告请求来源,从而提供更简单且可能更易于缓存的解决方案。 虽然`Sec-Fetch-Site`拥有较高的浏览器支持率(约98%),但建议采取分层方法:对现代浏览器使用它,对旧版浏览器使用`SameSite` Cookie,并为遗留客户端保留Token。关于信任浏览器实现与传统Token方法相比的程度,存在一些争论。最终,对话强调了转向利用内置的浏览器安全功能,而不是复杂的服务器端Token管理。

更多

联系我们 contact @ memedata.com