每日HackerNews RSS

## 最大神经语言数据集:数据收集摘要 在过去六个月里,作者们收集了一个约10,000小时的神经语言数据集,来自数千名个体——目前为止,这是同类数据集中最大的一个,旨在训练“意念转文本”模型,直接从大脑活动中解码语义内容。这些模型成功地预测了人们在说话或打字*之前*的想法,并在新受试者身上表现出零样本性能。 数据收集涉及参与者与LLM进行两小时的自由形式对话(使用Deepgram、OSS120B和ElevenLabs等工具),通过打字或语音进行。最初的结构化任务被开放式对话所取代,以最大化数据量和参与度。一个关键的重点是扩大规模:开发了具有动态定价/超额预订功能的定制预订软件,以最大化参与者流量,并通过实时监控和使用Zarr 3数据格式的自动化检查来提高数据质量。 大量精力投入到耳机设计中,结合多种模态(EEG等),以实现最佳信号捕获,并通过电极质量和基础设施调整来最大限度地减少噪声。团队发现,在一定规模(约4-5千小时)之后,数据量最终超过了降噪的重要性。通过这些优化,每可用小时的边际成本降低了40%。该项目现在专注于模型训练,并正在寻求合作和人才。

## Conduit.it:构建神经语言数据集 Conduit.it 已经收集了超过1万小时的神经语言数据,这些数据由内部团队构建和改进,旨在将思想解码为文本和语音。该项目最初是一个“三人的车库创业公司”,但规模已经扩大,目前拥有一支由7人组成的团队(3名工程师,4名数据收集员)。 最初缺乏“关于我们”页面,团队响应了反馈并计划添加一个。一个关键的重点是数据质量——改进实时检查将可用数据从58-64%提高到90-95%。他们发现来自*更多*人的数据能产生更好的泛化能力,目标是总共收集50-70k小时的数据。 该模型显示出令人鼓舞的结果,甚至可以在没有精确的词语匹配的情况下预测想法。虽然目前更擅长解码打字文本,但它可以在打字和语音之间进行泛化。未来的计划包括将数据收集扩展到其他地点,并开发一种由思维控制的计算机界面,重点是新的交互范式。该团队正在积极寻求社区反馈。

## 遗留更新:保护微软的过去 遗留更新是一个档案,致力于保存2012年至2025年间从微软下载中心移除的下载内容。微软已停止对众多较旧产品(包括Windows 95/98/XP/Vista/7、Office套件以及Visual Studio和SQL Server等开发工具)的支持,并随后删除了相关文件。 该项目记录了这些丢失的下载,提供对诸如.NET Framework运行时、Visual C++可再发行组件、旧版Office查看器,甚至Virtual PC等免费软件的访问。在提供这些遗留程序访问的同时,遗留更新*强烈*警告用户这些下载不受支持,可能包含安全漏洞,建议用户在安装后通过该网站检查更新。 该档案严重依赖Archive Team和互联网档案的Wayback Machine的工作,承认他们在保护在线历史方面发挥的关键作用。它提供了一个可搜索的数据库,并突出显示常用下载文件,旨在为那些需要访问旧软件以实现兼容性或历史目的的人们提供资源。

## 遗留微软下载档案受到关注 一个Hacker News讨论强调了[legacyupdate.net](https://legacyupdate.net/),这是一个较旧微软软件的档案,包括深受喜爱的实用程序,如PowerToys(至今仍有用!)、Tweak UI和Deskman。用户分享了使用这些工具自定义Windows XP的怀旧回忆,甚至试图获得类似X Windows的简约体验。 该档案填补了一个关键需求,为维护遗留系统的人们提供服务——工业机械、研究设备,或仅仅是享受复古计算,在这些情况下,较新的操作系统不兼容。它还提供了对必要组件的访问,例如特定软件所需的旧版Visual Studio Redistributable。 该项目由“kirb”运营,依靠Wayback Machine快照和捐赠(通过GitHub、Patreon以及可能的Liberapay/OpenCollective)来维持运营。用户赞赏该网站简洁的界面和专注于提供合法下载,并提供SHA1校验和以供验证。人们对长期可持续性表示担忧,并强调验证文件签名的重要性,但该档案目前维护良好且得到积极支持。

## NVIDIA 的 AI 主导地位:表面下的裂痕? NVIDIA 最近的 2026 财年第三季度财报显示,营收增长 62% 至 570 亿美元,主要得益于其数据中心部门(现在占业务的 90%)。然而,更深入的分析显示,尽管数字令人印象深刻,但仍存在潜在问题。担忧包括报告的净收入(319 亿美元)与经营现金流(238 亿美元)之间的差距,库存翻倍(约 198 亿美元),以及应收账款周转天数增加(53 天),表明依赖于延长的信用条款。 更复杂的是,围绕 NVIDIA、OpenAI 和 Oracle 之间潜在的“循环融资”安排的审查正在加剧。NVIDIA 承诺对 OpenAI 的投资推动了与 Oracle 的巨额云协议,而 Oracle 又订购了数十亿美元的 NVIDIA GPU——如果 NVIDIA 的投资被移除,这引发了对其可持续性的质疑。 与此同时,OpenAI 正在积极减少对 NVIDIA 的依赖,直接采购 DRAM 晶圆等关键组件(绕过 NVIDIA 的供应链),并挖走 NVIDIA 的关键芯片人才。Oracle 也在探索其他选择,可能包括收购 Groq——一家为 AI *推理* 提供更快、更便宜替代方案的初创公司——以绕过 HBM 短缺并提高利润率。 这种情况表明,权力动态正在发生变化,NVIDIA 的最大客户正在准备替代方案,这可能会对其长期主导地位构成挑战。虽然 AI 硬件市场竞争依然激烈,但未来的几个季度将揭示 NVIDIA 是否能够在这些新兴挑战中保持其地位。

## NATS JetStream 耐久性测试总结 Jepsen 测试揭示了 NATS JetStream 存在一些耐久性问题,尽管它声称提供“至少一次”投递和线性一致性。虽然在 2.12.1 版本(修复了 2.10.22 的问题后)中,简单的崩溃不会导致数据丢失,但文件损坏和模拟的操作系统级故障会导致数据丢失。 具体来说,JetStream 的数据 (.blk) 或快照文件中的单比特错误或截断会导致写入丢失——有时是大的块——甚至流删除,节点之间会出现不一致(分裂脑)。重要的是,即使损坏仅限于少数节点,这些问题也会发生。 此外,JetStream 的默认配置承认在将数据刷新到磁盘*之前*确认发布(每两分钟一次),这使得最近的写入在断电或快速节点故障期间容易丢失。单个操作系统崩溃,与其他故障结合,也可能导致数据丢失和分裂脑。 这些测试凸显了 JetStream 声明的自我修复和始终可用目标与 CAP 定理之间的冲突,后者规定一致性、可用性和分区容错性之间的权衡。Jepsen 建议要么默认强制同步磁盘写入,要么清楚地记录相关故障下潜在的数据丢失可能性。

## Jepsen 报告关于 NATS 2.12.1 - 摘要 最近的 Jepsen 报告揭示了 NATS JetStream 存在严重的数据持久性问题,JetStream 是构建在 NATS 之上的持久化消息系统。核心问题是:NATS 默认每两分钟才将数据刷新到磁盘一次,并立即确认写入——这是优先考虑速度而非数据安全的权衡。这可能导致在并发故障期间丢失已提交的写入数据。 Hacker News 的讨论强调了一个反复出现的主题:理论正确性和实际实现之间的紧张关系。许多评论员指出,许多项目跳过了基础理论,并为此付出代价。一些人认为,人工智能可能能够根据项目声明预测这些问题。 争论扩展到更广泛的分布式系统领域,与 Kafka、Redis 和其他技术进行比较。虽然 NATS 在临时消息传递方面表现出色,但其 JetStream 的持久性声明现在受到审查。讨论还涉及理解系统默认设置以及性能和数据一致性之间的权衡的重要性。最终,该报告被认为是宝贵的,可能会推动 NATS JetStream 持久化层的改进。

“创作者经济”并非新事物——它*就是*现代媒体和互联网经济,驱动着抖音和YouTube等大型平台。然而,它的基础存在严重缺陷。这些平台通过优先算法来分隔创作者与直接受众的联系,并仅为创作者提供微薄的收入回报,从而迫使他们不断追逐病毒式关注和品牌合作。 最终,创作者的可持续收入在于销售*产品*,而不仅仅是观看量。杰克和洛根·保罗的矿泉水品牌以及MrBeast令人惊讶的亏损YouTube频道(通过在沃尔玛销售巧克力来弥补)都证明了这种转变。 这个系统是一个高效且充满争议的购物网络,它主宰着文化并逃避责任。这是一个剥削的循环,不断地被新的创作者补充,它不是未来的趋势——而是媒体运作的现状。

## 创作者经济与互联网的演变 一篇《Verge》文章引发的讨论探讨了“创作者经济”如何从根本上改变了互联网,许多人认为这是一个负面转变。核心论点并非仅仅关于创作者本身,而是关于垄断公司的主导地位,它们将网络转变为一个由愤怒驱动、缺乏问责制的“超级购物系统”。 评论员指出,这并非新鲜事——媒体*一直*容易被操纵——但互联网的规模放大了现有的问题。社交媒体的兴起和整合取代了以前多样化的本地媒体景观(报纸、广播、BBS论坛),取而代之的是一个优先考虑算法参与而非真正社区联系的系统。 人们对市场网站对假冒商品的责任以及对更新的监管和反垄断措施的需求表示担忧。 还有人强调了货币化本身会剥夺在线活动乐趣的固有问题。 这篇文章不同寻常、故意花哨的网络设计也是讨论的焦点,一些人认为这是对早期互联网美学的怀旧致敬。

## 微型 GLSL 演示:学习之旅 过去两个月,作者创作了一系列小型 GLSL 演示(月光、入口 3、群岛和可爱),字数限制在 512 个字符以内。本文重点介绍创作过程中获得的*学习经验*,而非详细的代码分解(已在之前的“红阿尔卑斯”文章中介绍)。 一个关键发现是简化的体积光照技术:在光线行进中,使用 `1/d`(其中 'd' 是密度)可以提供物理启发的光照衰减近似值,避免复杂的计算。进一步的探索涉及使用包含吸收和透射值的公式来实现透明度。 “入口 3” 强调了使用 L-∞ 范数简化距离函数,以及通过 Sympy 计算的矩阵变换实现的独特相机设置。“群岛” 使用域扭曲和 Acerola 的工作找到的特定噪声公式来创建多样的地形。最后,“可爱” 使用 smoothmin 运算符实现圆角形状,并使用 IK 进行动画,利用迭代次数作为自然的深度提示。 作者强调这些限制的价值——促进专注学习、艺术表达和项目完成。512 个字符的限制,部分是为了与 Mastodon 兼容,迫使创造性的问题解决和对代码工艺的奉献。更新和更多内容可以在 Mastodon 和 RSS 上找到。

## SQLFlow:基于Kafka的流处理 本指南详细介绍了SQLFlow的设置方法,SQLFlow是一种流处理器,能够对Kafka流运行SQL查询。首先,安装依赖项(`pip install -r requirements.txt`)并拉取Docker镜像(`docker pull turbolytics/sql-flow:latest`)。 在处理实时数据之前,可以使用提供的fixtures通过`docker run`命令和`invoke`命令来测试配置,确保SQL逻辑正确。 要将SQLFlow作为流处理器运行,请启动Kafka实例(使用`docker-compose -f dev/kafka-single.yml up -d`)并将测试数据发布到Kafka主题(`python3 cmd/publish-test-data.py`)。然后,使用`docker run`启动SQLFlow,将其指向您的配置文件和Kafka brokers。 最后,通过使用Kafka控制台消费者(`docker exec -it kafka1 kafka-console-consumer...`)来消费输出主题,查看处理后的输出。目标是在5分钟内拥有一个可运行的流处理器,能够读取和处理Kafka数据。

量子书讯宣布即将出版两本由顶尖科学家撰写的书籍:《数学六要素》由数学家陶哲轩撰写,以及《万物皆场》由理论物理学家戴维·汤撰写。 陶哲轩的书籍是他首次面向大众读者,旨在通过探索六个核心概念——数字、代数、几何、概率、分析和动力学来揭开数学的神秘面纱,这些概念是该领域的基石。他认为数学是一种对每个人都至关重要且易于理解的思维方式。 戴维·汤的《万物皆场》解释了量子场论,揭示了宇宙的基本构成要素并非粒子,而是渗透于整个存在的“场”。他以清晰和热情的态度呈现了这个复杂的主题。 量子书讯是一家专注于阐释现代科学的出版社,还将于2026年6月出版凯文·哈特内特的《代码中的证明》,详细介绍Lean证明助手的发展及其通过人机协作彻底改变数学的潜力。

## Apex:通用 Markdown 处理器 Apex 是一款新的开源 Markdown 处理器,旨在消除不同 Markdown 风格(如 CommonMark、Kramdown 和 MultiMarkdown)之间的兼容性问题。目前处于早期发布阶段(0.1.0),Apex 默认采用一种宽松、统一的模式,能够智能地适应遇到的语法,力求正确渲染*任何*有效的 Markdown。 最终目标是将 Apex 集成到 Marked 中,创建一个通用的 Markdown 预览器,使内容能够在 Obsidian、GitHub 和博客等应用之间无缝传输。 Apex 具有灵活的列表处理、自动文件包含、高级表格语法(包括行跨度)、Callout 支持、可定制的目录生成以及 Kramdown 的 IAL 属性等功能。它现在可以通过 Homebrew 和 GitHub 获取,并提供全面的 wiki,其中包含安装和使用细节。 开发者欢迎贡献——错误报告和代码都将不胜感激——以帮助完善 Apex,使其达到稳定的 1.0 版本。

一个名为Apex的新通用Markdown处理器,由ttscoff创建,正在Hacker News上受到关注。虽然项目网站缺乏详细示例,但其GitHub wiki展示了超出标准Markdown的扩展功能集和可配置性。 讨论的中心是Apex与流行的工具Pandoc的比较。用户强调Apex处理更多Markdown“风格”的能力及其更大的自定义选项是关键的区别,但也承认Pandoc仍然是一个强大的工具。 对话还涉及开发者的其他项目,并有人猜测(被另一用户否认)Apex的开发正在延迟nvUltra的发布。该项目是开源的(MIT许可证),并且可在GitHub上获取。还分享了一个关于工具选择的XKCD漫画链接。

著名贝斯手山内哲夫,以与Free乐队和Faces乐队的合作而闻名,享年79岁。1946年出生于日本,山内哲夫的职业生涯始于米奇·柯蒂斯和武士乐队,之后获得国际认可。 他最初在Free乐队分裂期间与乐队成员合作,最终全职加入Free乐队,并参与了他们的最后一张专辑《Heartbreaker》,共同创作了热门歌曲“Wishing Well”。在Free乐队解散后,他取代罗尼·莱恩加入了Faces乐队,出现在他们的现场专辑《Coast to Coast》中,并参与了他们那首以冗长标题著称的单曲。 Faces乐队解散后,山内哲夫开始了他的个人作品和伴奏演奏生涯,后来返回日本,继续与各种乐队合作,包括在自由爵士乐领域内的合作。近年来,他重返舞台,最终在家人陪伴下平静离世。其他音乐家们回忆他是一位才华横溢的贝斯手和充满活力的个性。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 [已标记] pauseandplay 1天前 | 隐藏 | 过去的 | 收藏 toomuchtodo 1天前 | 下一个 [–] https://en.wikipedia.org/wiki/Tetsu_Yamauchi Refreeze5224 1天前 | 上一个 | 下一个 [–] Kossoff, Kirke, Tetsu & Rabbit 专辑很棒,我强烈推荐大家去听听。 worik 1天前 | 上一个 [–] > 在他生命的最后15年里,山内过着平静的生活,拒绝了采访请求, 他欠媒体的没什么。 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请YC | 联系 搜索:

更多

联系我们 contact @ memedata.com