每日HackerNews RSS

## Susam Pal 关于计算、数学与更多:Lobsters 访谈摘要 本次访谈的对象是 Susam Pal,一位专注 Lisp 编程和终身学习者,探讨了他多样化的兴趣和对计算的 подхода. Pal 的旅程始于 Logo,进而深入研究 Lisp (目前使用 SBCL) 和 Emacs,这些工具他广泛用于个人项目,例如数学粘贴板 (MathB) 和静态网站生成。虽然他精通其他语言 (Python, Go, Rust, C++),但 Lisp 仍然是他工作的核心。 他强调“为了乐趣而计算”,由探索和分享驱动——这体现在交互式数学黑板 (Muboard) 和极简主义绘图语言等项目中。Pal 优先考虑领域理解而非工具,让问题决定使用的语言。他提倡通过清晰的词汇和小型、专注的函数进行可组合的设计,这与 Unix 哲学和 Forth 的分层方法相呼应。 作为一位终身数学爱好者,Pal 强调了严格证明的乐趣,并分享了有影响力的教科书 (Kreyszig, Apostol, Stewart)。他认为数学和计算之间存在着紧密的联系,从数论基础的密码学到数学思维对代码清晰度和正确性的影响。尽管生活繁忙,他仍然平衡探索与专注,优先学习并通过博客和在线论坛分享他的热情。虽然 MathB 最终因审核负担而关闭,但其存档仍然可用。

## 黑客新闻上的龙虾社区讨论 最近黑客新闻上出现了一场关于龙虾社区(lobste.rs)的讨论,该社区被描述为类似于早期黑客新闻的形态——更注重技术,较少关注商业/文化。用户指出龙虾社区的管理更为严格,尤其是在自我宣传和人工智能相关内容方面,并且更偏好深入、小众的技术讨论。 然而,有人对龙虾社区的管理和社区中可能存在的政治偏见表示担忧,一些人声称进步观点受到偏爱。另一些人则为该网站选择性地管理社区辩护。访问龙虾社区需要邀请,但用户建议加入他们的IRC频道来申请邀请。 一些评论员感叹黑客新闻的焦点随着时间推移发生了变化,认为它变得更加商业化,而对构建和技术细节的关注减少了。虽然龙虾社区提供了一种不同的体验,但有人指出由于机器人从黑客新闻上重新发布内容,导致内容存在重叠。总的来说,这场讨论凸显了对专注技术社区的渴望,并反映了在线技术讨论的演变。

## LLM 反模式:经验教训 在与大型语言模型 (LLM) 合作了 15 个月后,出现了一些适得其反的模式。**首先**,避免冗余上下文;LLM 的“记忆”有限。发送重复的、几乎相同的信息(例如连续的截图)会浪费 token 并降低性能。 **其次**,发挥 LLM 的优势。不要要求它做它*不*擅长的事情——比如直接计数——而是利用它的编码能力来*生成*解决方案。通过代码进行工具调用也被证明比直接提问更可靠。 **第三**,避免用过多的上下文(超过约 128k token)使 LLM 不堪重负。随着模型难以管理信息,准确性会下降,可能会“忘记”关键细节。 **第四**,由于训练数据的限制,LLM 在处理晦涩或最近发明的课题时会遇到困难。预计准确性会降低,并相应地进行补偿。 **最后**,保持积极的监督——不要成为“感觉编码员”。密切监控 LLM 的输出,因为它可能会引入细微的错误或安全漏洞(例如泄露敏感数据),如果无人检查,则可能发生。

## Hacker News 讨论:大型语言模型的反模式 Hacker News 上一篇题为“使用大型语言模型时的反模式”的文章引发了关于有效使用大型语言模型的讨论。尽管原文被批评为含糊且结构不良,但评论者指出了几个关键挑战。 常见的反模式包括重复发送信息、要求大型语言模型执行它们不擅长的任务(例如图像转文本与文本转图像)、忽略上下文窗口限制、查询晦涩知识以及对“氛围编码”不谨慎。 许多用户强调了与大型语言模型交互时**具体性、小任务和精确上下文**的重要性。 分享的经验表明,大型语言模型在理解和调试复杂代码库方面具有令人惊讶的优势,即使跨越不同的语言,以及在数据分析方面。 然而,人们对**过度自信和“幻觉”**——大型语言模型自信地呈现错误信息——提出了担忧,以及对仔细验证的必要性,尤其是在配置细节方面。 许多人认为大型语言模型最适合作为推理的**讨论对象或“橡皮鸭”**,而不是作为明确的问题解决者。 最终,用户强调需要管理期望并认识到大型语言模型的局限性。

该项目详细描述了一个完全由继电器驱动的控制器设计,用于构建一种“站立马车”(本质上是悬浮滑板),采用1884年左右的技术——不使用半导体,而是依赖继电器、汞和黄铜。其目标是仅使用同期组件复制现代BLDC悬浮滑板控制器。 该系统采用48V电池为三相BLDC电机供电,转子位置通过霍尔传感器或簧片开关检测。一个六步继电器换向器控制电机方向(前进/后退)。倾斜由汞倾斜开关管理,提供缓和或全力扭矩的倾斜。安全问题通过脚踏断路开关来解决。基于继电器的DC-DC转换器为指示器提供5V。 **至关重要的是,该项目明确*不安全***,涉及高电流和潜在危险材料。 警告建造者自行承担风险,并鼓励他们通过公共存储库贡献改进,该存储库采用MIT/CERN开源硬件许可的组合——戏称为“最宁静的电流修士团执照(1884)”。

黑客新闻 新的 | 过去的 | 评论 | 提问 | 展示 | 工作 | 提交 登录 模拟悬浮滑板控制器 (github.com/skrubis) 15 分,来自 skrubis 1 天前 | 隐藏 | 过去的 | 收藏 | 2 条评论 londons_explore 1 天前 [–] 有时你读一份文档,就知道它是用 LLM 写的,因为它太好了。写这份描述,模仿 18 世纪英语的努力,会超过该项目的设计者在介绍之外所付出的努力(除了开头的一两句话),但 LLM 愿意全力以赴。回复 Lik 1 天前 | 父评论 [–] 所以,你喜欢这个吗?我喜欢。回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

## JSON Schema:术语解析 JSON Schema 定义了 JSON 数据的结构和约束。其核心在于,**模式(schema)** 是一个 JSON 文档,描述了有效数据*应该*呈现的样子——指定类型、必需属性和允许的值。然而,模式本身也是 JSON,因此需要**元模式(metaschema)**——定义其他模式结构的模式,本质上是对模式本身进行验证。 为了管理不断演进的功能,JSON Schema 被组织成**方言(dialect)**,代表特定版本(如 Draft 2020-12),每个方言都由唯一的元模式定义。在较后版本中引入的**词汇表(vocabularies)** 通过将关键字分组为功能集合(核心、验证、元数据)进一步模块化模式,从而促进可重用性和可扩展性。 本质上:数据*由*模式验证,模式*由*元模式验证。方言捆绑词汇表,定义允许的关键字。 理解这些术语可以释放强大的数据验证和文档能力。虽然术语可能很复杂,但实际使用通常只需要掌握模式、`$schema` 关键字(指定方言)以及核心关键字,如 `type` 和 `properties`。通过词汇表扩展模式以使用自定义关键字,可以实现特定领域验证,使 JSON Schema 具有惊人的通用性。

## Hacker News 上关于 JSON Schema 的讨论 一篇最近在 Hacker News (iankduncan.com) 上发布的文章引发了关于 JSON Schema、其复杂性以及与 OpenAPI 关系的讨论。虽然普遍认为这是一篇很好的概述,但评论员指出了一些细微之处——术语有意对齐以促进更广泛的应用,以及 OpenAPI(*使用* JSON Schema)与 JSON Schema 文档本身的区别。 对话凸显了一种日益增长的观点,即 JSON Schema 已经变得过于复杂,尽管最初很简单。一些开发者认为当前工具不足,并提倡利用现有的 XML Schema (XSD) 工具。另一些开发者则正在积极重建实现,发现理解透彻后,最新版本是可以管理的。 一个关键点是需要更好的模式仓库,以及未充分利用引用外部模式来实现可重用性。人们也对工具支持落后于最新的 JSON Schema 版本表示担忧,并希望为该项目提供一个更以用户为中心的主页。最后,一位评论员引入了一个相关概念——避免前端开发中的状态重复,提倡使用 DOM 作为唯一的真实来源。

## ClickHouse 实现语义搜索与生成式 AI 本文档详细介绍了一个使用 ClickHouse、Sentence Transformers 和 OpenAI 的 GPT-3.5-turbo 实现语义搜索和内容摘要的系统。Sentence Transformers 生成表示文本语义含义的嵌入向量,从而实现相似性搜索。使用 `all-MiniLM-L6-v2` 模型创建的这些向量与 Hacker News 帖子一起存储在 ClickHouse 数据库中。 一个 Python 脚本演示了使用用户定义的搜索查询查询 ClickHouse,将其转换为嵌入向量,并使用 `cosineDistance()` 函数找到最相似的帖子。 此外,检索到的内容随后使用 LangChain 和 OpenAI 进行摘要。该系统接受一个主题,通过向量搜索检索相关帖子,并使用 GPT-3.5-turbo Chat API 生成简洁的摘要,展示了生成式 AI 在情感分析或文档理解等任务中的实际应用。摘要步骤需要 OpenAI API 密钥。

## 黑客新闻评论数据集与嵌入模型讨论 一个包含 2800 万条黑客新闻评论的数据集已被创建为向量嵌入,引发了关于最佳嵌入模型的讨论。虽然 all-MiniLM-L6-v2 模型之前是实用的选择,但评论员推荐了更新的模型,如 EmbeddingGemma、bge-base-en-v1.5 和 nomic-embed-text-v1.5,以获得更高的基准测试结果和更大的上下文窗口(高达 2k+ tokens)。Qwen3-Embedding-0.6B 也因其开放权重、多语言能力和 32k 上下文而受到赞扬。 对话涉及 EmbeddingGemma 的许可问题以及在客户端运行模型的可行性(重点介绍了较小的模型,如 Ivysaur 和 mdbr-leaf-ir)。用户还讨论了模型大小、速度和性能之间的权衡,以及如何为特定检索任务对模型进行基准测试。 一个关键问题是,在没有明确用户同意的情况下,将公开发布的 HN 评论用于训练 AI 模型是否合法和合乎道德,并引用了 HN 的服务条款和 GDPR。 几位用户表达了对他们的数据以这种方式使用的担忧,而另一些用户则承认在线评论的固有公开性。 数据集的创建者将其托管在 [https://hn.fiodorov.es](https://hn.fiodorov.es) 并分享了 GitHub 上的源代码。

## 人工智能与语言的静默革命 数十年以来,我们一直设想人工智能为机器人伴侣,但它的影响已经深深融入我们的日常生活——并微妙地重塑着我们的沟通方式。除了简单的拼写检查,自动更正等工具已成为智能手机使用的必需品,强制使用标准英语,甚至可能*减缓*语言的自然演变,甚至导致词汇量缩小。 最近,人工智能已经从纠正转向语言的*创造*。苹果的QuickType在您输入时建议单词,而谷歌的Smart Reply则生成完整的电子邮件回复。虽然方便,但这些功能会使表达同质化,限制细微差别,并可能反映内在的偏见——例如,为“好…”的人建议“男人”,或将“菲律宾人”主要与“食物”联系起来。 至关重要的是,Smart Reply甚至绕过了我们最初的思考过程,提供预先编写好的回复,引发了对沟通中能动性和真实性的质疑。我们有风险进入一个互动感觉像是无意的图灵测试的世界,不确定我们是在与人还是与人工智能交谈。 虽然人工智能提供了不可否认的好处,但其快速发展需要仔细考虑。我们必须以怀疑的态度对待这些“能动性自动化”技术,认识到不受约束、以好奇心驱动的开发可能会从根本上改变——甚至可能降低——人类语言的丰富性和表现力。

一个黑客新闻的讨论围绕着自动更正的挫折感和辩护。最初的帖子链接到一篇题为“粉色词汇黏液:自动更正的阴暗面”的文章。 用户们争论自动更正是有帮助还是有害。一位评论员强烈认为,责怪自动更正只是为粗心和校对不佳找借口,并指出常见的错误,例如混淆“your”和“you're”。 然而,其他人强烈不同意,解释说在智能手机上用拇指打字很困难,手动纠正错误会打断思路。他们指出,即使在短消息中,也会出现大量的被动自动更正,突出了在小巧的玻璃屏幕上准确打字的实际挑战。讨论涉及拼写变体(“miniscule”与“minuscule”)以及自动更正对在线写作质量的整体影响。

## Nyno 3.0:多语言工作流引擎 Nyno 3.0 是一款开源工作流引擎,旨在利用您已知的语言(Python、PHP、JavaScript 和 Ruby)构建和连接自动化流程。它允许您从这些语言的脚本中创建可重用的命令步骤,并在高性能工作引擎中执行。 工作流使用简单、人类可读的 YAML 文件(.nyno)定义,通过共享上下文路由命令并在步骤之间传递数据。Nyno 能够动态扩展,为每种语言生成多个工作进程(在生产环境中最多可达每个 CPU 核心一个),以提高吞吐量。 安装最简单的方法是通过 Docker/Podman,但也可以直接安装在 Linux 上,前提是仔细管理依赖项(包括 Best.js)。Nyno 旨在通过为基于工作流的应用程序提供灵活且可扩展的后端来简化 AGI 开发。它使用 Best.js 以实现速度,并在设置完成后提供 `http://localhost:9057` 处的 GUI。

## Nyno:一个开源工作流引擎 Nyno是一个新的开源工作流引擎和语言,旨在利用Python、PHP、JavaScript和Ruby构建自动化流程。与n8n(存在使用限制)不同,Nyno是完全开源的,允许灵活的自托管和用例。 工作流在人类可读的YAML文件(.nyno)中定义,并在针对每种支持语言的高性能工作引擎上执行。工作流可以通过TCP连接或直接发送YAML命令来触发。放置在指定文件夹中的预定义工作流将被自动加载并可访问。 目前,GUI由“bestjsserver”提供支持,但核心工作流步骤在独立的特定语言引擎中运行。开发者承认需要一个更全面的网站(现已在[https://nyno.dev](https://nyno.dev) 上提供),并计划添加示例YAML文件以提高易用性。

## Netlist.io:AI驱动的PCB设计检查 Netlist.io 是一款旨在捕捉原理图错误的工具,在PCB制造*之前*发现问题。它利用AI,并结合您的数据手册和网表(来自KiCad或Altium),执行电气设计检查。 该服务提供免费试用,无需信用卡,并允许用户通过聊天与AI互动。然而,使用会迅速消耗速率限制,聊天复杂度会影响token消耗(根据提供的示例,每个聊天的300k token限制消耗范围为11.5%到84.3%)。 用户应注意,AI可能会出错,关键信息应始终验证。虽然提供布局*建议*,但Netlist.io **不**访问或分析您的实际布局文件;它仅基于逻辑分析进行操作。

该网站正在使用安全服务来保护自身免受在线攻击。您刚才的操作触发了安全解决方案。 提交特定词语或短语、SQL命令或格式错误的数据等行为可能会触发此阻止。

为了将文本渲染整合到他的Geotoy项目中,作者开发了一条将文本转换为3D网格的流程。该过程首先使用JavaScript库`svg-text-to-path`,通过API密钥利用Google Fonts,生成代表所需文本和字体样式的SVG路径。为了避免浏览器应用程序臃肿并确保API密钥的安全使用,创建了一个最小的Bun Web服务器来处理文本到路径的转换。 生成的SVG路径随后使用基于Rust的`lyon`库进行处理。`lyon_extra`解析路径,`lyon_tessellation`将其转换为三角形,处理复杂的形状和曲线。这被封装在一个WebAssembly模块中,供项目使用。 最后,2D网格通过复制顶点、翻转绕组顺序和创建连接的三角形条带被挤出成3D。作者强调创建2-流形/水密网格的重要性,他的实现已经做到这一点,从而可以进行进一步的网格处理,例如布尔运算。完成的功能现在是他的Geoscript语言中的内置函数,即使对于复杂的脚本也能证明其速度和可靠性。

Hacker News 新闻 | 过去 | 评论 | 提问 | 展示 | 招聘 | 提交 登录 从文本生成 3D 网格 (cprimozic.net) 32 分,by todsacerdoti 1 天前 | 隐藏 | 过去 | 收藏 | 2 评论 xnx 1 天前 [–] 令人惊讶的是,这不是一篇关于使用像微软 Trellis 这样的 AI 模型将文本描述转换为 3D 网格的文章,而是将 2D 文本字形转换为 3D 挤出。回复 user____name 18 小时前 | 父评论 [–] 我感到很惊喜 :') 回复 指南 | 常见问题 | 列表 | API | 安全 | 法律 | 申请 YC | 联系 搜索:

更多

联系我们 contact @ memedata.com