## pg_textsearch:PostgreSQL 的现代排序文本搜索
pg_textsearch 是一个生产就绪的 PostgreSQL 扩展 (v1.0.0),它使用 BM25 算法提供快速、可扩展的排序文本搜索。它可以通过简单的 `ORDER BY content <@> '搜索词'` 语法轻松实现。
**主要特性:**
* **BM25 排序:** 可配置的 `k1` 和 `b` 参数,用于微调相关性。
* **PostgreSQL 集成:** 与现有的文本搜索配置(英语、法语、德语等)兼容。
* **性能:** 针对 top-k 查询进行了 Block-Max WAND 优化,支持并行索引构建和分区表。
* **兼容性:** 支持 PostgreSQL 17 & 18。
* **安装:** 克隆 GitHub 仓库后,使用 `make install` 进行简单安装。需要在 `postgresql.conf` 中将 `pg_textsearch` 添加到 `shared_preload_libraries`。
**用法:** 使用 `CREATE INDEX ... USING bm25(column) WITH (text_config='...')` 创建 BM25 索引,然后使用 `<@>` 运算符查询。请记住分数是负数(越小越好)。可以通过 `to_bm25query()` 显式指定索引。
**重要注意事项:** 使用 WHERE 子句进行预过滤可以显著提高性能。该扩展利用 memtable 架构并支持段压缩,以优化查询速度。详细文档和调试功能可用于高级用例。
美国自由记者雪莉·基特尔森,主要报道中东和阿富汗事务,今天在巴格达被绑架。她的文章曾发表在《半岛电视台》、《外交政策》、《英国广播公司新闻》、《政治报》等媒体。CNN国家安全分析师、前奥巴马政府五角大楼高级官员亚历克斯·普利察斯在X平台确认,基特尔森“被绑架,可能被卡泰布·真主党在巴格达劫持”。总部位于中东的Al Sharqiya电视台援引伊拉克内政部称:“绑架美国记者的车辆在安全追捕中翻车,其中一名绑匪被捕。”绑架过程的影像在X平台上流传。
*正在更新中…
最近CNN对菲德尔·卡斯特罗的孙子桑德罗·卡斯特罗的采访,挑战了美国左翼长期以来对古巴共产主义的浪漫化看法。卡斯特罗表示,现在大多数古巴人支持“具有主权的资本主义”,承认该岛经济模式在数十年衰退和最近的基础设施故障(如广泛的电网崩溃)后失败。
他表示他的祖父会尊重不同的意见,并公开承认渴望经济自由。这一消息与一些美国民主社会主义者和左翼非政府组织对共产主义的持续支持相悖,他们最近组织了一次亲共产主义的古巴之旅。
这次采访凸显了某些美国团体所倡导的意识形态与古巴人民务实愿望之间日益增长的脱节,这反映了南美洲共产主义政权普遍失败的趋势。最终,卡斯特罗的孙子表达了对基本生活必需品——食物、电力和互联网——的需求,他暗示这些只能通过资本主义制度来实现。
尽管伊朗最近宣布只允许“友好”船只通过霍尔木兹海峡,但第四艘希腊控制的油轮 *Pola* 已成功通过。*Pola* 载有约100万桶原油运往泰国,曾短暂关闭其追踪系统,但在印度洋重新出现,确认了成功通行。
此前,本月早些时候,Dynacom Tankers Management Ltd. 的三艘其他船只也完成了类似的航行,同样在没有激活追踪的情况下运行。虽然伊朗限制“敌对”国家进入——希腊并未被视为“友好”国家——但泰国等一些亚洲国家已经达成了双边协议以确保通行。
然而,局势依然动荡。一艘科威特油轮最近在迪拜附近被无人机袭击,凸显了波斯湾航运持续面临的高风险。
加拿大航空首席执行官迈克尔·鲁索因其对三月份致命飞机失事的回应而受到强烈批评,将辞职。事故发生后,鲁索发布了一段视频,主要用英语表达慰问,仅提供简短的法语短语。这激起了魁北克的愤怒,特别是由于一名遇难飞行员来自该省,而语言在该地是一个敏感问题。
这一回应被广泛认为是轻蔑和缺乏同情心,导致魁北克国民议会一致呼吁他辞职,并受到总理马克·卡尼的谴责。尽管声称广泛学习过法语,鲁索仍然难以流利地用两种官方语言发表声明,凸显了更深层次的语言能力问题。
面对越来越大的压力和即将到来的议会调查,鲁索的离职已成必然。加拿大航空董事会现在正在寻找替代者时优先考虑双语能力,这表明了语言在这种领导危机中的关键作用。
## 市场修正与潜在反弹
标普500指数自1月份高点下跌了7%,但更深层的问题在于股市广度显著减弱。超过40%的标普500成分公司已经进入熊市(下跌20%以上),尽管该指数的跌幅相对温和,这表明内部普遍受损。这种背离情况不寻常,软件和汽车等行业表现明显落后,而能源和公用事业则保持强势。
尽管近期下跌,历史数据表明存在反弹的可能性。虽然标普500指数已经跌破了200日移动平均线——历史上预示着下跌的信号——但它*仍然在上涨*的事实表明,反弹的可能性更高。超卖的RSI和上升的悲观情绪等指标也偏向乐观。
然而,风险依然存在,特别是关于伊朗冲突和潜在的油价冲击,这可能引发经济衰退。历史上,类似的情况平均在12个月内收益为+14.6%,但经济衰退可能会显著改变这一结果。关键要点是避免恐慌性抛售,因为历史上,强劲的反弹通常伴随着抛售,而耐心最终会得到回报。
## Scotty:现代 SSH 任务运行器
Spatie 发布了 Scotty,一个用于直接从终端运行 SSH 任务和部署脚本的新工具。Scotty 作为 Laravel Envoy 的精神续作,提供了更精简的体验,具有实时、详细的输出以及在部署过程中暂停执行的能力。
Scotty 同时支持 Laravel Envoy 的 Blade 格式*和*一种新的、更简单的纯 Bash 格式——为所有偏好的用户提供灵活性。任务在 `.sh` 文件中使用带有 `# @task` 注释的 Bash 函数定义,使其易于阅读和编辑,并具有完整的 Shell 支持。
主要功能包括:用于设置验证的 `doctor` 命令,用于模拟运行的 `pretend` 模式,以及通过命令行传递变量的能力。Scotty 还会在完成时提供任务计时摘要,并允许暂停进行部署中检查。
现有的 Laravel Envoy 用户可以无缝使用他们的 `.blade.php` 文件,并按照自己的节奏迁移到 `.sh` 格式。Scotty 现已在 GitHub 上发布,并提供完整文档。
人工智能生成代码的激增引发了人们对大量低质量“垃圾代码”入侵软件开发的担忧。虽然有人预测人类编码的终结,并且数据显示代码复杂度及故障率都在上升,但Greptile认为经济激励最终会促使人工智能生成*高质量*代码。
目前,“蛮力”方法——快速生成和迭代——占据主导地位,导致代码库更大、更密集。然而,好的代码以简洁和清晰的设计为特征(如John Ousterhout所概述),从长远来看,维护和扩展成本更低。它需要的上下文更少,修改次数更少,最终,需要的计算资源也更少。
人工智能模型之间的竞争将有利于那些能够帮助开发者*最快*交付可靠功能的模型,这需要干净、易于维护的代码。虽然最初的重点是让人工智能代码*能够运行*,但市场最终会优先考虑效率和成本效益,迫使人工智能将质量置于数量之上。这种转变至关重要,因为软件复杂度持续上升,更简单的代码将是可持续发展的必要条件。
## 我三年Lime单车数据:使用Claude的深度分析
三年间,Lime单车一直是我在伦敦的主要交通工具,累计骑行超过6000公里。出于好奇,想确认自己是否是“重度用户”,我利用GDPR要求Lime提供我的完整数据集,并使用Claude进行了分析。
分析结果显示我属于“钻石”级别,排在前1%的用户——“超翡翠”通勤者!除了确认我的使用情况,Claude还揭示了有趣的信息。它准确地 pinpoint 了我过去和现在的家庭和工作地点,甚至仅根据骑行数据就识别出我搬家和换工作的时间。
此外,Claude 推断出了我常去的地点:健身房、最喜欢的早午餐店、牙医诊所和莎莎舞班——所有这些都没有任何额外信息。我甚至可视化了一张“第三空间”地图,展示了我经常的路线和感兴趣的点。
这个实验展示了将数据隐私权与人工智能相结合的力量。欧盟/英国的任何人都可以从Uber、Revolut甚至约会应用程序等应用程序请求数据,并使用Claude等工具来发现隐藏的模式并获得令人惊讶的自我认知。个人发现的潜力是巨大的。
最近的事件,特别是伊朗对数据中心和军事基地的袭击,凸显了美国反无人机防御中的关键漏洞——这一差距此前已被安全专家指出。由于报告称有无人机出现以及对国土攻击的担忧,美国战争部现在正在考虑在华盛顿特区麦克奈尔堡附近部署反无人机激光武器。
此举标志着转向使用激光等低成本解决方案来对抗日益增长的廉价、甚至可能成群结队的无人机威胁。虽然最近发生在麦克奈尔堡附近的一起事件并未构成威胁,但反无人机活动有所增加。联邦航空管理局正在与战争部合作,以平衡空域安全和国家安全。
担忧不仅限于军事设施,数据中心、基础设施和其他关键地点也面临风险。使用昂贵的导弹拦截器对抗廉价无人机是不可持续的,这使得激光技术成为未来防御战略中潜在的重要组成部分。美国军方最近在埃尔帕索测试了激光武器,但目标是虚假警报(派对气球)。
甲骨文最近的500亿美元融资努力——旨在平息市场担忧并为英伟达和OpenAI等主要客户提供人工智能基础设施——似乎正在失败。尽管报告显示有巨额积压订单(超过4550亿美元,包括与OpenAI的大型交易),但甲骨文的股价暴跌,并且关键的是,其信用违约互换(CDS)达到创纪录高位,甚至超过了2008年金融危机期间的水平。
市场仍然不相信甲骨文能够管理其不断膨胀的2000亿美元债务以及支持其增长所需的巨额资本支出(巴克莱银行估计为2750亿美元,远超普遍预期)。因此,甲骨文正在采取严厉的成本削减措施,启动裁员,预计将影响2万至3万名员工——这一举动已被巴克莱银行预测。
这些裁员旨在产生现金流,为人工智能工作负载所需的基础设施建设提供资金。最近的管理层变动和持续的市场怀疑表明,甲骨文在应对当前环境方面面临重大挑战,并且可能是人工智能投资热潮中出现问题的早期迹象。
## Cohere 发布开源语音识别模型 Transcribe
Cohere 发布了 Transcribe,一种全新的、最先进的开源自动语音识别 (ASR) 模型,专为实际的、现实世界的应用而设计。Transcribe 从头开始训练,专注于最小化词错误率 (WER),旨在不仅仅是一个研究项目——它具有可管理的足迹和高效的服务能力,专为生产环境构建。
目前,Transcribe 在 HuggingFace 的 Open ASR 榜单中排名第一,WER 达到 5.42%——优于 Whisper Large v3 和 ElevenLabs Scribe v2 等模型。它支持欧洲、亚太地区和中东北非地区的 14 种语言,并采用 Apache 2.0 许可。
除了准确性之外,Transcribe 还提供一流的吞吐量,这对于实时应用至关重要。它可在 Hugging Face 上下载,通过 Cohere 的 API(有速率限制)或通过 Model Vault 的完全托管、可扩展部署获得。Cohere 计划将 Transcribe 与其 AI 代理平台 North 集成,将其能力扩展到更广泛的语音智能解决方案。
美国财政部正在严厉打击医疗保险、医疗补助和其他健康福利计划中日益猖獗的欺诈行为,估计涉及数十亿美元的资金流失。最近的一份公告详细说明了复杂的骗局,包括跨国犯罪组织、虚假提供者、身份盗窃和洗钱。
为了应对这种情况,财政部的金融犯罪执法网络(FinCEN)正在实施举报人计划,对成功追回的欺诈、洗钱和违反制裁案件的罚款提供10-30%的奖励。一个新的举报门户网站现已开放。
这项倡议由特朗普政府倡导,是在报告的医疗欺诈相关可疑活动增加20%之后推出的。官员们认为这仅仅是“冰山一角”。贝森特部长强调了政府保护纳税人资金的承诺,并鼓励知情人士举报欺诈行为。该努力与一项旨在打击联邦支出浪费和滥用的更广泛的行政命令相符,调查已经在进行中,尤其是在纽约州等地的医疗补助计划方面。