(评论)
(comments)
原始链接: https://news.ycombinator.com/item?id=38971221
SurrealDB 是一个图数据库,而不是矢量数据库。 虽然您可以添加向量列,但在旨在向世界介绍向量数据库的演讲中将其与特定于向量数据库的替代方案进行比较是没有意义的。
在演讲中,作者提到了“如果你不需要自定义矢量数据库,你不妨使用 Postgres”之类的话。 这是完全有道理的。 虽然在技术上可以扩展传统关系数据库以支持通过向量列进行近似最近邻搜索,但在这种情况下您没有利用向量数据库提供的独特优势。 就像在超高维空间中高效操作的能力,而不必牺牲误报或漏报(又名维数灾难)。尤其是在实时场景中。
在传统矢量化空间内进行操作的情况的一个例子是玩具店推荐应用程序,您可以在其中浏览玩具和衣服,保存最喜欢的物品,并根据机器学习检测到的先前购物模式和视觉美学接收个性化推荐 模型接受产品照片训练。
关于 GPU 计算,通常建议(但不一定是强制!)在专门为硬件加速目的而设计的矢量数据库中进行操作。
注意:相对于替代解决方案,在高度工程化、精心打磨的数据库基础设施中运行,该基础设施经过专门优化,擅长为运行近似最近邻搜索的搜索负载提供服务,将产生卓越的用户体验。
(而不是在商品硬件上自行实现。)
- A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge, https://arxiv.org/abs/2310.11703
- Survey of Vector Database Management Systems, https://arxiv.org/abs/2310.14021
- What are Embeddings, https://raw.githubusercontent.com/veekaybee/what_are_embeddi...
---
h/t: https://twitter.com/eatonphil/status/1745524630624862314 and https://twitter.com/ChristophMolnar/status/17457316026829826...
reply