admin 管理员组文章数量: 1184232
2024年4月14日发(作者:按哪几个键可以结束进程)
网
事
计算机与网络
■权露
为什么不应该投资向量数据库(
VectorDatabase
)?前段
时间,流数据库公司
RisingWave
创始人
&CEO
吴英骏公
开发文,阐述了这一有违“时潮”的观点。在文中,吴英骏表
示,尽管他对向量数据库的前景颇有信心,但目前并不鼓
励进入向量数据库市场。
2023
年以来,大模型热居高不下。而在近几个月的大
非结构化条目可能会在搜索中丢失或错误地从过滤中排
除。这给许多数据库操作带来了出错的风险,必须通过手动
构建数据来解决这个问题。因此通常需要我们手动审查非
结构化条目。但人工审查必然又会耗费大量时间。
此外,随着数据量和速度的增加,它们可能还会面临性
能瓶颈,从而引发响应时间变慢和可扩展性问题。
而向量数据库不同,它不依赖于结构化格式,不是依靠
不同的类别和列表来组织记录,而是将数据作为数学向量
存储在高维空间中并对其进行索引。这种方法称为“向量
化”,可以更有效地搜索相似性并更好地处理复杂的数据类
型(图像、音视频和自然语言)。某种程度上,向量数据库代
表了数据存储和检索的范式转变。
成为大模型的“海马体”
一方面,向量数据库简化了
AI
开发者对向量数据的管
理。通过把来源权威可信的图片、视频和文本这样的非结
构化数据转换成向量,并储存到向量数据库中,它就能帮助
大模型具有“长期记忆”,进而减少大模型产生“幻觉”的可
能性。
另一方面,向量数据库能够执行近似最近邻(
ANN
)搜
索,快速识别大型数据集中的类似项目。其主要优势在于它
们使用降维和索引算法等技术,向量数据库可以大规模执
行这些搜索,提供闪电般的响应时间,这使其成为推荐系
统、异常检测和自然语言处理等应用的理想选择。
打个比方,如果向量数据库是一个巨大的仓库,那么人
工智能就是熟练的仓库经理。在这个仓库中,每件物品(数
据)都存储在一个盒子(向量)中,整齐地组织在多维空间的
货架上。仓库经理知道每个盒子的确切位置,可以根据物品
的相似性快速检索或比较物品。
仓库的组织和优化程度越高,仓库经理就能更快、更准
确地找到各种任务所需的物品,例如提出建议、识别模式或
检测异常。正如管理良好的仓库对于顺利的业务运营至关
重要一样,向量数据库在人工智能驱动的应用程序和解决
方案的成功中起着至关重要的作用。
向量数据库创业公司
Qdrant
的
CEO
兼联合创始人
AndreZayarni曾提到,绝大多数人工智能研发项目从未投
模型相关发布会或研讨会上,向量数据库一词频频出现,
或多或少会成为话题点之一。
回溯一下,在
2023
年
3
月的
NVIDIAGTCKeynote
中,
英伟达
CEO
黄仁勋首次提及向量数据库,并强调对于构建
专有大型语言模型的组织而言,向量数据库至关重要。此
后,在平静已久的数据库行业,向量数据库就像是突入的
石子,搅乱了一池春水。
仅在
4
月,就有
4
家向量数据库初创公司
Chroma
、
资本市场
Qdrant
、
Weaviate
和
Pinecone
斩获了
10
多亿融资,
对这一赛道的看好可见一斑。
那么吴英骏为何提出这一论点?向量数据库的热度能
维持到几时,此时押注后续又要挤出多少泡沫?我们不妨
冷静地观望一下。
一夜之间新范式诞生
数据库发展已历经半个多世纪,经历了各种不同的阶
段,可谓发展迅猛。最古老的类型是
SQL
或关系型数据库。
其中数
Web2.0
公司不断增长的需求引发了
NoSQL
革命,
据库变得更加灵活,能够更好地应对爆炸式增长的数据
量。现在,随着ChatGPT的出现以及AIGC狂潮的爆发,向
量数据库的市场被点燃了。
与传统数据库不同,向量数据库更擅长在非结构化数
据中寻找意义。这些数据库使用向量嵌入以数值表示数
据,并将它们排列在彼此相似的集群中。
传统数据库包括常见的关系数据库(如MySQL、Postgre
SQL
,
Oracle
)和
NoSQL
数据库(如
MongoDB
、
Cassandra
),
几十年来一直是业务数据管理的支柱。它们以结构化格式
(如表、文档或键值对)存储和组织数据,从而更容易使用
标准编程语言进行查询和操作。
这些数据库擅长处理具有固定模式的结构化数据,但
它们经常在处理非结构化数据或高维数据(如图像、音频
和文本)方面遇到困难。缺少标签或未对齐的格式意味着
入生产的关键因素是缺乏正确的工具。如果能将大模型连
接到实时的非结构化数据可以为任何希望构建更有用
AI
Copyright©博看网. All Rights Reserved.
28
计算机与网络
网事
应用的人打开大量机会。显然,向量数据库在这里充当了
这样的桥梁作用。
热钱涌入挑战依旧
值得一提的是,向量技术并不新鲜,但在
ChatGPT
横
空出世之前,向量数据库非常小众。前文提到的两家初创
公司
Pinecone
和
Weaviate
都成立于
2019
年,但此前无论是
融资还是营收都是乏善可陈的状态。
Pinecone
联合创始人兼首席执行官
EdoLiberty
曾坦率
人工智能相关的服务来巩固自己。甲骨文提供了一系列人
工智能算法,同时也以“数据库内学习的速度”提供它们。
IBM
的老式
Db2
也已更名为“
AI
数据库”,现在有
ML
来提
高查询性能和“基于信心的查询”。
在《为什么你不应该投资向量数据库》中,吴英骏表
示,现在入局向量数据库可能并非合适的时机。其理由主
要集中于以下几点:
其一,先发优势明显。市场上已经充斥着大量的向量
数据库产品,潜在用户可以很容易地在现有市场中找到合
适的选择。
其二,需求层次不同。如果一家公司已经采用了
Elastic
、
Redis
、
SingleStore
或
Rockset
等商业数据库,并且不
地提到,如果没有
ChatGPT
的出现,我们根本不可能获得
巨额融资。
如今大量开发者涌入
AIGC
开发领域,这些向量数据
库厂商也等到了黎明。风口常有,而时代不常有。软件服务
初创公司
Heltar
的创始人
AvyuktAggarwal
也谈到:“
AIGC
的爆火成就了向量数据库,每次淘金热都会有人卖铲子。
对于生成式
AI
,铲子是什么?向量数据库。几乎每一个
LLM
支持的应用程序都在使用它们或即将使用它们。”
需要高度先进的向量搜索功能,则可以充分利用这些数据
库的现有功能。尽管在向量数据处理方面的表现不如专业
的向量数据库,但依然可以满足多数用户的一般要求。
其三,技术在不断前进。随着数据库领域技术的进步,
越来越多的数据库会考虑纳入向量搜索功能,以满足当前
用户群的需求。对于目前缺乏向量搜索功能的数据库,实
现这些功能或许只是时间问题。
简言之,与其投资新的向量数据库项目,不如集中精
力于现有数据库,并探索利用向量引擎增强这些数据库的
机会,使其更加健壮和强大。
放眼如今的数据库市场,堪称百花齐放。有基于传统
Oracle
为基础的;路线的,以
MySQL
、有走新理论的,基于
Aurora
、
Spanner
等;有面向应用场景的,比如工业数据库、
随着部署到企业生产中的
AI
应用程序与日俱增,对
向量数据库的需求必定会直线上升。所以称向量数据库为
铲子或许也并不算太过夸张。
但是在这蒸蒸日上的发展态势下,向量数据库依然面
临着不可忽视的几项挑战。腾讯云数据库副总经理罗云在
接受采访时表示:“其一,成本,向量化数据有着高昂的计
算成本,寻求存储成本替代是必要的,另外,在检索层面成
本也非常高昂,短期内在成本方面不会发生数量级差异;
其二,平台产品与开源社区之间的关系,向量化技术目前
已十分成熟,并存在大量开源解决方案,在不同的领域也
存在不同的向量化方案,先发者与后来者,老牌厂商与新
生力量之间的竞争正在持续升温。”
现在押注为时尚早
与任何有效的新技术一样,热度的攀升到底是基于炒
作还是潜力,旁观者其实很难辨别。向量数据库到底是大
模型时代的天选之子,还是正在经历昙花一现式的虚假繁
荣,很多投资者也极难判断。
但有一点可以明确的是,向量数据库的出现并不代表
大模型时代已经将像
Postgres
或
NoSQL
这样的传统数据
库拒之门外了。事实上,Postgres本身就有一个内置的
Pgvector
功能可以进行向量或相似性搜索。
ClickHouse
和除了
PostgreSQL
之外,包括
OpenSearch
,
Cassandra
在内的几个开源数据库已经实现了自己的向量
时序数据库、图数据库等。更有向量数据库这种以黑马之
姿为缭乱的数据库江湖增添异色的。
“于无声处听惊雷”,每一次表层应用需求的转变,都
会推动底层基础设施技术的更新,数据库同样如是。大模
型时代的到来,生成式
AI
的日新月异,牵引着数据量和数
据类型发生质的变化。这催生了对于向量数据库的需求。
向量数据库十分契合
AI
大模型非结构化场景,仿佛天选,
但长远来看,其市场需求尚处于初期,中远期规模还不到
夸张之时。在若干轮优胜劣汰之后,我们或许才能看清谁
是真正的执棋者。
搜索功能。如果你已经使用这些系统,则无需采用新的向
量数据库。
此外,还有老牌数据库公司为了不落伍,正在通过与
Copyright©博看网. All Rights Reserved.
29
版权声明:本文标题:不要轻易尝试向量数据库 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1713080255a618864.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论