OpenAI 发布 ChatGPT-4o,意味着人机交互进入新的时代。Chat-GPT4o 是一个跨文本、视觉和音频端到端训练的新模型,所有输入和输出都由同一个神经网络处理。这也在告诉所有人,GenAI 连接非结构化数据,非结构化数据之间跨模态的交互正在变得越来越容易。
% @- {( _ R, ]3 k M" p# L2 F8 _5 w! W: m3 G7 g, w S
( w# k/ s H1 U 据 IDC 预测,到 2025 年,全球数据总量中将有超过 80% 的数据是非结构化数据,而向量数据库是处理非结构化数据的重要组件。回顾向量数据库的历史,2019 年,Zilliz 首次推出了 Milvus,提出了向量数据库的概念。2023 大语言模型(LLM)的爆火,将向量数据库正式从幕后被推到了台前,国内的 向量数据库也因此赶上了发展的快速列车。
& u# Y$ \) p% ]8 B6 s1 E l5 `0 h5 o
& ^7 |+ N* r0 |: w ]
+ a5 s0 g7 u- z! J* O& u+ Z) y 技术的发展方向一定是跟随了产品的变化趋势,而后者则是由需求来决定。因此,顺着用户需求变化的脉络能帮我们找到技术变化的方向和目的。随着 AI 技术的日趋成熟,向量数据库的使用也逐渐从实验走到生产,从辅助产品走到主力产品,从小规模应用到大面积铺开。这产生大量不同的场景和问题,也同时推动了解决这些问题的相应技术。下面我们从成本和业务需求两个方面来展开讲述。
8 N8 a$ u( I& u, \2 c$ g1 t) s" L& p" S. J
7 X3 O1 e: Q# O) z- Z
01.成本9 S( U% r/ i: Q$ S) }
$ x* I2 p4 i' C: K- W: _) t N* ^+ c* h7 C
AIGC 时代对于冷热储存的呼唤
( [' Q7 i1 J8 @" _
% t( [$ l, F: m( S( k' x& g7 P# i; ` a
成本一直是向量数据库获得更广泛使用的最大阻碍之一,这个成本来自两点:
4 @4 O4 J4 Z! W; ?, ^: M
& S: y3 p& A" O. K) e( m3 d+ V* v7 [# [. l
储存,绝大多数向量数据库为了保证低延迟,需要把数据全量缓存到内存或者本地磁盘。在这个动辄百亿量级的AI 时代,意味着几十上百 TB 的资源消耗。- d* ?% _! [& K- G% j5 b
# K: a, C$ A" c( B% `: Z8 H, I9 }4 m+ }# R) B. Q
计算,数据需要划分成许多小片段来满足工程上分布式支持大规模数据集的需求。对于每个分片需要单独检索再做规避,带来了较大的查询计算放大问题。百亿级的数据如果按 10G 分片的话,会有一万个分片,也就意味着计算放大了一万倍。
0 T5 X- y, N9 V
/ P0 F8 J- n: q" Q+ t1 z. B8 q k$ l/ ^! V( j3 B* P0 Z/ u
而在 AIGC 带来的 RAG 浪潮中,单个 RAG 用户(或者是 ToC 平台的单个 tenant)对于延迟的敏感度都极低。原因是相较于向量数据库几毫秒到几百毫秒的延迟,作为链路核心的大模型的延迟普遍超过秒级。加之云端对象储存的成本远远低于本地磁盘和内存,人们越来越需要一种技术,可以:# E! h% A) m' d5 b
3 f7 L- P5 s6 S! ?
; M: `$ S h) k$ P" o 从储存上来看,在查询的时候数据放置在最便宜的云端对象作为冷存储,需要的时候加载到节点,转化为热储存提供查询。
9 E( k% x6 P6 |; g
3 O, k, n1 ~: L: U# J
6 `. `+ p0 | Z. I8 F 从计算上来看,把每个查询需要的数据提前缩小范围,不用扩大到全局数据,保证热储存不会被击穿。
( v2 |5 i6 e4 J; k s" y* Q$ {3 T" E$ a$ i2 y y
$ R2 v$ x/ Q [ ]% r
这种技术可以帮助用户在可接受的延迟下极大地缩减成本,也是我们 Zilliz Cloud (https://zilliz.com.cn/cloud)最近正准备推出的方案。
7 ^; ?6 b7 B: m1 D4 `
$ d2 C' { v, ?7 t8 y- K5 I
o+ {0 j4 U7 O: L# [& U 硬件迭代带来的机遇
# W& \. k8 z/ ^. A* t( i- I0 I) B2 S) I" M" I* Y
) P( i+ y% y K! a$ w
硬件的是一切的基础,硬件的发展也直接决定了向量数据库技术发展的方向。如何去适配和在不同场景下利用这些硬件就成了一个很重要的发展方向。
* G; ^! Z& d5 N3 ~' `. b
; \; L* w2 ]; P4 e3 I
" V$ v5 ?; J( h( E 高性价比的 GPU. J' [' ]; E2 G8 u4 n8 o
- k" s; i0 h7 N) |
% t3 _9 G7 w' `1 G: Y) ~& S 向量检索是一个计算密集型的应用,这两年使用 GPU 进行计算加速的研究也越来越多。与昂贵的刻板印象相反的是,由于算法层面的逐渐成熟,加之向量检索场景适合内存延迟较低的且价格较为便宜的推理卡,基于 GPU 的向量检索展现出了出色的性价比。* N: ?0 G8 p: c& R g9 d# S. d% u
^6 X ^/ p% ^, e |