找回密码
 加入怎通
查看: 380|回复: 0

RAG 修炼手册|一文讲透 RAG 背后的技术

[复制链接]
ningxueqin 发表于 2024-07-14 13:08:45 | 显示全部楼层 |阅读模式
  今天我们继续剖析 RAG,将为大家大家详细介绍 RAG 背后的例如 Embedding、Transformer、BERT、LLM 等技术的发展历程和基本原理,中国向量数据库以及它们是如何应用的。
+ F  b( j& @: O- A
4 v/ W6 f" @8 v# ~. c

# Z7 ?2 e1 k4 a4 `  01.什么是 Embedding?& e1 x& I3 Q7 X- u: t: q) ~
0 Q# F4 u: x9 p. q* p0 }
1 {# V- r1 q* I5 K* h8 @
  Embedding 是将离散的非结构化数据转换为连续的向量表示的技术。
# R7 `  x/ U$ G% f. ?- |; V, y) a$ y- R0 ^0 A
" I$ j3 O$ ^7 Y& b7 Q" v
  在自然语言处理中,Embedding 常常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,使得文本数据能够在计算机中被更好地处理和理解。通过 Embedding,每个单词或句子都可以用一个实数向量来表示,这个向量中包含了该单词或句子的语义信息。这样,相似的单词或句子就会在嵌入空间中被映射为相近的向量,具有相似语义的词语或句子在向量空间上的距离也会较近。这使得在进行自然语言处理任务时,可以通过计算向量之间的距离或相似度来进行词语或句子的匹配、分类、聚类等操作。
! s/ C. d7 X% Q5 j7 \8 R4 c1 V% P+ ]5 N2 H) z! T. t

4 N1 @  R% ]( g  Word2Vec
' V5 M* d( L( i' g7 N% m$ U6 O$ ]
% ]( J# b+ t$ O5 f2 d
& N4 S- L, t/ A  _5 F* g
  Word2Vec 是 2013 年由谷歌提出了一套词嵌入方法。Word2vec 是 Word Embedding 方式之一,这种方式在 2018 年之前比较主流。Word2Vec 作为词向量的经典算法之一,被广泛应用于各种自然语言处理任务。它通过训练语料库来学习单词之间的语义和语法关系,将单词映射到高维空间中的稠密向量。Word2Vec 的问世开创了将单词转化为向量表示的先河,极大地促进了自然语言处理领域的发展。
6 K" z. f# z9 E: M. W7 U1 @& E& S
& C$ j% |9 O9 `" S7 K
* e- b1 r* o0 J: @0 ^! @" `( [
  Word2vec 模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。下图是展示一个 2 维的向量空间的例子(实际可能是比较高的维度)。
; g3 ~+ y. G" w+ O- i' W
+ g7 h/ N& n/ S2 S+ F
1 e: Q% p  P6 O  }5 K
  从图中可以看到,在这个 2 维空间内,每个 word 的分布有明显的特征。比如从 man到 woman,要加上一个向右上方向的向量,可以认为这个向量是一种“把男性转换到女性的向量”。如果把 king 也加上这个向量,可以得到 queen 的位置。在图中可以看到从 Paris 到 France 也有一种像是“从国家变为首都”的结构向量。9 p' _& a" y; A9 b  P8 m

; y& o7 @- j, ]3 S( G! Q

  O) `9 U: M( D  这一神奇的现象表明了向量在 embedding 内空间并不一是个杂乱无章随意的分布。在哪个区域表示哪些类别,区域和区域之间的差异,这些都有明显的特征。这样可以推出一个结论:向量的相似度代表的就是原始数据的相似度。所以向量的搜索实际上代表的就是原始数据的语义搜索。这样,我们就可以用向量搜索来实现很多语义相似搜索的业务。" A) n# D  g! {) `# M3 H" e7 G

& L3 t. {+ ?2 E1 Z7 I3 M/ N
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-22 18:49 , Processed in 0.256529 second(s), 51 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表