RAG应用开发实战02-相似性检索的关键 - Embedding-摩杜云开发者社区

1 文本Embedding

将整个文本转化为实数向量的技术。

Embedding优点是可将离散的词语或句子转化为连续的向量，就可用数学方法来处理词语或句子，捕捉到文本的语义信息，文本和文本的关系信息。

◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接*

◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示：

目前的向量模型从单纯的基于 NLI 数据集（对称数据集）发展到基于混合数据（对称+非对称）进行训练，即可以做 QQ召回任务也能够做 QD 召回任务，通过添加 Instruction 来区分这两类任务，只有在进行 QD 召回的时候，需要对用户 query 添加上 Instruction 前缀。

模型选择：

用户提供垂类文档数据，VDB对模型进行微调，助力垂类应用效果更进一步。

优化1：对比学*拉*同义文本的距离，推远不同文本的距离

优化2：短文本匹配和长文本匹配使用不同prompt，提升非对称类文本效果

优化3：预训练阶段提升基座模型面向检索的能力，对比学*阶段提高负样本数

“首家”：

自研：

性价比：

模型简化：

共享GPU集群：

提供一站式知识检索方案，实现业界内最高召回率、大幅降低开发门槛，帮助企业快速搭建RAG应用，解决大模型幻觉问题。

源自腾讯自研向量检索引擎OLAMA，集团内部40+业务线上使用，日均处理1600亿次检索请求。

本文由博客一文多发平台 OpenWrite 发布！