RAG part: FAISS
本文知识点来源于FAISS
Johnson-Lindenstrauss引理:
如果有一组高维空间中的点,可以把它们随机映射到一个较低维空间中,并且点与点之间的距离几乎保持不变。
Faiss 优化的是“在给定距离度量下,尽量快、尽量省内存地找近邻”;但最终业务效果还取决于 embedding 是否真的表达了语义相似性。
Index IVF()
Pareto 最优的数学定义如下:考虑两个配置 x 和 y,分别由搜索时间 T 和准确率 A 表示,即 x = (T_x, A_x),y = (T_y, A_y)。若满足 $T_y \leq T_x$ 且 $A_y \geq A_x$,且至少有一个严格不等式成立(即 $T_y < T_x$ 或 $A_y > A_x$),则称 y 支配 x(y dominates x)。此时,配置 x 被 y 全面不差且至少一处更优,因此 x 没有存在价值。一个配置 x 被称为 Pareto optimal(帕累托最优),当且仅当不存在任何其他配置 y 能够支配 x,即没有配置能比 x 更快且准确率不低于 x(即 $T_y < T_x$ 且 $A_y \geq A_x$),或比 x 更准且搜索时间不高于 x(即 $T_y \leq T_x$ 且 $A_y > A_x$)。所有未被支配的 Pareto 最优配置点连成的曲线称为 Pareto frontier(帕累托前沿)。