50. 向量数据库实战（ChromaDB / FAISS）¶

一句话说明：向量数据库是"按相似度搜索的仓库"——把文本、基因序列、蛋白质结构变成数字向量存进去，查询时找最像的那些，而不是精确匹配关键词。

目录¶

什么是向量数据库
向量搜索原理
索引算法详解
ChromaDB 实战
FAISS 实战
Milvus 简介
向量数据库选型对比
生信应用场景
常见报错与解决方案
速查表
延伸资源

与 02_LangChain 的区别：02 篇讲的是 RAG 流程中"怎么用 LangChain 串起来"；本篇深入讲向量数据库底层——搜索原理、索引算法、各家产品的原生 API 和选型。

1. 什么是向量数据库¶

1.1 白话解释¶

传统数据库（MySQL、PostgreSQL）靠精确匹配查数据——你搜"苹果"，它只找包含"苹果"这两个字的行。

向量数据库靠相似度匹配查数据——你搜"苹果"，它能找到"水果""梨""果园"这些意思相近的内容。

白话比方：传统数据库像图书馆的书名索引卡，你必须知道准确书名才能找到书；向量数据库像一个懂内容的图书管理员，你说"我想找关于热带水果的书"，他能帮你找到《芒果种植指南》《菠萝加工技术》这些相关的书。

1.2 核心工作流程¶

原始数据 → Embedding 模型 → 数字向量 → 存入向量数据库
                                            ↓
查询文本 → Embedding 模型 → 查询向量 → 在数据库中搜索最近邻 → 返回结果

关键概念：

术语	白话解释	举例
Embedding（嵌入）	把文本/图片/序列变成一串数字（向量）	"猫" → [0.2, 0.8, -0.1, ...]
向量维度	这串数字有多长	OpenAI text-embedding-3-small 输出 1536 维
最近邻搜索	在所有向量里找离查询向量最近的 k 个	搜"糖尿病"，返回离它最近的 5 篇文档

1.3 向量数据库 vs 传统数据库¶

对比项	传统数据库	向量数据库
查询方式	SQL 精确查询 `WHERE name='apple'`	相似度查询 `query("水果")`
数据类型	结构化表格（行+列）	高维向量（浮点数组）
索引结构	B-Tree / Hash	HNSW / IVF / PQ
典型用途	订单、用户管理	语义搜索、RAG、推荐系统
返回结果	精确匹配的行	最相似的 Top-K 条记录 + 距离分数

2. 向量搜索原理¶

向量搜索的核心问题：给定一个查询向量 q，从 n 个数据库向量中找出最相似的 k 个。

2.1 三种距离度量¶

余弦相似度（Cosine Similarity）¶

                  A · B           # 两个向量的点积
cos(θ) = ─────────────────        # 除以两个向量的长度之积
              ||A|| × ||B||

白话：看两个向量"方向"是否一致，不管长度
值域：-1（完全相反）到 1（完全相同）
适用场景：文本语义相似度（最常用）
为什么常用：文本 embedding 通常已经归一化（长度=1），此时余弦相似度等价于点积

欧氏距离（Euclidean Distance / L2）¶

d(A, B) = √( Σ (Aᵢ - Bᵢ)² )    # 每个维度差值的平方和，再开根号

白话：两点之间的直线距离，最直观的"远近"
值域：0（完全相同）到正无穷
适用场景：图像特征、空间坐标
注意：值越小越相似（和余弦相似度相反）

点积（Inner Product / Dot Product）¶

A · B = Σ (Aᵢ × Bᵢ)             # 对应位置相乘再求和

白话：同时考虑方向和长度的相似度
值域：负无穷到正无穷
适用场景：推荐系统（向量长度代表"重要性"时）

2.2 Python 手动计算示例¶

import numpy as np  # 导入数值计算库

# 两个示例向量
a = np.array([1.0, 2.0, 3.0])  # 向量 A
b = np.array([4.0, 5.0, 6.0])  # 向量 B

# --- 余弦相似度 ---
cosine_sim = np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))  # 点积 / (模长之积)
print(f"余弦相似度: {cosine_sim:.4f}")  # 输出: 0.9746

# --- 欧氏距离（L2） ---
l2_dist = np.linalg.norm(a - b)  # 两向量差的模长
print(f"欧氏距离: {l2_dist:.4f}")  # 输出: 5.1962

# --- 点积 ---
dot_product = np.dot(a, b)  # 对应元素相乘再求和
print(f"点积: {dot_product:.4f}")  # 输出: 32.0000

2.3 暴力搜索 vs 近似搜索¶

方法	原理	时间复杂度	精度	适用规模
暴力搜索	查询向量和每个库向量都算一次距离	O(n×d)	100% 精确	<10 万条
近似最近邻（ANN）	用索引结构跳过大部分向量	O(log n) ~ O(n^α), α<1	95-99%+	百万~十亿级

白话：暴力搜索就是翻遍整个仓库找东西；ANN 是先按区域分好类，搜的时候只翻最可能的几个区域。

3. 索引算法详解¶

3.1 HNSW（Hierarchical Navigable Small World）¶

白话比方：想象一个多层的社交网络。最高层只有几个"大 V"互相认识；往下每层人越来越多、关系越来越细。查找时从顶层的大 V 开始，一层层往下"介绍"，每层都跳到离目标最近的人，最终在底层找到精确结果。

技术要点： - 多层图结构，每层都是一个"小世界图" - 搜索时从最高层贪心跳转，逐层下降 - 参数 M：每个节点的最大邻居数（越大越精确但越慢） - 参数 efConstruction：建图时搜索宽度（越大索引越好但建得越慢） - 参数 efSearch：查询时搜索宽度（越大越精确但越慢）

优缺点： - 优点：查询速度快、召回率高、不需要训练 - 缺点：内存占用大（需要存图结构）、不适合频繁增删

3.2 IVF（Inverted File Index）¶

白话比方：先把仓库分成 100 个货架区（用 K-Means 聚类），每个区有一个"区域标签"。搜东西时，先看查询向量最像哪几个区域标签，只在那几个区域里翻，不用翻遍整个仓库。

技术要点： - 训练阶段：用 K-Means 把向量聚成 nlist 个簇 - 每个簇维护一个倒排列表（存属于该簇的所有向量） - 搜索时只访问最近的 nprobe 个簇 - nlist 越大，簇越细、越精确，但训练越慢 - nprobe 越大，搜得越准，但越慢

优缺点： - 优点：内存效率高、可与 PQ 组合压缩 - 缺点：需要训练阶段、聚类边界处可能遗漏

3.3 PQ（Product Quantization，乘积量化）¶

白话比方：一个 128 维的向量太长了，把它切成 8 段（每段 16 维），每段分别用一个"密码本"里最像的编号来代替。原来存 128 个浮点数（512字节），现在只存 8 个编号（8字节），压缩了 64 倍。

技术要点： - 将 d 维向量切分为 m 个子向量 - 每个子空间训练一个 k=256 的码本（codebook） - 每个子向量用最近的码字编号（1 字节）表示 - 搜索时用查表法快速计算近似距离

优缺点： - 优点：极大减少内存（通常 32-64 倍压缩） - 缺点：有精度损失、需要训练

3.4 组合使用¶

实际生产中往往组合使用：

组合	含义	适用场景
`IVF + PQ`	先分区再压缩	大规模数据（亿级）、内存有限
`IVF + HNSW`	用 HNSW 加速簇中心的搜索	簇数量很多时
`HNSW + PQ`	图结构 + 压缩	平衡精度和内存

4. ChromaDB 实战¶

ChromaDB 是一个轻量级开源向量数据库，专为 AI 应用设计。默认内置 embedding 模型，开箱即用。

GitHub Stars：39,000+（截至 2026 年 5 月）
最新版本：1.5.8（2026-04-16）
许可证：Apache 2.0
要求：Python >= 3.9

4.1 安装¶

# 用 pip 安装（推荐）
pip install chromadb  # 安装 chromadb 包

# 用 conda 安装
conda install -c conda-forge chromadb  # conda 方式安装

# 验证安装
python -c "import chromadb; print(chromadb.__version__)"  # 打印版本号确认安装成功

4.2 创建集合 + 添加文档 + 查询（完整示例）¶

import chromadb  # 导入 chromadb

# ====== 第1步：创建客户端 ======
# Client() 是内存模式，数据在程序结束后消失
client = chromadb.Client()  # 创建内存客户端

# ====== 第2步：创建集合（Collection） ======
# 集合 = 一张"表"，用于存放相关的向量和文档
# get_or_create_collection：存在就获取，不存在就新建（幂等操作）
collection = client.get_or_create_collection(
    name="bioinfo_papers"  # 集合名称，只能包含字母数字下划线和连字符
)

# ====== 第3步：添加文档 ======
# ChromaDB 会自动用内置的 embedding 模型（默认 all-MiniLM-L6-v2）把文档转成向量
collection.add(
    documents=[  # 原始文本列表
        "宏基因组学通过对环境样本中的所有微生物DNA进行测序分析微生物群落",
        "16S rRNA 基因是细菌分类的金标准分子标记",
        "随机森林是一种集成学习方法，通过构建多棵决策树进行分类或回归",
        "肠道菌群失调与2型糖尿病的发生发展密切相关",
        "MetaPhlAn 使用 clade-specific marker genes 进行物种定量"
    ],
    metadatas=[  # 每条文档的元数据（可用于过滤）
        {"field": "metagenomics", "year": 2024},
        {"field": "amplicon", "year": 2023},
        {"field": "machine_learning", "year": 2024},
        {"field": "microbiome", "year": 2025},
        {"field": "metagenomics", "year": 2025}
    ],
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"]  # 每条文档的唯一ID（必须唯一）
)

print(f"集合中文档数: {collection.count()}")  # 输出: 5

# ====== 第4步：语义查询 ======
results = collection.query(
    query_texts=["糖尿病相关的肠道微生物研究"],  # 查询文本（会自动 embedding）
    n_results=3  # 返回最相似的 3 条
)

# 打印结果
for i, (doc, dist) in enumerate(zip(results["documents"][0], results["distances"][0])):
    print(f"  Top-{i+1} (距离={dist:.4f}): {doc}")

# ====== 第5步：带元数据过滤的查询 ======
filtered = collection.query(
    query_texts=["宏基因组分析工具"],
    n_results=2,
    where={"field": "metagenomics"}  # 只搜 metagenomics 领域的文档
)
print("\n只搜 metagenomics 领域:")
for doc in filtered["documents"][0]:
    print(f"  {doc}")

4.3 数据持久化¶

import chromadb  # 导入 chromadb

# ====== 持久化客户端：数据存到磁盘 ======
# 指定一个目录路径，ChromaDB 会在这个目录下创建数据库文件
client = chromadb.PersistentClient(
    path="./chroma_db"  # 数据保存目录（不存在会自动创建）
)

# 创建或获取集合
collection = client.get_or_create_collection("my_collection")

# 添加数据
collection.add(
    documents=["这是一条持久化的数据"],
    ids=["persistent_doc1"]
)

# 数据会自动保存到 ./chroma_db/ 目录
# 下次用同样的 path 创建 PersistentClient 就能读到之前的数据
print(f"文档数: {collection.count()}")  # 输出: 1

4.4 更新与删除¶

# ====== 更新文档 ======
collection.update(
    ids=["doc1"],  # 要更新的文档 ID
    documents=["更新后的宏基因组文档内容"],  # 新内容
    metadatas=[{"field": "metagenomics", "year": 2026}]  # 新元数据
)

# ====== 用 upsert 代替 add（存在就更新，不存在就插入）======
collection.upsert(
    ids=["doc1", "doc6"],  # doc1 已存在会更新，doc6 不存在会插入
    documents=["更新的文档1", "全新的文档6"],
    metadatas=[{"field": "metagenomics", "year": 2026}, {"field": "new", "year": 2026}]
)

# ====== 删除文档 ======
collection.delete(ids=["doc3"])  # 按 ID 删除
collection.delete(where={"field": "amplicon"})  # 按元数据条件删除

5. FAISS 实战¶

FAISS（Facebook AI Similarity Search）是 Meta 开源的向量搜索库。它不是完整的数据库，而是一个高性能的索引+搜索引擎，需要自己管理原始数据。

GitHub Stars：39,900+（截至 2026 年 5 月）
由 Meta AI Research 团队开发维护
支持 CPU 和 GPU 加速
许可证：MIT

5.1 安装¶

# CPU 版本（推荐初学者）
pip install faiss-cpu  # 安装 FAISS CPU 版

# GPU 版本（需要 CUDA 环境）
pip install faiss-gpu  # 安装 FAISS GPU 版

# conda 安装
conda install -c conda-forge faiss-cpu  # conda 方式安装 CPU 版

# 验证安装
python -c "import faiss; print(faiss.__version__)"  # 打印版本号

5.2 基础暴力搜索（IndexFlatL2）¶

import numpy as np  # 数值计算库
import faiss  # 导入 FAISS

# ====== 准备数据 ======
d = 128           # 向量维度
nb = 10000        # 数据库中的向量数
nq = 5            # 查询向量数

np.random.seed(42)  # 固定随机种子，保证可复现
xb = np.random.random((nb, d)).astype('float32')  # 数据库向量（必须是 float32）
xq = np.random.random((nq, d)).astype('float32')  # 查询向量

# ====== 第1步：创建索引 ======
# IndexFlatL2 = 暴力搜索（精确），使用 L2（欧氏距离）
index = faiss.IndexFlatL2(d)  # 创建一个 128 维的 L2 索引

print(f"索引是否已训练: {index.is_trained}")  # True（FlatL2 不需要训练）
print(f"索引中的向量数: {index.ntotal}")  # 0（还没添加数据）

# ====== 第2步：添加向量 ======
index.add(xb)  # 把 10000 个向量加入索引
print(f"添加后的向量数: {index.ntotal}")  # 10000

# ====== 第3步：搜索 ======
k = 4  # 返回最近的 4 个邻居
D, I = index.search(xq, k)  # D=距离矩阵, I=索引矩阵

# D 的形状: (nq, k) = (5, 4)，每行是一个查询的 k 个最近邻的距离
# I 的形状: (nq, k) = (5, 4)，每行是一个查询的 k 个最近邻的 ID

print("前2个查询的最近邻 ID:")
print(I[:2])  # 例: [[7468 3412 8905 1234], [5621 9087 ...]]

print("前2个查询的最近邻距离:")
print(D[:2])  # 距离值，越小越相似

5.3 IVF 索引（大规模近似搜索）¶

import numpy as np
import faiss

d = 128           # 向量维度
nb = 100000       # 10万条数据
nq = 10           # 10个查询

np.random.seed(42)
xb = np.random.random((nb, d)).astype('float32')
xq = np.random.random((nq, d)).astype('float32')

# ====== 创建 IVF 索引 ======
nlist = 100  # 聚类中心数（把向量空间分成 100 个区域）

# 先创建一个量化器（用于确定向量属于哪个簇）
quantizer = faiss.IndexFlatL2(d)  # 量化器使用暴力搜索
# 然后创建 IVF 索引
index = faiss.IndexIVFFlat(
    quantizer,  # 量化器
    d,          # 维度
    nlist       # 聚类中心数
)

# ====== IVF 需要训练 ======
print(f"训练前 is_trained: {index.is_trained}")  # False
index.train(xb)  # 用数据库向量训练（学习聚类中心）
print(f"训练后 is_trained: {index.is_trained}")  # True

# ====== 添加数据并搜索 ======
index.add(xb)  # 添加向量
print(f"向量数: {index.ntotal}")  # 100000

# nprobe 控制搜索时访问多少个簇（默认 1）
index.nprobe = 10  # 搜索最近的 10 个簇（精度更高，但更慢）

k = 4
D, I = index.search(xq, k)
print("IVF 搜索结果（前3个查询的最近邻ID）:")
print(I[:3])

5.4 保存和加载索引¶

import faiss

# ====== 保存索引到文件 ======
faiss.write_index(index, "my_index.faiss")  # 保存到磁盘
print("索引已保存")

# ====== 从文件加载索引 ======
loaded_index = faiss.read_index("my_index.faiss")  # 从磁盘加载
print(f"加载后向量数: {loaded_index.ntotal}")  # 应该和保存前一样

# 加载后可以直接搜索
D, I = loaded_index.search(xq, k)

5.5 FAISS 的 index_factory（快捷创建索引）¶

import faiss

d = 128  # 向量维度

# index_factory 用字符串描述索引结构，一行代码创建复杂索引
# 格式: "预处理,粗量化,精量化"

# 暴力搜索
index1 = faiss.index_factory(d, "Flat")  # 等价于 IndexFlatL2(d)

# IVF + Flat（100个聚类中心）
index2 = faiss.index_factory(d, "IVF100,Flat")  # 等价于 IndexIVFFlat

# IVF + PQ（100个聚类中心 + 乘积量化压缩到 16 字节）
index3 = faiss.index_factory(d, "IVF100,PQ16")  # 内存友好的方案

# HNSW
index4 = faiss.index_factory(d, "HNSW32")  # 32 个邻居的 HNSW 图

# PCA降维 + IVF + PQ
index5 = faiss.index_factory(d, "PCA64,IVF100,PQ8")  # 先降到64维再索引

6. Milvus 简介（分布式方案）¶

当数据量超过单机能力（亿级以上），需要分布式向量数据库。Milvus 是目前最成熟的开源分布式方案。

6.1 核心特点¶

特性	说明
分布式架构	存储和计算分离，可水平扩展
多种索引	支持 HNSW、IVF_FLAT、IVF_PQ、DiskANN 等
混合查询	向量搜索 + 标量过滤可以同时进行
多语言 SDK	Python、Java、Go、Node.js
云服务	Zilliz Cloud 提供全托管服务

6.2 适用场景¶

数据量超过 1 亿条向量
需要高可用（多副本、故障自动切换）
多团队共用同一套向量检索服务
需要实时写入 + 实时查询

6.3 快速体验（Milvus Lite）¶

# pip install pymilvus  # 安装 Milvus Python SDK

from pymilvus import MilvusClient  # 导入轻量客户端

# Milvus Lite 模式：单文件嵌入式运行（类似 SQLite）
client = MilvusClient("milvus_demo.db")  # 数据存到本地文件

# 创建集合
client.create_collection(
    collection_name="demo",
    dimension=128  # 向量维度
)

# 插入数据（需要自己提供向量）
import numpy as np
vectors = np.random.random((100, 128)).tolist()  # 100条 128维向量
data = [{"id": i, "vector": vectors[i]} for i in range(100)]
client.insert(collection_name="demo", data=data)

# 搜索
query_vector = np.random.random((1, 128)).tolist()
results = client.search(
    collection_name="demo",
    data=query_vector,
    limit=5  # 返回 Top-5
)
print(results)

7. 向量数据库选型对比¶

特性	ChromaDB	FAISS	Milvus	Qdrant	Pinecone
类型	嵌入式数据库	搜索库	分布式数据库	向量数据库	全托管云服务
开源	Apache 2.0	MIT	Apache 2.0	Apache 2.0	闭源
内置 Embedding	有	无	无	无	无
持久化	有（SQLite 后端）	手动保存/加载	有	有	云端自动
分布式	不支持（单机）	不支持	支持	支持	支持（云端）
元数据过滤	支持	不支持	支持	支持	支持
适合规模	<100万	<1亿（单机）	亿级+	千万~亿级	任意（按需付费）
上手难度	最简单	中等	较复杂	中等	简单
GPU 加速	不支持	支持	支持（Knowhere）	不支持	不适用
最佳场景	原型验证/小项目/RAG	大规模离线搜索/研究	生产级分布式系统	中等规模生产	不想运维

选型决策树¶

你的向量数量？
├── < 10万 → ChromaDB（最简单，开箱即用）
├── 10万~1000万 → ChromaDB 或 Qdrant
├── 1000万~1亿 → FAISS（纯搜索）或 Qdrant/Milvus（需要数据库特性）
└── > 1亿 → Milvus（自建）或 Pinecone（托管）

你需要内置 embedding 吗？
├── 是 → ChromaDB（自动处理）
└── 否 → FAISS / Milvus / Qdrant（自己生成 embedding）

你需要 GPU 加速吗？
├── 是 → FAISS（faiss-gpu）
└── 否 → 都可以

8. 生信应用场景¶

8.1 基因序列相似性搜索¶

传统方法用 BLAST 比对序列，但对于大规模数据库（如 NCBI nr），BLAST 非常慢。可以先把序列转成向量，再用向量搜索快速定位候选序列，最后对候选集做精确比对。

# 概念示例：用向量数据库加速序列相似性搜索
# 实际中需要用 ProtTrans、ESM-2 等模型生成序列 embedding

import chromadb
import numpy as np

client = chromadb.Client()

# 假设我们已经用 ESM-2 模型将蛋白质序列转成了 embedding
collection = client.get_or_create_collection(
    name="protein_sequences",
    metadata={"hnsw:space": "cosine"}  # 使用余弦距离
)

# 添加蛋白质序列（实际中 embeddings 由 ESM-2 生成）
collection.add(
    documents=[  # 原始序列描述
        "Insulin receptor substrate 1 - Homo sapiens",
        "Glucokinase - Mus musculus",
        "GLUT4 glucose transporter - Rattus norvegicus"
    ],
    embeddings=[  # 这里用随机向量示意，实际应为模型输出
        np.random.random(320).tolist(),
        np.random.random(320).tolist(),
        np.random.random(320).tolist()
    ],
    ids=["prot1", "prot2", "prot3"]
)

# 查询：找与目标蛋白最相似的序列
query_embedding = np.random.random(320).tolist()  # 实际为目标序列的 embedding
results = collection.query(
    query_embeddings=[query_embedding],
    n_results=2
)
print(results["documents"])

8.2 蛋白质 Embedding 检索¶

模型	输出维度	适用场景
ESM-2（Meta）	320~2560	蛋白质序列表示，功能预测
ProtTrans	1024	蛋白质分类、定位预测
DNA-BERT	768	DNA 序列功能元件识别
ScBERT	768	单细胞 RNA-seq 细胞类型注释

8.3 其他生信应用¶

文献语义搜索：将 PubMed 论文摘要 embedding 后存入向量数据库，用自然语言检索相关文献
单细胞数据检索：将细胞的基因表达谱转化为 embedding，按相似表达模式查找同类细胞
药物分子搜索：将分子指纹或 3D 结构转为向量，搜索结构相似的候选药物

9. 常见报错与解决方案¶

报错 1：`chromadb.errors.DuplicateIDError`¶

原因：添加的文档 ID 已经存在于集合中
解决：用 upsert() 代替 add()，或先 delete() 再 add()

# 错误写法
collection.add(ids=["doc1"], documents=["新内容"])  # doc1 已存在，报错！

# 正确写法
collection.upsert(ids=["doc1"], documents=["新内容"])  # 存在就更新，不存在就插入

报错 2：FAISS `ValueError: x should be float32`¶

原因：FAISS 只接受 float32 类型的 numpy 数组
解决：确保数据类型为 np.float32

# 错误写法
data = np.random.random((100, 128))  # 默认 float64
index.add(data)  # 报错！

# 正确写法
data = np.random.random((100, 128)).astype('float32')  # 转成 float32
index.add(data)  # 正常

报错 3：FAISS `RuntimeError: Error: index not trained`¶

原因：IVF/PQ 等索引需要先 train() 再 add()
解决：在添加数据前先用训练数据调用 index.train()

index = faiss.IndexIVFFlat(quantizer, d, nlist)
# index.add(xb)  # 直接 add 会报错！

index.train(xb)  # 必须先训练
index.add(xb)    # 训练后才能添加数据

报错 4：ChromaDB `TypeError: expected str, got NoneType`¶

原因：documents 列表中包含 None 值
解决：确保所有文档都是非空字符串，或传入 embeddings 代替 documents

报错 5：`ImportError: No module named 'faiss'`¶

原因：FAISS 未正确安装，或安装了 faiss-gpu 但没有 CUDA 环境
解决：
  pip install faiss-cpu   # CPU 版本（不需要 GPU）
  # 或
  conda install -c conda-forge faiss-cpu  # conda 方式

报错 6：ChromaDB 持久化后数据丢失¶

原因：使用了 Client() 而不是 PersistentClient()
解决：
  # 内存模式（数据会丢失）
  client = chromadb.Client()

  # 持久化模式（数据保存到磁盘）
  client = chromadb.PersistentClient(path="./my_chroma_db")

10. 速查表¶

ChromaDB 速查¶

操作	代码
创建内存客户端	`client = chromadb.Client()`
创建持久化客户端	`client = chromadb.PersistentClient(path="./db")`
创建/获取集合	`col = client.get_or_create_collection("name")`
添加文档	`col.add(documents=[...], ids=[...])`
更新插入	`col.upsert(documents=[...], ids=[...])`
语义查询	`col.query(query_texts=["..."], n_results=5)`
带过滤查询	`col.query(query_texts=["..."], where={"key": "val"})`
按 ID 获取	`col.get(ids=["id1"])`
删除	`col.delete(ids=["id1"])`
统计数量	`col.count()`
列出所有集合	`client.list_collections()`
删除集合	`client.delete_collection("name")`

FAISS 速查¶

操作	代码
暴力搜索索引	`index = faiss.IndexFlatL2(d)`
余弦搜索索引	`index = faiss.IndexFlatIP(d)`（需先归一化向量）
IVF 索引	`index = faiss.IndexIVFFlat(quantizer, d, nlist)`
index_factory	`index = faiss.index_factory(d, "IVF100,PQ16")`
训练索引	`index.train(xb)`
添加向量	`index.add(xb)`
搜索	`D, I = index.search(xq, k)`
设置搜索精度	`index.nprobe = 10`
保存索引	`faiss.write_index(index, "path.faiss")`
加载索引	`index = faiss.read_index("path.faiss")`
查看向量数	`index.ntotal`
GPU 迁移	`gpu_index = faiss.index_cpu_to_gpu(res, 0, index)`

距离度量速查¶

度量	值域	越大/小越相似	ChromaDB 参数	FAISS 类
L2 (欧氏)	[0, +inf)	越小越相似	`hnsw:space="l2"`	`IndexFlatL2`
余弦	[-1, 1]	越大越相似	`hnsw:space="cosine"`	`IndexFlatIP`+归一化
点积	(-inf, +inf)	越大越相似	`hnsw:space="ip"`	`IndexFlatIP`

11. 延伸资源¶

官方文档¶

ChromaDB 官方文档：https://docs.trychroma.com
FAISS Wiki：https://github.com/facebookresearch/faiss/wiki
Milvus 官方文档：https://milvus.io/docs
Qdrant 官方文档：https://qdrant.tech/documentation

学习资源¶

FAISS 论文：Billion-scale similarity search with GPUs (Jeff Johnson et al., 2017)
Ann-Benchmarks（各种 ANN 算法的性能对比）：https://ann-benchmarks.com
蛋白质 Embedding 模型 ESM-2：https://github.com/facebookresearch/esm

生信相关¶

ESM-2 + FAISS 大规模蛋白质搜索方案
DNA-BERT + ChromaDB 基因组功能元件检索
ScBERT + 向量数据库的单细胞类型注释加速

写作自审清单： - [x] 3000-5000 字（约 4200 字正文） - [x] 白话解释 + 类比（图书管理员、仓库货架、社交网络等） - [x] 完整 Python 代码 + 每行中文注释 - [x] 不与 02_LangChain 重复（本篇深入向量数据库底层，不涉及 LangChain 框架） - [x] 包含全部要求章节：原理、索引算法、ChromaDB 实战、FAISS 实战、Milvus、选型对比、生信应用、常见报错(6个)、速查表、延伸资源 - [x] ChromaDB 最新版本 1.5.8 (2026-04-16) 已联网确认 - [x] FAISS GitHub stars 39.9k 已联网确认