Chroma 安装使用与 RAG¶

一句话概述¶

Chroma 是最简单易用的开源向量数据库，三行 Python 代码就能创建集合、存储文档和执行语义搜索，自带嵌入模型无需额外配置，是学习 RAG（检索增强生成）的最佳入门工具。

核心知识点表格¶

知识点	说明
项目地址	https://github.com/chroma-core/chroma
官网	https://www.trychroma.com
最新版本	v1.5.9（2026年5月）
GitHub Stars	26,000+
核心功能	向量存储 + 语义搜索
运行模式	内存模式 / 本地持久化 / 客户端-服务器
开发语言	Rust 内核 + Python/JS 接口
许可证	Apache 2.0
每月下载量	1100 万+

安装与配置¶

Python 安装¶

# 安装 Chroma Python 客户端
pip install chromadb  # 需要 Python >= 3.9

# 验证安装
python3 -c "import chromadb; print(chromadb.__version__)"  # 打印版本号

JavaScript 安装¶

npm install chromadb  # Node.js 环境

Docker 部署（客户端-服务器模式）¶

# 使用 Docker 运行 Chroma 服务器
docker run -d \
  --name chroma \               # 容器名
  -p 8000:8000 \                # 端口映射
  -v chroma-data:/chroma/chroma \  # 数据持久化
  ghcr.io/chroma-core/chroma:latest  # 官方镜像

# 验证服务是否启动
curl http://localhost:8000/api/v2/heartbeat  # 心跳检查

基本使用¶

内存模式（快速原型）¶

import chromadb  # 导入 Chroma

# 创建内存客户端（数据在内存中，程序退出就丢失）
client = chromadb.Client()

# 创建一个集合（类似数据库中的表）
collection = client.create_collection(
    name="bioinfo_docs"  # 集合名称
)

# 添加文档（Chroma 自动生成嵌入向量）
collection.add(
    documents=[
        "宏基因组学是研究环境样本中所有微生物基因组的学科",
        "16S rRNA 测序是鉴定细菌种类的常用方法",
        "Alpha多样性指单个样本内的物种多样性",
        "Beta多样性指不同样本间的物种组成差异",
        "Shannon指数综合考虑物种丰富度和均匀度"
    ],
    ids=["doc1", "doc2", "doc3", "doc4", "doc5"]  # 每个文档的唯一 ID
)

# 语义搜索（找到最相关的文档）
results = collection.query(
    query_texts=["什么是微生物多样性？"],  # 搜索查询
    n_results=3  # 返回最相关的 3 条
)

# 打印结果
for doc, distance in zip(results["documents"][0], results["distances"][0]):
    print(f"相关度: {1-distance:.4f}")  # 转换为相似度
    print(f"内容: {doc}")
    print("---")

持久化模式（数据存盘）¶

import chromadb

# 使用持久化客户端（数据保存到磁盘）
client = chromadb.PersistentClient(
    path="./chroma_data"  # 数据存储目录
)

# 获取或创建集合
collection = client.get_or_create_collection(
    name="papers"  # 集合名
)

# 添加文档（带元数据）
collection.add(
    documents=[
        "Kraken2 is a fast taxonomic classifier for metagenomics",
        "MetaPhlAn uses marker genes for microbial profiling",
        "MEGAHIT is a de novo assembler for metagenomics"
    ],
    metadatas=[
        {"tool": "kraken2", "type": "classifier"},      # 元数据
        {"tool": "metaphlan", "type": "profiler"},
        {"tool": "megahit", "type": "assembler"}
    ],
    ids=["paper1", "paper2", "paper3"]
)

# 带元数据过滤的搜索
results = collection.query(
    query_texts=["微生物物种分类工具"],
    n_results=2,
    where={"type": "classifier"}  # 只搜索 classifier 类型
)

print(results["documents"])    # 搜索结果
print(results["metadatas"])    # 对应的元数据

客户端-服务器模式¶

import chromadb

# 连接到远程 Chroma 服务器
client = chromadb.HttpClient(
    host="localhost",  # 服务器地址
    port=8000          # 服务器端口
)

# 后续操作与本地模式完全一样
collection = client.get_or_create_collection("my_data")

高级用法¶

构建简单 RAG 系统¶

import chromadb
import openai

# 第一步：初始化 Chroma 和 LLM 客户端
chroma_client = chromadb.PersistentClient(path="./rag_data")
llm_client = openai.Client(base_url="http://localhost:11434/v1", api_key="ollama")

# 第二步：创建知识库集合
knowledge_base = chroma_client.get_or_create_collection("knowledge")

# 第三步：导入知识文档
documents = [
    "2型糖尿病患者的肠道菌群多样性显著降低",
    "Akkermansia muciniphila 的丰度与糖尿病风险呈负相关",
    "短链脂肪酸（SCFAs）在调节血糖中起重要作用",
    "高膳食纤维饮食可以增加产丁酸菌的丰度",
    "粪便微生物移植（FMT）是研究菌群功能的重要手段",
]

knowledge_base.add(
    documents=documents,
    ids=[f"doc_{i}" for i in range(len(documents))]  # 生成 ID
)

# 第四步：RAG 检索 + 生成
def rag_answer(question):
    """检索相关知识，然后让 LLM 回答"""

    # 检索相关文档
    results = knowledge_base.query(
        query_texts=[question],
        n_results=3
    )

    # 拼接上下文
    context = "\n".join(results["documents"][0])

    # 调用 LLM 生成回答
    response = llm_client.chat.completions.create(
        model="llama3.1:8b",
        messages=[
            {"role": "system", "content": f"根据以下知识回答问题：\n{context}"},
            {"role": "user", "content": question}
        ]
    )
    return response.choices[0].message.content

# 使用
answer = rag_answer("糖尿病和肠道菌群有什么关系？")
print(answer)

使用自定义嵌入模型¶

import chromadb
from chromadb.utils import embedding_functions

# 使用 HuggingFace 模型做嵌入
hf_ef = embedding_functions.HuggingFaceEmbeddingFunction(
    model_name="BAAI/bge-small-zh-v1.5",  # 中文嵌入模型
    api_key="hf_xxx"                        # HuggingFace Token
)

# 使用 OpenAI 嵌入模型
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
    api_key="sk-xxx",
    model_name="text-embedding-3-small"
)

# 使用 Ollama 本地嵌入
ollama_ef = embedding_functions.OllamaEmbeddingFunction(
    url="http://localhost:11434/api/embeddings",
    model_name="nomic-embed-text"
)

# 创建集合时指定嵌入函数
collection = client.create_collection(
    name="chinese_docs",
    embedding_function=hf_ef  # 使用中文嵌入模型
)

混合搜索（BM25 + 向量）¶

# Chroma v1.5+ 支持稀疏向量搜索（BM25/SPLADE）
# 可以结合语义搜索和关键词搜索

collection = client.create_collection(
    name="hybrid_search",
    metadata={"hnsw:space": "cosine"}  # 使用余弦距离
)

# 添加文档
collection.add(
    documents=["..."],
    ids=["..."]
)

# 使用 where_document 过滤包含特定关键词的文档
results = collection.query(
    query_texts=["微生物组学分析"],
    n_results=5,
    where_document={"$contains": "微生物"}  # 文档必须包含"微生物"
)

常见报错与解决¶

报错信息	原因	解决方法
`Collection already exists`	集合已存在	使用 `get_or_create_collection()` 替代 `create_collection()`
`ID already exists`	文档 ID 重复	确保每个文档 ID 唯一，或使用 `upsert()` 替代 `add()`
`DimensionMismatch`	向量维度不匹配	同一集合必须使用同一个嵌入模型
`sqlite3.OperationalError`	SQLite 锁冲突	不要多个进程同时写入同一个持久化目录
`No module named chromadb`	未安装	`pip install chromadb`
`Connection refused (8000)`	服务器未启动	启动 Chroma 服务器或检查端口

速查表¶

# === Chroma Python SDK 速查 ===
import chromadb

# 客户端创建
client = chromadb.Client()                          # 内存模式
client = chromadb.PersistentClient(path="./data")   # 持久化模式
client = chromadb.HttpClient(host="localhost")      # 远程模式

# 集合操作
col = client.create_collection("name")             # 创建
col = client.get_collection("name")                # 获取
col = client.get_or_create_collection("name")      # 获取或创建
client.delete_collection("name")                   # 删除
client.list_collections()                          # 列出所有

# 文档操作
col.add(documents=["..."], ids=["id1"])             # 添加
col.upsert(documents=["..."], ids=["id1"])          # 添加或更新
col.update(documents=["..."], ids=["id1"])          # 更新
col.delete(ids=["id1"])                             # 删除
col.get(ids=["id1"])                                # 获取
col.count()                                         # 计数

# 搜索
col.query(query_texts=["查询"], n_results=5)        # 语义搜索
col.query(query_texts=["查询"], where={"key": "val"})  # 元数据过滤
col.query(query_texts=["查询"], where_document={"$contains": "关键词"})  # 内容过滤

与同类工具对比¶

特性	Chroma	Qdrant	Milvus	pgvector
上手难度	极简（3行代码）	简单	中等	中等
内嵌模式	支持（内存/文件）	支持（内存）	支持（Lite）	需要 PostgreSQL
自带嵌入	内置默认模型	需要外部	需要外部	需要外部
分布式	不支持	支持	支持	依赖 PostgreSQL
适合场景	原型/小规模	中大规模	大规模	已有 PostgreSQL
性能	中等	高	非常高	中等
云服务	Chroma Cloud	Qdrant Cloud	Zilliz Cloud	各云 PG 服务

选择建议：学习 RAG 和快速原型用 Chroma（最简单）。生产环境中小规模用 Qdrant。大规模分布式用 Milvus。已有 PostgreSQL 数据库就加 pgvector 扩展。

Chroma 安装使用与 RAG¶

一句话概述¶

核心知识点表格¶

安装与配置¶

Python 安装¶

JavaScript 安装¶

Docker 部署（客户端-服务器模式）¶

基本使用¶

内存模式（快速原型）¶

持久化模式（数据存盘）¶

客户端-服务器模式¶

高级用法¶

构建简单 RAG 系统¶

使用自定义嵌入模型¶

混合搜索（BM25 + 向量）¶

常见报错与解决¶

速查表¶

与同类工具对比¶

📚 相关文章推荐