838. 单细胞多模态前沿技术¶

一句话概述：单细胞多模态 = 同时测量同一个细胞的多种分子层（转录组+蛋白+表观遗传），2025-2026的核心趋势是AI基础模型 + 空间整合。

核心知识点速查表¶

技术	测量内容	代表平台
scRNA-seq	转录组	10x Chromium、Smart-seq
CITE-seq	转录组+表面蛋白	10x Feature Barcoding
scATAC-seq	染色质可及性	10x Multiome
10x Multiome	转录组+ATAC	10x Genomics
SHARE-seq	转录组+ATAC	开源协议
TEA-seq	转录组+表观遗传+蛋白	三模态
Spatial + scRNA	空间位置+转录组	Visium HD、MERFISH

一、白话理解多模态¶

想象给一个细胞做全方位体检：

单模态（只看一项）：
→ 只查血常规（scRNA-seq: 看基因表达）

双模态（看两项）：
→ 查血常规 + 心电图（Multiome: 转录组+ATAC）
→ 查血常规 + 表面标记物（CITE-seq: 转录组+蛋白）

多模态（全面体检）：
→ 血常规+心电图+影像+生化全套（TEA-seq等）

为什么要多模态？
→ 只看转录组可能漏掉重要信息
→ 基因表达≠蛋白质水平（转录后调控）
→ 表观遗传决定哪些基因"有潜力"被激活
→ 多层面信息整合→更完整的细胞状态图谱

二、主流多模态技术¶

2.1 CITE-seq（转录组+蛋白）¶

# CITE-seq数据分析（使用scanpy + muon）
import scanpy as sc                    # 单细胞分析
import muon as mu                      # 多模态分析框架

# 读取多模态数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5")  # 读取10x数据

# 分别处理RNA和蛋白数据
rna = mdata.mod['rna']                 # RNA模态
prot = mdata.mod['prot']               # 蛋白(ADT)模态

# RNA预处理
sc.pp.normalize_total(rna)             # 标准化
sc.pp.log1p(rna)                       # 对数转换
sc.pp.highly_variable_genes(rna)       # 高变基因
sc.pp.pca(rna)                         # PCA降维

# 蛋白预处理
mu.prot.pp.dsb(prot)                   # DSB标准化（去除背景噪音）

# 多模态整合
mu.pp.intersect_obs(mdata)             # 取共同细胞
mu.tl.mofa(mdata)                      # MOFA+多组学因子分析

2.2 10x Multiome（RNA + ATAC）¶

# Multiome数据分析
import scanpy as sc
import muon as mu
import episcanpy as epi                # 表观基因组分析

# 读取Multiome数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5")
rna = mdata.mod['rna']                 # RNA数据
atac = mdata.mod['atac']               # ATAC数据

# ATAC数据预处理
epi.pp.binarize(atac)                  # 二值化（有无信号）
epi.pp.filter_features(atac,           # 过滤低频peaks
                        min_cells=50)
mu.atac.tl.lsi(atac)                   # 潜在语义索引(LSI)降维

# WNN整合（加权最近邻）
mu.pp.neighbors(mdata,                 # 计算多模态邻域
                method='wnn')          # 加权最近邻方法
mu.tl.umap(mdata)                      # UMAP可视化

三、AI基础模型在单细胞中的应用¶

# scGPT —— 单细胞基础模型（2024-2025）
# 预训练在3300万个细胞上

# 核心能力：
# 1. 细胞类型注释（零样本）
# 2. 批次效应校正
# 3. 基因扰动预测
# 4. 基因调控网络推断
# 5. 多模态整合

# 使用示例（概念）
from scgpt import scGPTModel           # 导入模型

model = scGPTModel.from_pretrained(    # 加载预训练模型
    "scgpt-human"                      # 人类细胞预训练
)

# 零样本细胞注释
predictions = model.annotate(           # 自动注释
    query_adata,                        # 查询数据
    reference_adata=None                # 不需要参考数据！
)

# SIMO —— 空间多组学整合（Nature Comms 2025）
# 将单细胞多模态数据整合到空间位置上
# 即使不同模态没有在同一细胞中共同测量

四、数据整合策略¶

多模态数据整合的三种策略：

1. 早期整合（Early Integration）
   → 在分析前就把多种模态数据拼在一起
   → 简单但可能被某个模态主导
   → 例：直接concat RNA和蛋白矩阵

2. 晚期整合（Late Integration）
   → 每种模态单独分析，最后合并结果
   → 保留每个模态的特性
   → 例：分别做PCA/LSI，再用WNN合并

3. 中间整合（Intermediate Integration）
   → 用联合模型同时学习多种模态
   → 最复杂但理论最优
   → 例：MOFA+、totalVI、scGPT

推荐策略（2025共识）：
→ CITE-seq: totalVI 或 WNN
→ Multiome: WNN 或 MOFA+
→ 跨平台整合: scGPT 或 GLUE

五、面试高频问题¶

Q: 什么是单细胞多模态分析？ A: 同时测量同一个细胞的多种分子信息（如RNA+蛋白、RNA+ATAC），通过整合分析获得更完整的细胞状态图谱。
Q: CITE-seq和Multiome有什么区别？ A: CITE-seq测RNA+表面蛋白（约200个标记），适合免疫细胞分型。Multiome测RNA+染色质可及性（全基因组），适合研究基因调控机制。
Q: 多模态数据怎么整合？ A: 主流方法是WNN（加权最近邻），让每个模态按信息量加权贡献。也可用MOFA+做因子分析或scGPT做基础模型整合。

常见报错与解决¶

问题	解决
ATAC数据太稀疏	使用LSI而非PCA降维
RNA和ATAC细胞不完全匹配	用`mu.pp.intersect_obs()`取交集
蛋白数据背景噪音高	使用DSB标准化方法
WNN权重偏向一个模态	检查各模态预处理质量
内存不够（大数据集）	使用backed模式或Dask

速查表¶

# 多模态分析框架
Python: muon + scanpy + episcanpy
R: Seurat v5 (WNN) + Signac (ATAC)

# 整合方法
WNN:     加权最近邻（Seurat/muon）
MOFA+:   多组学因子分析
totalVI: CITE-seq专用深度模型
GLUE:    跨模态图模型
scGPT:   基础模型（零样本）

# 技术选择指南
研究免疫细胞分型 → CITE-seq
研究基因调控 → 10x Multiome
研究空间分布 → Visium + scRNA-seq
全面表征 → TEA-seq（三模态）