跳转至

838. 单细胞多模态前沿技术

一句话概述:单细胞多模态 = 同时测量同一个细胞的多种分子层(转录组+蛋白+表观遗传),2025-2026的核心趋势是AI基础模型 + 空间整合。

核心知识点速查表

技术测量内容代表平台
scRNA-seq转录组10x Chromium、Smart-seq
CITE-seq转录组+表面蛋白10x Feature Barcoding
scATAC-seq染色质可及性10x Multiome
10x Multiome转录组+ATAC10x Genomics
SHARE-seq转录组+ATAC开源协议
TEA-seq转录组+表观遗传+蛋白三模态
Spatial + scRNA空间位置+转录组Visium HD、MERFISH

一、白话理解多模态

想象给一个细胞做全方位体检:

单模态(只看一项):
→ 只查血常规(scRNA-seq: 看基因表达)

双模态(看两项):
→ 查血常规 + 心电图(Multiome: 转录组+ATAC)
→ 查血常规 + 表面标记物(CITE-seq: 转录组+蛋白)

多模态(全面体检):
→ 血常规+心电图+影像+生化全套(TEA-seq等)

为什么要多模态?
→ 只看转录组可能漏掉重要信息
→ 基因表达≠蛋白质水平(转录后调控)
→ 表观遗传决定哪些基因"有潜力"被激活
→ 多层面信息整合→更完整的细胞状态图谱

二、主流多模态技术

2.1 CITE-seq(转录组+蛋白)

# CITE-seq数据分析(使用scanpy + muon)
import scanpy as sc                    # 单细胞分析
import muon as mu                      # 多模态分析框架

# 读取多模态数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5")  # 读取10x数据

# 分别处理RNA和蛋白数据
rna = mdata.mod['rna']                 # RNA模态
prot = mdata.mod['prot']               # 蛋白(ADT)模态

# RNA预处理
sc.pp.normalize_total(rna)             # 标准化
sc.pp.log1p(rna)                       # 对数转换
sc.pp.highly_variable_genes(rna)       # 高变基因
sc.pp.pca(rna)                         # PCA降维

# 蛋白预处理
mu.prot.pp.dsb(prot)                   # DSB标准化(去除背景噪音)

# 多模态整合
mu.pp.intersect_obs(mdata)             # 取共同细胞
mu.tl.mofa(mdata)                      # MOFA+多组学因子分析

2.2 10x Multiome(RNA + ATAC)

# Multiome数据分析
import scanpy as sc
import muon as mu
import episcanpy as epi                # 表观基因组分析

# 读取Multiome数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5")
rna = mdata.mod['rna']                 # RNA数据
atac = mdata.mod['atac']               # ATAC数据

# ATAC数据预处理
epi.pp.binarize(atac)                  # 二值化(有无信号)
epi.pp.filter_features(atac,           # 过滤低频peaks
                        min_cells=50)
mu.atac.tl.lsi(atac)                   # 潜在语义索引(LSI)降维

# WNN整合(加权最近邻)
mu.pp.neighbors(mdata,                 # 计算多模态邻域
                method='wnn')          # 加权最近邻方法
mu.tl.umap(mdata)                      # UMAP可视化

三、AI基础模型在单细胞中的应用

# scGPT —— 单细胞基础模型(2024-2025)
# 预训练在3300万个细胞上

# 核心能力:
# 1. 细胞类型注释(零样本)
# 2. 批次效应校正
# 3. 基因扰动预测
# 4. 基因调控网络推断
# 5. 多模态整合

# 使用示例(概念)
from scgpt import scGPTModel           # 导入模型

model = scGPTModel.from_pretrained(    # 加载预训练模型
    "scgpt-human"                      # 人类细胞预训练
)

# 零样本细胞注释
predictions = model.annotate(           # 自动注释
    query_adata,                        # 查询数据
    reference_adata=None                # 不需要参考数据!
)

# SIMO —— 空间多组学整合(Nature Comms 2025)
# 将单细胞多模态数据整合到空间位置上
# 即使不同模态没有在同一细胞中共同测量

四、数据整合策略

多模态数据整合的三种策略:

1. 早期整合(Early Integration)
   → 在分析前就把多种模态数据拼在一起
   → 简单但可能被某个模态主导
   → 例:直接concat RNA和蛋白矩阵

2. 晚期整合(Late Integration)
   → 每种模态单独分析,最后合并结果
   → 保留每个模态的特性
   → 例:分别做PCA/LSI,再用WNN合并

3. 中间整合(Intermediate Integration)
   → 用联合模型同时学习多种模态
   → 最复杂但理论最优
   → 例:MOFA+、totalVI、scGPT

推荐策略(2025共识):
→ CITE-seq: totalVI 或 WNN
→ Multiome: WNN 或 MOFA+
→ 跨平台整合: scGPT 或 GLUE

五、面试高频问题

  1. Q: 什么是单细胞多模态分析? A: 同时测量同一个细胞的多种分子信息(如RNA+蛋白、RNA+ATAC),通过整合分析获得更完整的细胞状态图谱。

  2. Q: CITE-seq和Multiome有什么区别? A: CITE-seq测RNA+表面蛋白(约200个标记),适合免疫细胞分型。Multiome测RNA+染色质可及性(全基因组),适合研究基因调控机制。

  3. Q: 多模态数据怎么整合? A: 主流方法是WNN(加权最近邻),让每个模态按信息量加权贡献。也可用MOFA+做因子分析或scGPT做基础模型整合。

常见报错与解决

问题解决
ATAC数据太稀疏使用LSI而非PCA降维
RNA和ATAC细胞不完全匹配mu.pp.intersect_obs()取交集
蛋白数据背景噪音高使用DSB标准化方法
WNN权重偏向一个模态检查各模态预处理质量
内存不够(大数据集)使用backed模式或Dask

速查表

# 多模态分析框架
Python: muon + scanpy + episcanpy
R: Seurat v5 (WNN) + Signac (ATAC)

# 整合方法
WNN:     加权最近邻(Seurat/muon)
MOFA+:   多组学因子分析
totalVI: CITE-seq专用深度模型
GLUE:    跨模态图模型
scGPT:   基础模型(零样本)

# 技术选择指南
研究免疫细胞分型 → CITE-seq
研究基因调控 → 10x Multiome
研究空间分布 → Visium + scRNA-seq
全面表征 → TEA-seq(三模态)