838. 单细胞多模态前沿技术¶
一句话概述:单细胞多模态 = 同时测量同一个细胞的多种分子层(转录组+蛋白+表观遗传),2025-2026的核心趋势是AI基础模型 + 空间整合。
核心知识点速查表¶
| 技术 | 测量内容 | 代表平台 |
|---|---|---|
| scRNA-seq | 转录组 | 10x Chromium、Smart-seq |
| CITE-seq | 转录组+表面蛋白 | 10x Feature Barcoding |
| scATAC-seq | 染色质可及性 | 10x Multiome |
| 10x Multiome | 转录组+ATAC | 10x Genomics |
| SHARE-seq | 转录组+ATAC | 开源协议 |
| TEA-seq | 转录组+表观遗传+蛋白 | 三模态 |
| Spatial + scRNA | 空间位置+转录组 | Visium HD、MERFISH |
一、白话理解多模态¶
想象给一个细胞做全方位体检:
单模态(只看一项):
→ 只查血常规(scRNA-seq: 看基因表达)
双模态(看两项):
→ 查血常规 + 心电图(Multiome: 转录组+ATAC)
→ 查血常规 + 表面标记物(CITE-seq: 转录组+蛋白)
多模态(全面体检):
→ 血常规+心电图+影像+生化全套(TEA-seq等)
为什么要多模态?
→ 只看转录组可能漏掉重要信息
→ 基因表达≠蛋白质水平(转录后调控)
→ 表观遗传决定哪些基因"有潜力"被激活
→ 多层面信息整合→更完整的细胞状态图谱
二、主流多模态技术¶
2.1 CITE-seq(转录组+蛋白)¶
# CITE-seq数据分析(使用scanpy + muon)
import scanpy as sc # 单细胞分析
import muon as mu # 多模态分析框架
# 读取多模态数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5") # 读取10x数据
# 分别处理RNA和蛋白数据
rna = mdata.mod['rna'] # RNA模态
prot = mdata.mod['prot'] # 蛋白(ADT)模态
# RNA预处理
sc.pp.normalize_total(rna) # 标准化
sc.pp.log1p(rna) # 对数转换
sc.pp.highly_variable_genes(rna) # 高变基因
sc.pp.pca(rna) # PCA降维
# 蛋白预处理
mu.prot.pp.dsb(prot) # DSB标准化(去除背景噪音)
# 多模态整合
mu.pp.intersect_obs(mdata) # 取共同细胞
mu.tl.mofa(mdata) # MOFA+多组学因子分析
2.2 10x Multiome(RNA + ATAC)¶
# Multiome数据分析
import scanpy as sc
import muon as mu
import episcanpy as epi # 表观基因组分析
# 读取Multiome数据
mdata = mu.read_10x_h5("filtered_feature_bc_matrix.h5")
rna = mdata.mod['rna'] # RNA数据
atac = mdata.mod['atac'] # ATAC数据
# ATAC数据预处理
epi.pp.binarize(atac) # 二值化(有无信号)
epi.pp.filter_features(atac, # 过滤低频peaks
min_cells=50)
mu.atac.tl.lsi(atac) # 潜在语义索引(LSI)降维
# WNN整合(加权最近邻)
mu.pp.neighbors(mdata, # 计算多模态邻域
method='wnn') # 加权最近邻方法
mu.tl.umap(mdata) # UMAP可视化
三、AI基础模型在单细胞中的应用¶
# scGPT —— 单细胞基础模型(2024-2025)
# 预训练在3300万个细胞上
# 核心能力:
# 1. 细胞类型注释(零样本)
# 2. 批次效应校正
# 3. 基因扰动预测
# 4. 基因调控网络推断
# 5. 多模态整合
# 使用示例(概念)
from scgpt import scGPTModel # 导入模型
model = scGPTModel.from_pretrained( # 加载预训练模型
"scgpt-human" # 人类细胞预训练
)
# 零样本细胞注释
predictions = model.annotate( # 自动注释
query_adata, # 查询数据
reference_adata=None # 不需要参考数据!
)
# SIMO —— 空间多组学整合(Nature Comms 2025)
# 将单细胞多模态数据整合到空间位置上
# 即使不同模态没有在同一细胞中共同测量
四、数据整合策略¶
多模态数据整合的三种策略:
1. 早期整合(Early Integration)
→ 在分析前就把多种模态数据拼在一起
→ 简单但可能被某个模态主导
→ 例:直接concat RNA和蛋白矩阵
2. 晚期整合(Late Integration)
→ 每种模态单独分析,最后合并结果
→ 保留每个模态的特性
→ 例:分别做PCA/LSI,再用WNN合并
3. 中间整合(Intermediate Integration)
→ 用联合模型同时学习多种模态
→ 最复杂但理论最优
→ 例:MOFA+、totalVI、scGPT
推荐策略(2025共识):
→ CITE-seq: totalVI 或 WNN
→ Multiome: WNN 或 MOFA+
→ 跨平台整合: scGPT 或 GLUE
五、面试高频问题¶
Q: 什么是单细胞多模态分析? A: 同时测量同一个细胞的多种分子信息(如RNA+蛋白、RNA+ATAC),通过整合分析获得更完整的细胞状态图谱。
Q: CITE-seq和Multiome有什么区别? A: CITE-seq测RNA+表面蛋白(约200个标记),适合免疫细胞分型。Multiome测RNA+染色质可及性(全基因组),适合研究基因调控机制。
Q: 多模态数据怎么整合? A: 主流方法是WNN(加权最近邻),让每个模态按信息量加权贡献。也可用MOFA+做因子分析或scGPT做基础模型整合。
常见报错与解决¶
| 问题 | 解决 |
|---|---|
| ATAC数据太稀疏 | 使用LSI而非PCA降维 |
| RNA和ATAC细胞不完全匹配 | 用mu.pp.intersect_obs()取交集 |
| 蛋白数据背景噪音高 | 使用DSB标准化方法 |
| WNN权重偏向一个模态 | 检查各模态预处理质量 |
| 内存不够(大数据集) | 使用backed模式或Dask |