摘要: 单细胞转录组学通常依赖低维潜在表示来提升数据信噪比,这类表示广泛应用于数据整合、细胞状态发现及扰动预测等任务。然而,从潜在空间重建基因表达对生物学解释至关重要,却长期缺乏系统性评估。为此,本研究提出 ReconEval——一个专门评估单细胞潜在空间基因表达重建能力的基准框架。该基准涵盖两类潜在表示:端到端训练模型(PCA、自编码器、变分自编码器)以及结合新训练解码器的预训练单细胞基础模型嵌入。评估涉及超过1亿细胞的扰动与观测数据集,指标体系涵盖统计保真度、生物信号保留(差异表达、共表达、细胞周期结构、细胞因子响应及通路活性)以及扰动特异性效应。主要发现如下:自编码器在低维场景下重建效果最优,变分正则化并不提升泛化能力;冻结的基础模型嵌入保留了可恢复的基因层级信息,但重建质量高度依赖解码器架构与预训练目标;在潜在扰动建模中,高维PCA与基础模型嵌入表现相当。研究表明,重建质量取决于表示与下游模型的协同配合,较简单的表示在适当容量下可优于复杂方案。该基准为单细胞基础模型提供了重建这一关键评估维度,有助于提升虚拟细胞模型的生物学可解释性。
单细胞潜在表示基因表达重建的基准评测:ReconEval¶
概述¶
单细胞转录组学(single-cell transcriptomics)研究的核心任务之一是将高维基因表达数据压缩至低维潜在表示(latent representation),以提升信噪比并支持下游分析。这些低维表示是数据整合(data integration)、细胞状态发现(cell state discovery)以及扰动预测(perturbation prediction)的基础,应用场景覆盖大规模器官图谱(organ atlas)构建到潜在轨迹建模(latent trajectory modeling)。
然而,一个长期被忽视的关键问题是:从这些潜在表示重建原始基因表达的能力究竟如何? 在虚拟细胞(virtual cell)研究范式中,模型需要预测细胞在扰动或批次校正后的响应,并在潜在空间中以分布偏移(distributional shift)的形式表达——而这些预测最终必须还原为可解释的基因层面信息,才能真正服务于生物学分析。
尽管如此,潜在表示的选择通常被视为实现细节,而非首要建模决策,目前也缺乏对潜在表示支持基因表达重建能力的系统性评估。
为填补这一空白,研究团队提出了 ReconEval——一个专门用于评测单细胞潜在空间基因表达重建质量的基准框架。该基准覆盖逾 1 亿个细胞,从统计保真度、生物信号保留与扰动特异性效应三个维度对多类模型进行全面评测,旨在将重建质量确立为单细胞基础模型评估的核心轴线。
核心原理与功能¶
1. 问题背景与动机¶
在单细胞分析流程中,典型做法是先将原始表达矩阵嵌入低维潜在空间,再在该空间中执行聚类、轨迹推断或扰动预测等操作,最后将结果解码回基因空间以供生物学解读。近年来兴起的虚拟细胞(virtual cell)方法进一步在潜在空间中对细胞响应进行建模,要求从扰动后的潜在表示准确重建基因表达谱。
然而,"表示选择"对重建质量的影响此前从未被系统量化。研究者往往依赖经验或惯例选择 PCA、VAE 或预训练基础模型,而忽视了不同表示在基因层面重建能力上的本质差异。
2. 两大类潜在表示¶
ReconEval 对两类潜在表示进行基准评测:
第一类:端到端训练模型(End-to-End Trained Models)
此类模型在目标数据集上从头训练,编码器与解码器联合优化:
- PCA(主成分分析,Principal Component Analysis):线性降维方法,作为基线模型,在高维设置下表现值得关注。
- AE(自编码器,Autoencoder):非线性编解码结构,能够捕捉基因表达的复杂非线性关系。在低维设置下取得最优独立重建性能。
- VAE(变分自编码器,Variational Autoencoder):在 AE 基础上引入变分正则化(variational regularization),对潜在空间施加概率约束。评测结果表明,变分正则化并不提升重建泛化能力。
第二类:预训练单细胞基础模型嵌入 + 新训练解码器(Pretrained Foundation Model Embeddings with Newly Trained Decoders)
此类方法使用冻结(frozen)的预训练基础模型生成嵌入,再在嵌入之上单独训练解码器进行基因表达重建:
- 基础模型权重在评测期间保持冻结,不参与微调。
- 重建质量强烈依赖于解码器架构与基础模型的预训练目标(pretraining objective)。
- 冻结的基础模型嵌入依然保留了可恢复的基因层面信息(recoverable gene-level information),说明嵌入本身具有生物学内容,但其可及性取决于解码器容量。
3. 评测指标体系¶
ReconEval 构建了一套多维度指标套件(metric suite),涵盖以下三个层次:
(1)统计保真度(Statistical Fidelity)
量化重建基因表达与真实表达在统计分布层面的一致性,包括均值、方差及相关结构的保留程度。
(2)生物信号保留(Biological Signal Preservation)
评测重建结果是否保留了关键生物学信号,具体包括:
- 差异表达(Differential Expression, DE):重建后的基因表达能否再现原始差异表达基因的排序与显著性。
- 共表达结构(Coexpression):基因之间的共表达关系是否在重建后得到保持。
- 细胞周期结构(Cell-Cycle Structure):细胞周期相关基因的表达模式是否可被正确重建。
- 细胞因子响应(Cytokine Response):与细胞因子刺激相关的转录响应特征的重建质量。
- 通路活性(Pathway Activity):基因集合层面的通路激活信号是否得以保留。
(3)扰动特异性效应(Perturbation-Specific Effects)
专门评估在潜在空间中执行扰动预测(latent perturbation modeling)后,重建结果能否准确反映扰动引起的特异性基因表达变化。
4. 数据规模¶
评测覆盖扰动数据集(perturbational datasets)与观测数据集(observational datasets)两类,细胞总量逾 1 亿个(over 100 million cells),确保了基准结论的统计稳健性与跨场景泛化性。
5. 核心发现¶
| 场景 | 最优方法 | 关键结论 |
|---|---|---|
| 低维独立重建 | AE(自编码器) | 在低维度下取得最强重建性能 |
| 变分正则化效果 | — | VAE 的变分正则化不改善重建泛化 |
| 潜在扰动建模(高维) | 高维 PCA | 与基础模型嵌入性能相当 |
| 潜在扰动建模(流模型) | 低维 AE 嵌入 | 对基于流(flow-based)的生成模型最优 |
| 基础模型嵌入 | 依赖解码器架构 | 冻结嵌入保留可恢复基因信息,质量受解码器主导 |
总体结论:重建质量关键取决于表示与下游模型之间的相互作用,在匹配适当容量(capacity)的情况下,更简单的表示可以超越更复杂的替代方案。
关键方法与步骤¶
由于 ReconEval 是一个基准框架,以下整理其核心评测流程与方法步骤:
步骤一:准备潜在表示¶
# 端到端训练模型路径:在目标数据集上训练编码器
# 以 AE(自编码器)为例,训练编码器 E 和解码器 D
# 训练阶段
z = E(x) # 将原始表达 x 编码为潜在向量 z
x_hat = D(z) # 从潜在向量解码重建基因表达 x_hat
loss = recon_loss(x, x_hat) # 计算重建损失(如 MSE 或负对数似然)
# 预训练基础模型路径:冻结嵌入 + 独立训练解码器
# 基础模型权重冻结,仅训练解码器 D_new
with torch.no_grad():
z_frozen = foundation_model.encode(x) # 生成冻结的基础模型嵌入
x_hat = D_new(z_frozen) # 新训练的解码器进行重建
loss = recon_loss(x, x_hat) # 仅优化解码器参数
步骤二:执行重建评测(统计保真度)¶
# 计算重建与真实表达之间的统计一致性
import numpy as np
from scipy.stats import pearsonr
# 基因层面均值相关性
mean_true = x_true.mean(axis=0) # 真实表达均值(每个基因)
mean_pred = x_pred.mean(axis=0) # 重建表达均值(每个基因)
r_mean, _ = pearsonr(mean_true, mean_pred) # Pearson 相关系数
# 基因层面方差相关性
var_true = x_true.var(axis=0) # 真实表达方差
var_pred = x_pred.var(axis=0) # 重建表达方差
r_var, _ = pearsonr(var_true, var_pred)
步骤三:评测生物信号保留(差异表达)¶
# 差异表达评测:比较真实 DE 基因排序与重建后 DE 基因排序
# 使用秩相关(rank correlation)量化一致性
from scipy.stats import spearmanr
# 在真实表达和重建表达上分别执行 DE 分析,获取 log fold change
lfc_true = compute_lfc(x_true, condition_labels) # 真实数据 LFC
lfc_pred = compute_lfc(x_pred, condition_labels) # 重建数据 LFC
# 计算 Spearman 秩相关
rho, _ = spearmanr(lfc_true, lfc_pred)
# rho 越接近 1,表示重建对差异表达排序的保留越好
步骤四:潜在扰动预测后的重建评测¶
# 在潜在空间执行扰动预测,再重建基因表达
# 适用于基于流(flow-based)的生成模型场景
# 1. 对照条件编码
z_ctrl = E(x_ctrl) # 编码对照细胞
# 2. 在潜在空间应用扰动预测模型(如 flow model)
z_perturbed_pred = flow_model.predict(z_ctrl, perturbation)
# 3. 从预测潜在向量重建基因表达
x_perturbed_pred = D(z_perturbed_pred)
# 4. 与真实扰动表达比较
perturbation_score = evaluate_perturbation(x_perturbed_pred, x_perturbed_true)
步骤五:通路活性评测¶
# 使用基因集打分(如 AUCell 或 ssGSEA)评测通路活性保留
# 在真实表达和重建表达上分别计算通路活性得分,再计算相关性
pathway_scores_true = compute_pathway_scores(x_true, gene_sets) # 真实通路活性
pathway_scores_pred = compute_pathway_scores(x_pred, gene_sets) # 重建通路活性
# 比较两者相关性作为通路活性保留指标
实战示例¶
场景一:选择低维嵌入用于扰动建模¶
背景:研究者希望使用基于流的生成模型(flow-based generative model)预测基因扰动后的细胞状态,并需要解码回基因空间分析差异表达。
ReconEval 结论的应用:根据基准结果,低维 AE 嵌入在此场景下是最优选择——其较低维度对 flow 模型的建模更友好,同时 AE 的非线性解码器能够在低维下保留足够的基因层面信息。
推荐配置:
- 表示:低维 AE(autencoder)嵌入
- 下游模型:flow-based generative model
- 解码器:AE 内置解码器
- 预期优势:低维潜在空间利于流模型学习分布变换,AE 解码器保真度高
场景二:大规模观测数据的表示选择¶
背景:构建大规模单细胞图谱,需要整合多批次数据并最终在基因层面解释细胞状态。
ReconEval 结论的应用:高维 PCA 在潜在扰动建模中与基础模型嵌入表现相当,且计算成本极低。对于主要关注基因表达重建的下游任务,PCA 可作为高效基线,避免不必要的模型复杂度。
场景三:评估基础模型嵌入的重建潜力¶
背景:研究者已获得预训练单细胞基础模型的冻结嵌入,希望评估其基因层面信息含量。
ReconEval 结论的应用:冻结基础模型嵌入保留了可恢复的基因层面信息,但重建质量强烈依赖于解码器架构。建议系统性地测试不同容量的解码器(从线性到多层非线性),并使用 ReconEval 的指标套件量化各解码器对基因信号的恢复程度,再作最终选择。
评测建议:
1. 固定基础模型嵌入(冻结权重)
2. 分别训练:线性解码器 / 浅层 MLP / 深层 MLP
3. 使用 ReconEval 指标评测:统计保真度 + DE 保留 + 通路活性
4. 根据目标任务选择性价比最优的解码器架构
常见问题¶
Q1:为什么 VAE 的变分正则化没有改善重建泛化能力?
A:VAE 的变分正则化通过对潜在空间施加先验约束(通常为标准正态分布),以牺牲一定重建精度换取潜在空间的平滑性与可插值性,其设计初衷并非最大化重建保真度。ReconEval 的基准结果表明,在基因表达重建这一具体任务上,变分正则化带来的平滑化代价超过了其泛化收益,因此 AE(无变分约束)在重建指标上持续优于 VAE。这一发现提示:针对需要高保真重建的下游任务,应优先考虑 AE 而非 VAE。[待验证:不同数据集规模下该结论是否稳定一致]
Q2:预训练基础模型的冻结嵌入是否仍然有价值?
A:有价值,但需配合适当的解码器。ReconEval 发现冻结基础模型嵌入中保留了可恢复的基因层面信息(recoverable gene-level information),说明预训练过程学到了具有生物学内容的表示。然而,该信息能否被有效利用,关键取决于解码器架构的容量与基础模型的预训练目标。若仅使用简单的线性解码器,可能无法充分提取嵌入中的生物学信号;而容量合适的非线性解码器则有望显著提升重建质量。
Q3:高维 PCA 为何能在潜在扰动建模中媲美基础模型嵌入?
A:这一发现反映了一个重要原理:在给定足够维度的情况下,线性表示能够保留大量原始数据的方差结构。高维 PCA 虽然是线性方法,但其高维度使其能够捕捉相当丰富的基因表达变异,为下游扰动模型提供充足的信息。与此同时,基础模型嵌入虽然在表示学习上更为复杂,但在冻结状态下其维度和结构并非针对特定数据集优化,因此不一定具有优势。这也印证了 ReconEval 的核心结论:重建效果取决于表示与下游模型的匹配程度,而非表示方法的绝对复杂度。
Q4:ReconEval 的评测结论是否适用于所有单细胞数据类型?
A:ReconEval 的评测基于覆盖逾 1 亿个细胞的扰动与观测数据集,具备较强的统计代表性,结论的泛化性较为可靠。然而,不同组织类型、测序技术(如 10x Chromium vs. Smart-seq)或细胞稀疏性程度可能对特定指标产生影响。[待验证:不同测序平台或高稀疏数据(如单细胞 ATAC-seq)场景下各方法的相对排名是否保持一致。]
Q5:ReconEval 基准如何指导虚拟细胞模型的开发?
A:ReconEval 将重建质量确立为单细胞基础模型评估的核心轴线(critical evaluation axis)。对于虚拟细胞模型而言,这意味着: 1. 模型验证:预测的细胞状态必须能够解码为可解释的基因层面信息,才能被领域专家验证其生物学合理性。 2. 架构选择:应在设计阶段就将重建能力纳入考量,而非事后补充。 3. 基础模型评测:在现有基准(如细胞类型注释准确率)之外,增加基因层面重建质量作为评测维度,可更全面地反映模型的生物学实用价值。
总结¶
ReconEval 是首个系统评估单细胞潜在表示基因表达重建能力的基准框架,填补了该领域长期缺乏重建质量量化标准的空白。其核心贡献在于:构建覆盖逾 1 亿细胞的多维度评测体系;揭示 AE 在低维独立重建中的优越性;证明 VAE 的变分正则化不改善重建泛化;发现冻结基础模型嵌入的重建质量主要由解码器决定;以及在潜在扰动建模场景中确认高维 PCA 与基础模型嵌入的竞争力。
最重要的方法论启示是:表示与下游模型之间的匹配关系,而非单一表示的绝对复杂度,决定了基因表达重建的最终质量。这一结论对单细胞基础模型的设计、评测与应用均具有直接指导价值,也为未来虚拟细胞模型实现领域专家可验证、生物学可解释的预测奠定了方法论基础。