摘要: 单细胞转录组学通常依赖低维潜在表示来提升数据信噪比，这类表示广泛应用于数据整合、细胞状态发现及扰动预测等任务。然而，从潜在空间重建基因表达对生物学解释至关重要，却长期缺乏系统性评估。为此，本研究提出 ReconEval——一个专门评估单细胞潜在空间基因表达重建能力的基准框架。该基准涵盖两类潜在表示：端到端训练模型（PCA、自编码器、变分自编码器）以及结合新训练解码器的预训练单细胞基础模型嵌入。评估涉及超过1亿细胞的扰动与观测数据集，指标体系涵盖统计保真度、生物信号保留（差异表达、共表达、细胞周期结构、细胞因子响应及通路活性）以及扰动特异性效应。主要发现如下：自编码器在低维场景下重建效果最优，变分正则化并不提升泛化能力；冻结的基础模型嵌入保留了可恢复的基因层级信息，但重建质量高度依赖解码器架构与预训练目标；在潜在扰动建模中，高维PCA与基础模型嵌入表现相当。研究表明，重建质量取决于表示与下游模型的协同配合，较简单的表示在适当容量下可优于复杂方案。该基准为单细胞基础模型提供了重建这一关键评估维度，有助于提升虚拟细胞模型的生物学可解释性。

单细胞潜在表示基因表达重建的基准评测：ReconEval¶

概述¶

单细胞转录组学（single-cell transcriptomics）研究的核心任务之一是将高维基因表达数据压缩至低维潜在表示（latent representation），以提升信噪比并支持下游分析。这些低维表示是数据整合（data integration）、细胞状态发现（cell state discovery）以及扰动预测（perturbation prediction）的基础，应用场景覆盖大规模器官图谱（organ atlas）构建到潜在轨迹建模（latent trajectory modeling）。

然而，一个长期被忽视的关键问题是：从这些潜在表示重建原始基因表达的能力究竟如何？ 在虚拟细胞（virtual cell）研究范式中，模型需要预测细胞在扰动或批次校正后的响应，并在潜在空间中以分布偏移（distributional shift）的形式表达——而这些预测最终必须还原为可解释的基因层面信息，才能真正服务于生物学分析。

尽管如此，潜在表示的选择通常被视为实现细节，而非首要建模决策，目前也缺乏对潜在表示支持基因表达重建能力的系统性评估。

为填补这一空白，研究团队提出了 ReconEval——一个专门用于评测单细胞潜在空间基因表达重建质量的基准框架。该基准覆盖逾 1 亿个细胞，从统计保真度、生物信号保留与扰动特异性效应三个维度对多类模型进行全面评测，旨在将重建质量确立为单细胞基础模型评估的核心轴线。

核心原理与功能¶

1. 问题背景与动机¶

在单细胞分析流程中，典型做法是先将原始表达矩阵嵌入低维潜在空间，再在该空间中执行聚类、轨迹推断或扰动预测等操作，最后将结果解码回基因空间以供生物学解读。近年来兴起的虚拟细胞（virtual cell）方法进一步在潜在空间中对细胞响应进行建模，要求从扰动后的潜在表示准确重建基因表达谱。

然而，"表示选择"对重建质量的影响此前从未被系统量化。研究者往往依赖经验或惯例选择 PCA、VAE 或预训练基础模型，而忽视了不同表示在基因层面重建能力上的本质差异。

2. 两大类潜在表示¶

ReconEval 对两类潜在表示进行基准评测：

第一类：端到端训练模型（End-to-End Trained Models）

此类模型在目标数据集上从头训练，编码器与解码器联合优化：

PCA（主成分分析，Principal Component Analysis）：线性降维方法，作为基线模型，在高维设置下表现值得关注。
AE（自编码器，Autoencoder）：非线性编解码结构，能够捕捉基因表达的复杂非线性关系。在低维设置下取得最优独立重建性能。
VAE（变分自编码器，Variational Autoencoder）：在 AE 基础上引入变分正则化（variational regularization），对潜在空间施加概率约束。评测结果表明，变分正则化并不提升重建泛化能力。

第二类：预训练单细胞基础模型嵌入 + 新训练解码器（Pretrained Foundation Model Embeddings with Newly Trained Decoders）

此类方法使用冻结（frozen）的预训练基础模型生成嵌入，再在嵌入之上单独训练解码器进行基因表达重建：

基础模型权重在评测期间保持冻结，不参与微调。
重建质量强烈依赖于解码器架构与基础模型的预训练目标（pretraining objective）。
冻结的基础模型嵌入依然保留了可恢复的基因层面信息（recoverable gene-level information），说明嵌入本身具有生物学内容，但其可及性取决于解码器容量。

3. 评测指标体系¶

ReconEval 构建了一套多维度指标套件（metric suite），涵盖以下三个层次：

（1）统计保真度（Statistical Fidelity）

量化重建基因表达与真实表达在统计分布层面的一致性，包括均值、方差及相关结构的保留程度。

（2）生物信号保留（Biological Signal Preservation）

评测重建结果是否保留了关键生物学信号，具体包括：

差异表达（Differential Expression, DE）：重建后的基因表达能否再现原始差异表达基因的排序与显著性。
共表达结构（Coexpression）：基因之间的共表达关系是否在重建后得到保持。
细胞周期结构（Cell-Cycle Structure）：细胞周期相关基因的表达模式是否可被正确重建。
细胞因子响应（Cytokine Response）：与细胞因子刺激相关的转录响应特征的重建质量。
通路活性（Pathway Activity）：基因集合层面的通路激活信号是否得以保留。

（3）扰动特异性效应（Perturbation-Specific Effects）

专门评估在潜在空间中执行扰动预测（latent perturbation modeling）后，重建结果能否准确反映扰动引起的特异性基因表达变化。

4. 数据规模¶

评测覆盖扰动数据集（perturbational datasets）与观测数据集（observational datasets）两类，细胞总量逾 1 亿个（over 100 million cells），确保了基准结论的统计稳健性与跨场景泛化性。

5. 核心发现¶

场景	最优方法	关键结论
低维独立重建	AE（自编码器）	在低维度下取得最强重建性能
变分正则化效果	—	VAE 的变分正则化不改善重建泛化
潜在扰动建模（高维）	高维 PCA	与基础模型嵌入性能相当
潜在扰动建模（流模型）	低维 AE 嵌入	对基于流（flow-based）的生成模型最优
基础模型嵌入	依赖解码器架构	冻结嵌入保留可恢复基因信息，质量受解码器主导

总体结论：重建质量关键取决于表示与下游模型之间的相互作用，在匹配适当容量（capacity）的情况下，更简单的表示可以超越更复杂的替代方案。

关键方法与步骤¶

由于 ReconEval 是一个基准框架，以下整理其核心评测流程与方法步骤：

步骤一：准备潜在表示¶

# 端到端训练模型路径：在目标数据集上训练编码器
# 以 AE（自编码器）为例，训练编码器 E 和解码器 D

# 训练阶段
z = E(x)           # 将原始表达 x 编码为潜在向量 z
x_hat = D(z)       # 从潜在向量解码重建基因表达 x_hat
loss = recon_loss(x, x_hat)  # 计算重建损失（如 MSE 或负对数似然）

# 预训练基础模型路径：冻结嵌入 + 独立训练解码器
# 基础模型权重冻结，仅训练解码器 D_new

with torch.no_grad():
    z_frozen = foundation_model.encode(x)  # 生成冻结的基础模型嵌入

x_hat = D_new(z_frozen)    # 新训练的解码器进行重建
loss = recon_loss(x, x_hat)  # 仅优化解码器参数

步骤二：执行重建评测（统计保真度）¶

# 计算重建与真实表达之间的统计一致性
import numpy as np
from scipy.stats import pearsonr

# 基因层面均值相关性
mean_true = x_true.mean(axis=0)    # 真实表达均值（每个基因）
mean_pred = x_pred.mean(axis=0)    # 重建表达均值（每个基因）
r_mean, _ = pearsonr(mean_true, mean_pred)  # Pearson 相关系数

# 基因层面方差相关性
var_true = x_true.var(axis=0)      # 真实表达方差
var_pred = x_pred.var(axis=0)      # 重建表达方差
r_var, _ = pearsonr(var_true, var_pred)

步骤三：评测生物信号保留（差异表达）¶

# 差异表达评测：比较真实 DE 基因排序与重建后 DE 基因排序
# 使用秩相关（rank correlation）量化一致性

from scipy.stats import spearmanr

# 在真实表达和重建表达上分别执行 DE 分析，获取 log fold change
lfc_true = compute_lfc(x_true, condition_labels)   # 真实数据 LFC
lfc_pred = compute_lfc(x_pred, condition_labels)   # 重建数据 LFC

# 计算 Spearman 秩相关
rho, _ = spearmanr(lfc_true, lfc_pred)
# rho 越接近 1，表示重建对差异表达排序的保留越好

步骤四：潜在扰动预测后的重建评测¶

# 在潜在空间执行扰动预测，再重建基因表达
# 适用于基于流（flow-based）的生成模型场景

# 1. 对照条件编码
z_ctrl = E(x_ctrl)            # 编码对照细胞

# 2. 在潜在空间应用扰动预测模型（如 flow model）
z_perturbed_pred = flow_model.predict(z_ctrl, perturbation)

# 3. 从预测潜在向量重建基因表达
x_perturbed_pred = D(z_perturbed_pred)

# 4. 与真实扰动表达比较
perturbation_score = evaluate_perturbation(x_perturbed_pred, x_perturbed_true)

步骤五：通路活性评测¶

# 使用基因集打分（如 AUCell 或 ssGSEA）评测通路活性保留
# 在真实表达和重建表达上分别计算通路活性得分，再计算相关性

pathway_scores_true = compute_pathway_scores(x_true, gene_sets)  # 真实通路活性
pathway_scores_pred = compute_pathway_scores(x_pred, gene_sets)  # 重建通路活性

# 比较两者相关性作为通路活性保留指标

实战示例¶

场景一：选择低维嵌入用于扰动建模¶

背景：研究者希望使用基于流的生成模型（flow-based generative model）预测基因扰动后的细胞状态，并需要解码回基因空间分析差异表达。

ReconEval 结论的应用：根据基准结果，低维 AE 嵌入在此场景下是最优选择——其较低维度对 flow 模型的建模更友好，同时 AE 的非线性解码器能够在低维下保留足够的基因层面信息。

推荐配置：
- 表示：低维 AE（autencoder）嵌入
- 下游模型：flow-based generative model
- 解码器：AE 内置解码器
- 预期优势：低维潜在空间利于流模型学习分布变换，AE 解码器保真度高

场景二：大规模观测数据的表示选择¶

背景：构建大规模单细胞图谱，需要整合多批次数据并最终在基因层面解释细胞状态。

ReconEval 结论的应用：高维 PCA 在潜在扰动建模中与基础模型嵌入表现相当，且计算成本极低。对于主要关注基因表达重建的下游任务，PCA 可作为高效基线，避免不必要的模型复杂度。

推荐配置：
- 表示：高维 PCA
- 适用场景：大规模图谱构建、批次校正后重建
- 注意事项：高维 PCA 适合扰动建模，低维场景下 AE 更优

场景三：评估基础模型嵌入的重建潜力¶

背景：研究者已获得预训练单细胞基础模型的冻结嵌入，希望评估其基因层面信息含量。

ReconEval 结论的应用：冻结基础模型嵌入保留了可恢复的基因层面信息，但重建质量强烈依赖于解码器架构。建议系统性地测试不同容量的解码器（从线性到多层非线性），并使用 ReconEval 的指标套件量化各解码器对基因信号的恢复程度，再作最终选择。

评测建议：
1. 固定基础模型嵌入（冻结权重）
2. 分别训练：线性解码器 / 浅层 MLP / 深层 MLP
3. 使用 ReconEval 指标评测：统计保真度 + DE 保留 + 通路活性
4. 根据目标任务选择性价比最优的解码器架构

常见问题¶

Q1：为什么 VAE 的变分正则化没有改善重建泛化能力？

A：VAE 的变分正则化通过对潜在空间施加先验约束（通常为标准正态分布），以牺牲一定重建精度换取潜在空间的平滑性与可插值性，其设计初衷并非最大化重建保真度。ReconEval 的基准结果表明，在基因表达重建这一具体任务上，变分正则化带来的平滑化代价超过了其泛化收益，因此 AE（无变分约束）在重建指标上持续优于 VAE。这一发现提示：针对需要高保真重建的下游任务，应优先考虑 AE 而非 VAE。[待验证：不同数据集规模下该结论是否稳定一致]

Q2：预训练基础模型的冻结嵌入是否仍然有价值？

A：有价值，但需配合适当的解码器。ReconEval 发现冻结基础模型嵌入中保留了可恢复的基因层面信息（recoverable gene-level information），说明预训练过程学到了具有生物学内容的表示。然而，该信息能否被有效利用，关键取决于解码器架构的容量与基础模型的预训练目标。若仅使用简单的线性解码器，可能无法充分提取嵌入中的生物学信号；而容量合适的非线性解码器则有望显著提升重建质量。

Q3：高维 PCA 为何能在潜在扰动建模中媲美基础模型嵌入？

A：这一发现反映了一个重要原理：在给定足够维度的情况下，线性表示能够保留大量原始数据的方差结构。高维 PCA 虽然是线性方法，但其高维度使其能够捕捉相当丰富的基因表达变异，为下游扰动模型提供充足的信息。与此同时，基础模型嵌入虽然在表示学习上更为复杂，但在冻结状态下其维度和结构并非针对特定数据集优化，因此不一定具有优势。这也印证了 ReconEval 的核心结论：重建效果取决于表示与下游模型的匹配程度，而非表示方法的绝对复杂度。

Q4：ReconEval 的评测结论是否适用于所有单细胞数据类型？

A：ReconEval 的评测基于覆盖逾 1 亿个细胞的扰动与观测数据集，具备较强的统计代表性，结论的泛化性较为可靠。然而，不同组织类型、测序技术（如 10x Chromium vs. Smart-seq）或细胞稀疏性程度可能对特定指标产生影响。[待验证：不同测序平台或高稀疏数据（如单细胞 ATAC-seq）场景下各方法的相对排名是否保持一致。]

Q5：ReconEval 基准如何指导虚拟细胞模型的开发？

A：ReconEval 将重建质量确立为单细胞基础模型评估的核心轴线（critical evaluation axis）。对于虚拟细胞模型而言，这意味着： 1. 模型验证：预测的细胞状态必须能够解码为可解释的基因层面信息，才能被领域专家验证其生物学合理性。 2. 架构选择：应在设计阶段就将重建能力纳入考量，而非事后补充。 3. 基础模型评测：在现有基准（如细胞类型注释准确率）之外，增加基因层面重建质量作为评测维度，可更全面地反映模型的生物学实用价值。

总结¶

ReconEval 是首个系统评估单细胞潜在表示基因表达重建能力的基准框架，填补了该领域长期缺乏重建质量量化标准的空白。其核心贡献在于：构建覆盖逾 1 亿细胞的多维度评测体系；揭示 AE 在低维独立重建中的优越性；证明 VAE 的变分正则化不改善重建泛化；发现冻结基础模型嵌入的重建质量主要由解码器决定；以及在潜在扰动建模场景中确认高维 PCA 与基础模型嵌入的竞争力。

最重要的方法论启示是：表示与下游模型之间的匹配关系，而非单一表示的绝对复杂度，决定了基因表达重建的最终质量。这一结论对单细胞基础模型的设计、评测与应用均具有直接指导价值，也为未来虚拟细胞模型实现领域专家可验证、生物学可解释的预测奠定了方法论基础。