摘要: 空间转录组学技术极大地推动了空间基因表达分析的发展，但如何整合来自异质样本的空间信息并实现跨平台数据生成仍是重大挑战。本文提出GenOT——一种生成式框架，将多尺度图自监督对比学习与最优传输重心理论相结合，用于实现高效的跨切片、跨平台时空插值。GenOT的核心创新在于引入了基于最优传输重心的插值算法，通过数学建模量化异质样本间的空间分布差异，从而重建时空基因表达动态。该框架在空间域识别、跨平台插值及发育轨迹重建等多项任务上经过系统评估，均优于现有方法。GenOT为整合多来源空间转录组数据、探索细胞空间组织的动态变化提供了一种具有理论支撑的生成式解决方案，有望在发育生物学和疾病机制研究中发挥重要作用。

GenOT：生成式最优传输框架实现跨平台空间转录组学的时空插值与生成¶

概述¶

空间转录组学（Spatial Transcriptomics）技术通过在组织切片上原位测量基因表达，彻底改变了研究人员解析细胞空间组织与功能的方式。然而，在实际应用中，研究人员面临两大核心挑战：一是如何有效整合来自不同平台（如 10x Visium、Slide-seq、MERFISH 等）的空间信息，二是如何跨异质样本生成具有生物学意义的时空基因表达数据。现有方法在处理跨切片（cross-slice）与跨平台（cross-platform）的分布差异时往往力不从心，难以重建连续的时空基因表达动态。

GenOT（Generative Optimal Transport）是一个生成式计算框架，专为解决上述问题而设计。它将多尺度图自监督对比学习（multi-scale graph self-supervised contrastive learning）与最优传输重心理论（optimal transport barycenter theory）相结合，构建了一套数学上严谨、计算上高效的跨切片与跨平台时空插值体系。其核心创新在于引入基于最优传输重心的插值算法，通过对异质样本间空间分布差异进行数学建模，实现时空基因表达动态的精确重建。

大规模评估结果显示，GenOT 在空间域识别（spatial domain identification）、跨平台插值（cross-platform interpolation）以及发育轨迹重建（developmental trajectory reconstruction）三大核心任务上均持续优于现有方法。该框架的发布为多样本、多平台空间转录组学数据的整合分析提供了重要工具支撑。

核心原理与功能¶

1. 整体框架设计¶

GenOT 是一个生成式框架（generative framework），其设计目标是同时解决两个关联问题：

时空插值（spatiotemporal interpolation）：在已有的离散时间点或空间切片之间，生成中间状态的基因表达分布，从而重建连续的发育或空间过渡过程。
跨平台数据生成（cross-platform data generation）：在技术平台不同、分辨率不同、覆盖基因集不同的样本之间实现数据的相互转换与对齐。

框架的两大核心模块分别承担表征学习与分布对齐任务，二者协同工作，形成端到端的生成管线。

2. 多尺度图自监督对比学习（Multi-scale Graph Self-supervised Contrastive Learning）¶

基本思路： 空间转录组数据天然具有图结构——每个 spot 或细胞可被视为图的节点，其空间邻近关系构成边。GenOT 利用图神经网络（Graph Neural Network, GNN）对这种结构进行建模，并在自监督（self-supervised）框架下进行预训练，无需依赖大量人工标注。

多尺度（multi-scale）设计： 单一尺度的图卷积只能捕获局部邻域的基因表达模式，而细胞的功能状态往往受到更大范围的微环境影响。多尺度设计通过在不同感受野（receptive field）层次上提取特征，同时捕获局部细胞间相互作用与全局组织结构信息，从而生成更具判别力的空间表征（spatial representation）。

对比学习（contrastive learning）目标： 通过对同一切片的不同增广视图（augmented views）施加对比损失，使模型学会在不同批次效应（batch effects）和技术噪声下保持一致的生物学表征，提升跨样本的特征可比性。

3. 最优传输重心插值算法（Optimal Transport Barycenter-based Interpolation Algorithm）¶

这是 GenOT 最核心的技术创新，也是其区别于其他方法的关键所在。

最优传输（Optimal Transport, OT）基础： 最优传输理论研究如何以最小代价将一个概率分布"搬运"到另一个概率分布，其解称为最优传输映射（optimal transport map）或 Wasserstein 距离。相比欧氏空间中的简单均值，OT 框架能够更忠实地保留分布的几何结构。

重心（Barycenter）概念： 在多个概率分布之间定义 Wasserstein 重心，即找到一个分布，使其到所有给定分布的加权 Wasserstein 距离之和最小。数学上，给定分布集合 ${\mu_1, \mu_2, \ldots, \mu_n}$ 与权重 ${\lambda_1, \lambda_2, \ldots, \lambda_n}$，Wasserstein 重心 $\bar{\mu}$ 满足：

$$\bar{\mu} = \arg\min_{\mu} \sum_{i=1}^{n} \lambda_i W_2^2(\mu, \mu_i)$$

在时空插值中的应用： 将不同时间点或不同切片的基因表达空间分布视为概率分布，通过调整插值权重 $\lambda_i$，可以在两个（或多个）分布之间生成连续的中间状态，从而数学上严格地重建时空基因表达动态。这种方式能够正确处理细胞群体的出现、消失与迁移，而非简单地对基因表达值进行线性加权平均，避免了传统插值方法产生的生物学上不合理的"幻影"细胞群。

异质样本建模： GenOT 明确地对异质样本（heterogeneous samples）之间的空间分布差异进行数学建模，而不是将其视为需要"消除"的噪声，这使得框架能够在保留样本特异性生物学信息的同时实现跨样本的可比性。

4. 三大核心任务能力¶

任务	说明	技术挑战
空间域识别（Spatial Domain Identification）	从空间基因表达中自动划分具有不同功能的组织区域	需要同时考虑基因表达相似性与空间连续性
跨平台插值（Cross-platform Interpolation）	在分辨率、测序深度、基因覆盖度不同的平台间转换数据	平台间系统性技术偏差与生物学变异的解耦
发育轨迹重建（Developmental Trajectory Reconstruction）	从多个时间点切片中还原细胞分化的连续动态过程	离散样本的时间序对齐与中间状态生成

关键方法与步骤¶

原文为论文摘要，未提供代码仓库或安装命令，以下内容基于论文描述的方法流程整理。如需完整代码，请参考论文原文附带的补充材料或官方代码库 [待验证]。

方法流程概览¶

GenOT 的完整分析管线可概括为以下步骤：

# ===== GenOT 分析管线（概念性步骤描述）=====

# 步骤 1：数据准备
# 输入：多个空间转录组学切片（可来自不同平台、不同时间点）
# 每个切片包含：spot/cell 坐标 + 基因表达矩阵

# 步骤 2：多尺度图构建
# 基于空间坐标为每个切片构建 k-近邻图（k-NN graph）
# 在不同 k 值下构建多个尺度的图，捕获局部与全局结构

# 步骤 3：图自监督对比预训练
# 使用多尺度 GNN 对每个切片进行编码
# 对比学习目标：最大化同一 spot 不同增广视图之间的特征一致性
# 输出：每个 spot 的低维空间表征向量（spatial embedding）

# 步骤 4：最优传输重心插值
# 将各切片的 spot 分布视为离散概率测度（discrete probability measure）
# 给定插值权重 lambda，计算 Wasserstein 重心
# 重心即为插值位置的生成分布

# 步骤 5：下游分析
# 5a：空间域识别 —— 对 embedding 进行聚类，得到空间功能区域
# 5b：跨平台插值 —— 利用重心映射实现平台间数据转换
# 5c：发育轨迹重建 —— 沿时间轴连续采样重心，还原分化动态

核心算法：最优传输重心计算¶

# ===== 最优传输重心插值核心逻辑（伪代码）=====

# 输入：
#   source_distribution: 源切片的 spot 分布（含坐标与表达矩阵）
#   target_distribution: 目标切片的 spot 分布
#   lambda: 插值系数，取值范围 [0, 1]
#           lambda=0 对应源分布，lambda=1 对应目标分布
#           中间值生成插值状态

# 输出：
#   interpolated_distribution: 插值后的中间状态分布

# 算法步骤：
# 1. 计算源分布与目标分布之间的最优传输映射 T*
#    min_{T} sum_{i,j} C(x_i, y_j) * T_{ij}
#    其中 C(x_i, y_j) 为两点之间的代价函数（如欧氏距离或特征距离）

# 2. 基于 T* 与权重 lambda 构建 Wasserstein 重心
#    barycenter = argmin_{mu} lambda * W2(mu, source) +
#                             (1-lambda) * W2(mu, target)

# 3. 从重心分布中采样，生成插值切片的 spot 位置与表达值

# 多时间点扩展：
# 给定 n 个时间点切片 {mu_1, ..., mu_n}，权重向量 {w_1, ..., w_n}
# 重心 = argmin_{mu} sum_i w_i * W2^2(mu, mu_i)

评估指标¶

# ===== GenOT 评估所用核心指标 =====

# 1. 空间域识别评估
#    - ARI（Adjusted Rand Index，调整兰德指数）：衡量聚类与真实标注的一致性
#    - NMI（Normalized Mutual Information，归一化互信息）

# 2. 跨平台插值评估
#    - 插值切片与参考切片之间的基因表达相关性
#    - 空间分布的 Wasserstein 距离（越小越好）

# 3. 发育轨迹重建评估
#    - 轨迹拓扑与已知发育路径的一致性
#    - 关键标志基因（marker genes）的时序表达模式还原度

实战示例¶

场景一：跨平台空间转录组数据插值¶

背景： 研究人员同时拥有同一组织的 10x Visium 数据（低分辨率，约 55μm spot 间距）与 Slide-seq v2 数据（高分辨率，约 10μm bead 间距），希望借助 GenOT 在两者之间生成中间分辨率的数据，或将低分辨率平台数据"升级"为高分辨率。

GenOT 解决方案： 1. 分别对两个平台的切片构建多尺度空间图，提取对比学习表征 2. 以 Visium 分布为源（source），Slide-seq 分布为目标（target） 3. 通过最优传输映射建立两平台间的 spot 对应关系 4. 利用重心插值在任意中间分辨率下生成基因表达预测 5. 输出的插值数据可直接用于下游的差异表达分析、细胞类型去卷积等

场景二：胚胎发育时空轨迹重建¶

背景： 小鼠胚胎发育数据包含 E10.5、E12.5、E14.5 三个时间点的空间转录组切片，研究人员希望重建 E10.5 到 E14.5 之间的连续基因表达动态，尤其是神经管闭合过程中的细胞迁移轨迹。

GenOT 解决方案： 1. 将三个时间点的切片视为三个离散概率分布 $\mu_{E10.5}$、$\mu_{E12.5}$、$\mu_{E14.5}$ 2. 构建多时间点最优传输重心框架，时间权重按比例分配 3. 在任意中间时间点（如 E11.0、E11.5 等）计算对应的 Wasserstein 重心 4. 从重心分布采样得到该时间点的预测 spot 分布与基因表达矩阵 5. 连接各时间点的重心序列，形成连续发育轨迹 6. 可视化关键发育调控基因（如 Sox2、Pax6）沿轨迹的表达变化

场景三：空间域精细识别¶

背景： 人类大脑皮层空间转录组数据中，需要精确区分六层皮层结构（Layer I–VI）及白质区域。

GenOT 解决方案： 1. 多尺度图对比学习自动提取兼顾局部细胞组成与全局层状结构的 embedding 2. 对 embedding 进行图聚类（graph clustering），自动识别空间域边界 3. 与 DLPFC（背外侧前额叶皮层）金标准分层注释对比，ARI 指标优于现有方法 [待验证具体数值]

常见问题¶

Q1：GenOT 与 Seurat、Harmony 等常用整合工具有何本质区别？

A：Seurat CCA、Harmony 等工具的核心逻辑是将不同批次的数据映射到一个共同的低维空间，主要针对基因表达矩阵层面的批次效应校正，不显式建模空间分布的几何结构。GenOT 的关键区别在于：（1）将空间分布差异视为需要被数学建模的信号而非噪声；（2）最优传输重心插值能够生成现有样本中不存在的中间状态数据；（3）专门针对空间转录组的图结构设计了多尺度对比学习模块。

Q2：最优传输计算的计算复杂度是否会成为瓶颈？

A：标准最优传输问题的精确求解复杂度较高（对 $n$ 个点为 $O(n^3 \log n)$），对于大规模空间转录组数据（数万至数十万个 spot）可能存在计算压力。GenOT 论文中描述其框架具有"高效性"（efficient），推测采用了熵正则化最优传输（entropic regularized OT，如 Sinkhorn 算法）或其他近似方法来降低计算复杂度，但具体实现细节需参考原文补充材料 [待验证]。

Q3：GenOT 对输入数据格式有何要求？是否支持不同基因集的切片整合？

A：原文明确提到 GenOT 处理"跨平台"（cross-platform）数据，暗示其具备处理不同基因覆盖度切片的能力。不同平台（如基于测序的 Visium 与基于原位成像的 MERFISH）测量的基因集存在较大差异，GenOT 在多尺度图表征阶段和最优传输映射阶段应当对此有所处理，具体的基因集对齐策略（如仅使用共同基因、基因填补等）请参考原文方法部分 [待验证]。

Q4：GenOT 在发育轨迹重建中如何保证插值结果的生物学合理性？

A：传统线性插值对基因表达值直接加权平均，可能产生不对应任何真实细胞类型的"混合"表达谱。GenOT 使用 Wasserstein 重心进行插值，在概率分布层面而非个体基因表达值层面进行"搬运"，保留了细胞群体的离散结构。这意味着插值结果中的细胞仍然聚集为有意义的细胞类型，而非弥散的中间态，从而在数学上保证了更好的生物学合理性。

Q5：GenOT 能否用于单细胞分辨率（single-cell resolution）的空间转录组数据？

A：原文描述的框架针对空间转录组学的通用性挑战，理论上适用于 spot 级别（如 Visium）和单细胞级别（如 Slide-seq v2、STARmap、MERFISH）的数据。多尺度图构建的策略对不同分辨率均适用，但在实际应用中，单细胞分辨率数据的点云密度更高，对最优传输计算的效率要求也更高。建议在实际使用前参考原文的实验设置部分 [待验证]。

总结¶

GenOT 是一个面向空间转录组学异质样本整合问题的生成式计算框架，其核心贡献体现在两个层面：表征层面，通过多尺度图自监督对比学习提取能够跨平台泛化的空间基因表达表征；生成层面，首次将最优传输重心理论引入空间转录组的时空插值，实现了数学上严格、生物学上合理的中间状态生成。相比现有方法，GenOT 在空间域识别、跨平台数据整合与发育轨迹重建三大基准任务上均取得了更优异的表现，为多时间点、多平台空间转录组学研究提供了一个统一的分析框架。对于需要整合异质空间转录组数据或重建连续时空表达动态的研究人员，GenOT 是值得重点关注的方法论进展。