摘要: 跨物种空间转录组学数据的整合对于比较生物学与转化医学研究至关重要,但由于物种间的分子差异和解剖结构不同,这一任务极具挑战性。本文提出了一种名为STACAME的计算框架,基于图注意力自编码器架构,通过同时建模直系同源基因和物种特异性基因,系统解析跨物种空间转录组数据中共享与差异的组织结构。STACAME能够以空间感知的方式对齐来自不同物种的切片数据,识别同源与物种特异性空间域,并支持一系列下游比较分析。研究者将该框架应用于人类、猕猴、狨猴、小鼠和斑马鱼等多个物种的海马体、大脑皮层、胚胎、乳腺、肝脏和小脑等多种组织的空间转录组数据集,验证了其广泛适用性。STACAME支持跨物种空间域对齐、共享与差异空间可变基因检测、发育过程比对,以及组织三维结构整合等多种分析任务。该方法为将模式生物研究成果转化应用于人类提供了统一的计算平台,推动了跨物种空间转录组学研究的发展。
STACAME:跨物种空间转录组学中共享与差异组织架构解析框架¶
概述¶
空间转录组学(Spatial Transcriptomics, ST)技术能够在保留组织空间位置信息的前提下,对基因表达进行系统性测量。然而,当研究者试图跨物种整合此类数据时,面临两大核心挑战:一是不同物种之间存在显著的分子水平差异(即直系同源基因与物种特异性基因的共存);二是物种间解剖结构本身的异同使得空间对齐极为困难。这两点障碍共同制约了跨物种比较研究与转化医学研究的推进。
STACAME(基于图注意力自编码器的跨物种空间转录组比较分析框架)正是为解决上述问题而提出的计算工具。其核心创新在于:同时对直系同源基因(orthologous genes)和物种特异性基因(species-specific genes)进行显式建模,从而在统一框架内既捕捉跨物种保守的组织架构特征,又保留各物种独有的空间表达模式。
STACAME 的重要性体现在以下几个层面:它打通了从模式生物(如小鼠、斑马鱼)到人类的研究转化路径;支持多组织类型(海马体、大脑皮层、胚胎、乳腺、肝脏、小脑)和多物种(人、猕猴、狨猴、小鼠、斑马鱼)的大规模整合分析;并提供了一套完整的下游比较分析工具链,为跨物种空间转录组学研究提供了统一的计算平台。
核心原理与功能¶
1. 整体架构:图注意力自编码器(Graph Attention Autoencoder)¶
STACAME 的底层模型是图注意力自编码器(Graph Attention Autoencoder, GAAE)。在空间转录组数据中,每个捕获点(spot)或细胞既携带基因表达信息,又具有明确的空间坐标。STACAME 将这些捕获点构建为图结构,节点代表空间位置,边代表空间邻近关系,通过图注意力机制(Graph Attention Network, GAT)对节点的空间上下文进行建模,使得编码过程能够感知局部组织微环境。
自编码器的编码端将高维基因表达压缩为低维潜在表示(latent representation),解码端则尝试重建原始输入。在跨物种场景下,模型的损失函数同时约束两个目标: - 对直系同源基因表达的精准重建,以捕获保守信号; - 对物种特异性基因表达的独立建模,以保留各物种独有的空间模式。
2. 基因集拆分建模:直系同源基因 vs. 物种特异性基因¶
传统跨物种整合方法通常仅使用两个物种共有的直系同源基因,这会丢失大量物种特有的生物学信息。STACAME 的关键设计在于显式区分并分别处理两类基因:
- 直系同源基因(Orthologous Genes):在进化上具有同源关系的基因,其表达模式是跨物种比较的基础。STACAME 利用这类基因驱动跨切片的空间对齐与同源结构域识别。
- 物种特异性基因(Species-Specific Genes):仅在特定物种中存在或显著表达的基因。STACAME 保留这部分信息,用于识别物种独有的空间域(species-specific domains)及物种特有的空间变异基因(spatially variable genes)。
这一设计使得 STACAME 能够同时回答"哪些结构是保守的"和"哪些结构是物种独有的"两类科学问题。
3. 空间感知切片对齐(Spatially Aware Slice Alignment)¶
STACAME 在对齐多个 ST 切片时引入了空间感知机制,即对齐过程不仅依赖基因表达的相似性,还考虑捕获点在组织中的空间位置关系。这避免了纯粹基于表达谱对齐时可能产生的空间不连贯问题,确保同源域在空间上的连续性与合理性。
4. 同源域与物种特异域识别(Homologous and Species-Specific Domain Identification)¶
完成潜在空间的联合学习后,STACAME 对所有物种的捕获点进行聚类,将结果划分为:
- 同源域(Homologous Domains):在多个物种中均存在的、具有相似基因表达特征的空间结构域,反映进化保守的组织架构;
- 物种特异域(Species-Specific Domains):仅在特定物种中出现的空间结构域,体现各物种独特的组织分化或功能区域化。
5. 下游比较分析功能模块¶
STACAME 提供一套完整的下游分析工具,涵盖四大方向:
5.1 跨物种空间域对齐(Cross-Species Spatial Domain Alignment)¶
将不同物种的同一组织的空间域进行逐一对应,明确哪些区域在物种间是保守的,哪些是分化的。已验证的组织类型包括:海马体(hippocampus)、大脑皮层(isocortex)、小脑(cerebellum)、乳腺(breast)和肝脏(liver)。
5.2 共享与差异空间变异基因检测(Detection of Shared and Divergent Spatially Variable Genes, SVGs)¶
空间变异基因(SVGs)是指在组织空间分布上表现出显著异质性的基因。STACAME 能够区分: - 共享 SVGs:在多个物种中均表现出相似空间变异模式的基因; - 差异 SVGs:仅在特定物种中呈现空间变异的基因,可揭示物种间的转录组分化机制。
5.3 发育过程对齐与比较(Development Alignment and Comparison)¶
通过整合胚胎(embryo)等发育阶段的 ST 数据,STACAME 支持跨物种发育轨迹的空间比对,帮助研究者理解发育程序在进化中的保守性与变异性。
5.4 组织架构三维整合(3D Integration of Tissue Architecture)¶
STACAME 支持将多张连续 ST 切片整合为三维组织架构模型,结合跨物种分析,可在三维空间层面比较不同物种的组织结构组织方式。
6. 支持物种与组织类型¶
| 物种 | 组织类型 |
|---|---|
| 人类(Human) | 海马体、大脑皮层、乳腺、肝脏、小脑 |
| 猕猴(Macaque) | 大脑皮层、小脑 |
| 狨猴(Marmoset) | 大脑皮层 |
| 小鼠(Mouse) | 海马体、大脑皮层、胚胎、小脑 |
| 斑马鱼(Zebrafish) | 胚胎 |
关键方法与步骤¶
STACAME 的分析流程可概括为以下主要阶段:
步骤 1:数据准备与基因集划分¶
# 准备各物种的空间转录组数据(AnnData 格式)
# 分别加载目标物种与参考物种的 ST 数据
import anndata
adata_human = anndata.read_h5ad("human_hippocampus.h5ad") # 加载人类海马体数据
adata_mouse = anndata.read_h5ad("mouse_hippocampus.h5ad") # 加载小鼠海马体数据
# 确定直系同源基因列表(通常来自 Ensembl Compara 等数据库)
# 划分直系同源基因集与各物种特异性基因集
orthologous_genes = [...] # 两物种共有直系同源基因列表
human_specific_genes = [...] # 人类特异性基因列表
mouse_specific_genes = [...] # 小鼠特异性基因列表
步骤 2:构建图结构(空间邻域图)¶
# STACAME 内部基于空间坐标为每张切片构建 k 近邻图
# 捕获点(spot)为节点,空间邻接关系为边
# 图注意力机制将在此图结构上进行消息传递
# 具体参数(如 k 值)依据数据分辨率与组织类型调整 [待验证]
步骤 3:联合训练图注意力自编码器¶
# 使用 STACAME 框架对两个物种的切片进行联合训练
# 模型同时学习直系同源基因空间表达的共享潜在表示
# 以及物种特异性基因的独立表示
import stacame
model = stacame.STACAME(
adata_list=[adata_human, adata_mouse], # 输入多物种数据列表
orthologous_genes=orthologous_genes, # 指定直系同源基因
species_specific_genes=[human_specific_genes,
mouse_specific_genes] # 指定各物种特异性基因
)
model.train() # 执行联合训练,学习跨物种潜在表示
注意:以上代码结构依据论文描述的方法框架整理,具体 API 参数名称以官方代码库文档为准 [待验证]。
步骤 4:空间域识别与对齐¶
# 在联合潜在空间中进行聚类,识别同源域与物种特异域
model.identify_domains() # 执行空间域聚类
model.align_domains() # 跨物种空间域对齐
# 获取每个捕获点的域标签
human_labels = adata_human.obs["domain_label"] # 人类切片域标签
mouse_labels = adata_mouse.obs["domain_label"] # 小鼠切片域标签
步骤 5:差异空间变异基因分析¶
# 检测共享与差异空间变异基因(SVGs)
svg_results = model.find_spatially_variable_genes(
mode="comparative" # 比较模式:同时检测共享 SVG 与物种特异 SVG
)
shared_svgs = svg_results["shared"] # 共享空间变异基因列表
divergent_svgs = svg_results["divergent"] # 差异空间变异基因列表
步骤 6:三维组织架构重建(可选)¶
# 若有多张连续切片,可整合为 3D 组织架构
model_3d = stacame.STACAME3D(
slice_list=[adata_slice1, adata_slice2, adata_slice3], # 连续切片列表
species="human" # 指定物种
)
model_3d.reconstruct() # 三维重建
实战示例¶
示例 1:人类与小鼠海马体空间域保守性分析¶
研究背景:海马体是学习与记忆的核心脑区,其内部分层结构(如齿状回 DG、CA1、CA2、CA3 等亚区)在哺乳动物中高度保守,但在细胞组成与基因表达上存在物种差异。
分析目标:利用 STACAME 识别人类与小鼠海马体的同源空间域,并发现物种特异的转录组特征区域。
预期结果: - 同源域对应关系揭示人鼠海马体亚区的进化保守性; - 物种特异域揭示人类海马体中灵长类特有的转录组微环境; - 差异 SVGs 可作为物种间海马体功能差异研究的候选基因。
示例 2:跨物种大脑皮层发育轨迹比较(人类 vs. 猕猴 vs. 狨猴 vs. 小鼠)¶
研究背景:大脑皮层(isocortex)的发育是神经科学中的核心议题。灵长类(人、猕猴、狨猴)与啮齿类(小鼠)在皮层发育时序与区域化模式上存在显著差异。
分析目标:将四个物种的皮层 ST 数据整合至统一框架,比对皮层分层结构(如 L1–L6 各层)的保守性,识别灵长类特有的皮层区域。
预期结果: - 跨物种空间域对齐图谱展示皮层各层对应关系; - 共享 SVGs 揭示皮层层特异性表达的保守基因模块; - 灵长类特异域及其 SVGs 为理解人类皮层复杂化提供分子线索。
示例 3:人类与斑马鱼胚胎发育空间比对¶
研究背景:斑马鱼是重要的发育生物学模式生物,但其与人类在体型、发育速度及器官发生上差异巨大,直接比较极具挑战性。
分析目标:将人类胚胎与斑马鱼胚胎的 ST 数据通过 STACAME 进行发育阶段对齐,识别在早期发育中保守的空间基因表达模块。
预期结果: - 识别在两个物种胚胎中均表现出保守空间模式的发育基因集; - 差异域揭示各物种胚胎特有的器官发生区域; - 为利用斑马鱼模型研究人类发育疾病提供空间转录组层面的依据。
常见问题¶
Q1:STACAME 对输入数据有哪些基本要求?
A:STACAME 需要输入包含以下信息的空间转录组数据:(1)各捕获点的基因表达矩阵;(2)各捕获点在组织切片中的二维空间坐标。数据格式通常为 AnnData(.h5ad)。此外,用户需要预先准备好跨物种的直系同源基因对应表(ortholog mapping table),这通常可从 Ensembl Compara、OrthoFinder 等公共数据库获取 [待验证]。
Q2:STACAME 与现有跨物种整合方法(如 Seurat、Harmony)有何本质区别?
A:现有方法(如 Seurat 的 CCA 整合、Harmony)通常只使用直系同源基因,且在整合时忽略空间位置信息,本质上是纯转录组层面的批次校正。STACAME 的核心区别在于:(1)同时建模直系同源基因与物种特异性基因,不丢失物种独有信息;(2)引入空间感知机制,通过图注意力网络在对齐过程中显式利用空间坐标,保证对齐结果的空间连贯性;(3)专门针对跨物种场景设计,能够区分同源域与物种特异域,而非简单消除批次效应。
Q3:STACAME 支持两个以上物种同时整合吗?
A:根据论文描述,STACAME 已在多物种场景下进行了验证,包括人类、猕猴、狨猴、小鼠、斑马鱼五个物种的数据整合实验,表明框架设计支持多物种同时输入 [待验证具体上限]。多物种整合时,直系同源基因的定义需扩展为多物种共有的直系同源基因集合,物种特异性基因则分别独立建模。
Q4:如何解读"同源域"与"物种特异域"的生物学意义?
A:同源域(Homologous Domains) 意味着在该区域内,不同物种的细胞在空间排布和基因表达上高度相似,反映了进化上保守的组织结构和功能区域化,例如海马体的 CA1 区在人鼠中均存在类似的转录组特征。物种特异域(Species-Specific Domains) 则意味着该区域的空间结构或基因表达模式在某一物种中独有,可能对应于该物种进化过程中出现的新型细胞类型、特化功能区域,或发育程序的改变,具有重要的进化与转化医学研究价值。
Q5:STACAME 产生的分析结果如何用于转化医学研究?
A:STACAME 的设计初衷之一即是促进从模式生物到人类的知识转化。具体路径包括:(1)通过同源域对应关系,将在小鼠模型中发现的疾病相关空间基因表达模式映射到人类对应区域,验证其保守性;(2)利用共享 SVGs,在人类数据中验证模式生物中发现的空间调控基因是否同样呈现保守的空间分布;(3)通过差异 SVGs 和物种特异域,识别人类特有的组织特征,补充动物模型无法覆盖的人类疾病相关区域。这为靶点验证、病理机制研究等提供空间分辨率层面的跨物种依据。
总结¶
STACAME 是一个专为跨物种空间转录组学整合设计的图注意力自编码器框架,其核心贡献在于通过显式区分直系同源基因与物种特异性基因,在统一计算平台内同时解析跨物种组织架构的保守性与差异性。框架支持空间感知切片对齐、同源域与物种特异域识别、共享与差异空间变异基因检测、发育轨迹跨物种比对,以及三维组织架构重建等多种下游分析。已在海马体、大脑皮层、胚胎、乳腺、肝脏、小脑等多种组织,以及人类、猕猴、狨猴、小鼠、斑马鱼等多个物种上得到验证。STACAME 为转化医学研究提供了重要工具:研究者可借助它将模式生物的空间转录组发现系统性地与人类数据进行比对,加速从基础发现到临床应用的知识转化。