摘要: 空间多组学技术在解析复杂生物学过程方面潜力巨大,但技术限制使得大多数研究仍需在不同组织切片上分别测量不同组学特征,从而产生空间对角整合的需求。苏木精-伊红(H&E)染色图像因其普遍性、低成本及跨组织制备的兼容性,已成为一种常见的整合锚点。然而,H&E 染色风格差异、缺乏可靠组织学标志物以及不同组学模态间空间分辨率不匹配等现实问题,常导致该锚点失效。为此,本研究提出 SpaWeaver——一种将病理学基础模型、图Transformer与潜在特征对齐模块相结合的计算框架,专为弱锚定条件下的空间组学数据对角整合提供鲁棒性解决方案。大量实验表明,SpaWeaver 在单一或协同弱锚定因素干扰下均表现出优异的稳健性。该框架生成的空间多组学图谱能够链接原本分离于两张切片上的分子特征,支持细胞微环境感知的细胞间通讯推断及多组学细胞状态解析等下游分析。应用层面,SpaWeaver 揭示了人类结肠腺癌中依赖肿瘤距离的成纤维细胞与 CD4+ T 细胞信号传导模式,并在人类卵巢癌中识别出伴随核固缩特征的缺氧糖酵解肿瘤状态,为系统级组织分析提供了有力工具。
SpaWeaver:面向弱锚定空间多组学数据的鲁棒对角整合框架¶
概述¶
空间多组学(Spatial multi-omics)技术为解析复杂生物学过程提供了前所未有的分子空间分辨率,然而其固有的技术限制使得大规模推广依然面临挑战。目前,绝大多数研究只能在不同的组织切片上分别测量不同的组学特征,由此产生了"空间对角整合"(Spatial diagonal integration)这一核心需求——即如何将来自独立切片的多种组学数据在空间维度上整合为统一的分子图谱。
一种新兴的实用方案是利用苏木精-伊红(H&E)染色图像作为整合锚点(integration anchor)。H&E 染色因其成本低廉、普及性广、与多种组织制备方案兼容而被广泛使用,天然成为跨切片整合的桥梁。然而在真实应用场景中,这一锚点往往因以下三类因素而显著退化:H&E 染色风格的批次差异、可靠组织学地标(histological landmarks)的缺失,以及不同组学模态间空间分辨率的不匹配。
为系统性解决上述"弱锚定"(weak anchoring)问题,本文提出了 SpaWeaver——一个将病理基础模型(pathology foundation model)、图 Transformer 与潜在特征对齐模块(latent feature aligner module)相耦合的计算框架。SpaWeaver 在孤立或协同的弱锚定条件下均展现出卓越的鲁棒性,能够将原本分布于两张独立切片的分子特征统一整合,解锁此前仅限于同步测量(co-assayed)空间多组学数据的下游分析能力。
核心原理与功能¶
1. 问题定义:空间对角整合¶
传统空间多组学研究要求在同一切片上同时测量多种组学模态(如转录组 + 蛋白质组),称为"联合测量"(co-assay)。而实际中更常见的情形是:转录组数据和表观组/蛋白质组数据分别来自不同的相邻切片,二者之间不存在像素级的一一对应关系。这类整合任务被称为对角整合(diagonal integration),其挑战在于:
- 无共同分子特征:两个切片测量的组学变量不重叠;
- 无精确空间对应:切片间存在物理位移、旋转或形变;
- 锚点信号弱:仅有 H&E 图像可作为跨切片的共同参考,但该信号在实际应用中极不稳定。
2. 弱锚定的三类挑战¶
| 挑战类型 | 具体表现 | 对整合的影响 |
|---|---|---|
| 染色风格差异 | 不同实验室、不同批次的 H&E 染色色调、对比度存在系统性偏差 | 基于图像相似度的锚点对齐失效 |
| 组织学地标缺失 | 组织形态单一,缺乏可区分的结构特征 | 无法建立可靠的空间对应关系 |
| 空间分辨率不匹配 | 不同组学平台(如 Visium vs. MERFISH)的空间网格尺度不同 | 特征聚合与插值引入噪声 |
上述三类因素可单独出现,也可协同叠加,形成更为复杂的弱锚定场景(synergistic weak-anchoring)。
3. SpaWeaver 架构设计¶
SpaWeaver 将三个核心模块以端到端的方式耦合:
3.1 病理基础模型(Pathology Foundation Model)¶
该模块负责从 H&E 图像中提取高层语义表征。相比于传统的卷积神经网络,病理基础模型在海量病理图像上进行了大规模预训练,能够捕获细胞形态、组织结构等抽象特征,对染色风格的变化具有更强的不变性(style invariance)。这是 SpaWeaver 应对"染色风格差异"这一弱锚定因素的关键。
3.2 图 Transformer(Graph Transformer)¶
空间组学数据天然具有图结构:每个测量点(spot 或 cell)与其空间邻域存在上下文依赖关系。SpaWeaver 采用图 Transformer 对这种空间上下文进行建模,将每个位置的分子特征与其周围邻域的信息进行聚合,从而构建具有空间感知能力的特征表示。这一设计使得模型能够在地标稀缺或分辨率不一致的条件下,仍然保留局部空间结构的信息。
3.3 潜在特征对齐模块(Latent Feature Aligner Module)¶
该模块在潜在特征空间(latent space)中执行跨切片的对齐操作,将来自两张独立切片的异构特征映射到统一的嵌入空间中。通过最小化跨模态分布差异,该模块能够在无需精确像素对应的前提下实现对角整合,从根本上解决"分辨率不匹配"问题。
4. 整合后的下游分析能力¶
SpaWeaver 生成的空间多组学联合图谱能够解锁此前仅限于同步共测数据的高级分析,包括:
- 生态位感知的细胞间通讯推断(Niche-aware cell-cell communication inference):整合转录组与空间位置信息,在考虑微环境生态位(niche)的前提下推断细胞间的配体-受体信号传导;
- 多组学解析的细胞状态鉴定(Multi-omics resolved cell state):联合多个组学维度,更精细地定义细胞功能状态,克服单一组学的信息瓶颈。
5. 生物学发现¶
SpaWeaver 在两个人类癌症队列中取得了重要生物学发现:
- 人类结肠腺癌(Human colon adenocarcinoma):揭示了依赖肿瘤距离(tumor-distance-dependent)的成纤维细胞—CD4+ T 细胞信号传导轴,提示肿瘤微环境的空间结构对免疫调控具有决定性作用;
- 人类卵巢癌(Human ovarian cancer):鉴定出一种具有核固缩(pyknotic nuclei)形态特征的缺氧糖酵解肿瘤状态(hypoxic glycolytic tumor state),将分子表型与组织学形态特征有机关联。
关键方法与步骤¶
以下为基于论文描述梳理的 SpaWeaver 核心方法流程。原文未提供可执行安装命令,以下步骤为方法论层面的操作框架。
步骤一:数据准备¶
# 输入数据要求
# 切片 A:空间组学数据(如空间转录组,含基因表达矩阵 + 空间坐标)
# 切片 B:另一组学模态数据(如空间蛋白质组,含蛋白表达矩阵 + 空间坐标)
# 两张切片均需配套对应的 H&E 染色图像
数据结构示意:
├── slice_A/
│ ├── expression_matrix.h5 # 分子特征矩阵(如基因表达)
│ ├── spatial_coords.csv # 空间坐标(x, y)
│ └── HE_image.tif # 对应的 H&E 染色图像
├── slice_B/
│ ├── expression_matrix.h5 # 另一模态的分子特征矩阵
│ ├── spatial_coords.csv # 空间坐标
│ └── HE_image.tif # 对应的 H&E 染色图像
步骤二:H&E 图像特征提取(病理基础模型)¶
# 利用预训练的病理基础模型提取 H&E 图像的深层语义特征
# 该步骤将原始图像像素转化为对染色风格具有不变性的高维特征向量
# 对每个空间测量点(spot/cell),裁取对应的图像 patch
# 送入病理基础模型编码器,获得图像嵌入向量
# 图像嵌入将作为后续图 Transformer 的节点初始特征之一
步骤三:空间图构建与图 Transformer 编码¶
# 以每个测量点为节点,以空间邻近关系为边,构建空间图
# 节点特征 = 分子特征(基因/蛋白表达) + H&E 图像嵌入
# 图 Transformer 在空间图上执行消息传递(message passing)
# 聚合邻域信息,输出具有空间上下文感知的节点嵌入(node embedding)
# 分别对切片 A 和切片 B 执行上述操作,获得两组节点嵌入
步骤四:潜在特征对齐与对角整合¶
# 潜在特征对齐模块将两组节点嵌入映射到统一的潜在特征空间
# 目标:最小化跨切片、跨模态的特征分布差异
# 输出:每个空间位置的跨模态联合表示(joint representation)
# 对角整合的核心逻辑:
# - 无需切片 A 与切片 B 存在像素级的空间对应
# - 通过共享潜在空间中的语义对齐实现整合
# - 对弱锚定因素(染色差异、地标缺失、分辨率不匹配)具有鲁棒性
步骤五:下游分析¶
# 基于 SpaWeaver 生成的联合空间多组学图谱,可执行:
# 1. 生态位感知细胞间通讯推断
# - 结合空间位置与联合分子特征
# - 推断不同细胞类型之间的配体-受体相互作用
# - 区分不同肿瘤距离梯度下的通讯模式
# 2. 多组学细胞状态鉴定
# - 联合转录组与其他组学维度定义细胞功能状态
# - 将细胞状态与 H&E 形态特征关联(如核固缩)
实战示例¶
示例一:人类结肠腺癌的空间免疫微环境解析¶
场景描述: 研究者希望理解结肠腺癌中肿瘤微环境(TME)的空间免疫调控机制,但手头只有分别测量的空间转录组切片和空间蛋白质组切片,两张切片的 H&E 图像存在一定的染色批次差异。
SpaWeaver 工作流:
- 分别对两张切片的 H&E 图像使用病理基础模型提取特征,消除染色风格差异带来的干扰;
- 构建各切片的空间图,通过图 Transformer 捕获细胞微环境的空间上下文;
- 潜在特征对齐模块将两张切片的分子特征映射到统一空间,实现对角整合;
- 在整合后的联合图谱上,计算每个位置到肿瘤区域的距离梯度;
- 分析不同距离梯度下成纤维细胞与 CD4+ T 细胞之间的配体-受体信号强度。
关键发现: SpaWeaver 揭示了肿瘤距离依赖性的成纤维细胞—CD4+ T 细胞信号传导,表明肿瘤周围的空间位置决定了成纤维细胞对 T 细胞的调控方向,为肿瘤免疫逃逸的空间机制提供了新见解。
示例二:人类卵巢癌中低氧糖酵解肿瘤状态的发现¶
场景描述: 研究者在人类卵巢癌样本中,利用空间转录组数据(测量基因表达)和 H&E 图像(反映组织形态),希望将分子表型与组织学特征整合解析。
SpaWeaver 工作流:
- 提取 H&E 图像中各区域的细胞形态特征,识别具有核固缩(pyknotic nuclei)形态的细胞;
- 通过图 Transformer 整合空间转录组信息,在联合表示中定位高表达低氧与糖酵解相关基因的区域;
- 将分子特征与形态特征在统一潜在空间中对齐;
- 鉴定出核固缩形态与缺氧糖酵解转录程序高度共定位的肿瘤细胞亚群。
关键发现: SpaWeaver 鉴定出一种此前未被充分描述的缺氧糖酵解肿瘤状态,其特征性形态标志为核固缩。该发现展示了 SpaWeaver 将分子组学与组织病理学形态联合解析的独特能力。
常见问题¶
Q1:SpaWeaver 与传统空间对齐方法有何本质区别?
传统方法通常依赖图像配准(image registration)技术,直接在像素空间中寻找两张切片 H&E 图像的对应关系。这类方法高度依赖图像质量和可识别的组织学地标,一旦出现染色差异或地标缺失即告失效。SpaWeaver 则通过病理基础模型在语义特征层面消除染色风格影响,并在潜在特征空间中完成对齐,从根本上绕开了像素级对应的需求,因此在弱锚定条件下具有本质性的鲁棒优势。
Q2:SpaWeaver 适用于哪些空间组学平台?
SpaWeaver 的设计目标是处理跨平台、跨分辨率的空间多组学数据。其潜在特征对齐模块专门设计用于应对不同组学平台(如 10x Visium、MERFISH、Slide-seq 等)之间空间分辨率不匹配的问题 [待验证具体支持的平台列表]。只要数据满足"空间坐标 + 分子特征矩阵 + H&E 图像"的基本结构,理论上均可纳入 SpaWeaver 框架处理。
Q3:什么是"协同弱锚定"(Synergistic weak anchoring),SpaWeaver 如何应对?
协同弱锚定是指染色差异、地标缺失、分辨率不匹配三类因素同时存在,彼此叠加放大整合难度的场景。论文中的大量实验(extensive experiments)专门对此进行了评估,结果表明 SpaWeaver 在此类最困难的场景下依然保持了显著优于对照方法的鲁棒性。其核心机制在于三个模块的协同设计:基础模型处理染色问题,图 Transformer 处理地标问题,特征对齐模块处理分辨率问题,三者相互补偿,形成整体鲁棒性。
Q4:SpaWeaver 生成的联合图谱是否等价于真正的同步共测数据?
SpaWeaver 生成的是计算推断的联合图谱,并非实验意义上的同步测量结果。论文表述为"unlocking diverse downstream analyses once exclusive to co-assayed spatial multi-omics data",即解锁此前只能用共测数据做的分析,而非声称完全等价。在解释结论时,应当意识到计算整合引入的不确定性,关键生物学发现需结合实验验证加以确认。
Q5:SpaWeaver 对 H&E 图像的依赖程度如何?若 H&E 图像质量极差,是否还能使用?
H&E 图像是 SpaWeaver 的整合锚点,其质量直接影响整合效果。SpaWeaver 的设计初衷正是针对 H&E 图像质量不理想(弱锚定)的真实场景,通过病理基础模型的强表征能力在一定程度上弥补图像质量缺陷。然而,若 H&E 图像出现严重的物理损坏(如大面积缺失、严重模糊)或与分子数据存在明显的非生物性错位,则超出了"弱锚定"的范畴,SpaWeaver 的表现也将受到相应限制 [待验证极端情形下的性能边界]。
总结¶
SpaWeaver 是一个专为解决空间多组学弱锚定对角整合问题而设计的计算框架,其核心创新在于将病理基础模型、图 Transformer 和潜在特征对齐模块有机耦合,构建了一套能够同时应对 H&E 染色风格差异、组织学地标缺失和空间分辨率不匹配三类挑战的整合体系。在人类结肠腺癌和卵巢癌的真实数据验证中,SpaWeaver 不仅展现出方法层面的鲁棒性,更揭示了具有重要生物学意义的新发现。它将分布于不同切片的单组学测量整合为统一的空间多组学图谱,显著扩展了常规 H&E + 单组学数据的分析边界,为系统级组织分析提供了强大的计算工具。对于受实验条件限制、无法进行联合测量的研究者而言,SpaWeaver 提供了一条切实可行的替代路径。