摘要: Morpho-FM是一种弱监督计算框架,旨在从常规苏木精-伊红(H&E)染色全切片图像中预测空间基因表达谱。尽管H&E组织学能够在临床规模上呈现组织结构,但无法直接反映调控肿瘤上皮、间质、血管及免疫区室的转录程序。空间转录组学虽能提供该分子背景,却因成本高、流程复杂及采样稀疏而难以常规应用。现有组织学-表达预测模型多从头训练于小规模配对数据集,外推能力有限。Morpho-FM通过将预训练单细胞转录组基础模型作为先验,结合局部组织形态学邻域信息进行条件化建模,利用轻量级形态-转录组适配器将缓存的全切片组织学特征映射至转录组解码器,实现测量位点预测、全切片密集重建及原始支持域的重聚合。在前列腺癌基准测试中,Morpho-FM综合性能最优,单切片评估和多切片验证的平均基因级皮尔逊相关系数分别达0.286和0.298。该框架在肾癌数据集上同样表现出良好迁移性,并成功重建了ERBB2富集肿瘤区室、边界相关分子梯度及注释对齐的组织域。消融实验证实,预训练转录组初始化是性能提升的核心来源,优于组织学特征主干的替换效果。
Morpho-FM:基于转录组基础模型先验从常规H&E组织切片重建空间分子图谱¶
概述¶
常规苏木精-伊红(H&E,Haematoxylin and Eosin)组织学染色是临床病理诊断的金标准,能够在临床规模下呈现组织架构细节,但其本质上缺乏对转录程序(transcriptional programmes)的直接分子读出——而正是这些转录程序组织和区分了肿瘤上皮(tumour epithelium)、间质(stroma)、脉管系统(vasculature)及免疫区室(immune compartments)。
空间转录组学(Spatial Transcriptomics)技术能够弥补这一缺口,提供基因表达的空间背景信息,但其高昂的成本、复杂的实验流程以及稀疏的组织采样限制了其在常规临床场景中的推广应用。现有的大多数组织学图像到基因表达预测模型均从头(de novo)训练于规模有限的配对数据队列,导致模型在从稀疏测量外推至密集全组织分子图谱时约束力不足、泛化能力受限。
为解决上述问题,本文提出 Morpho-FM——一种弱监督(weakly supervised)框架,通过将预训练单细胞转录组基础模型先验(pretrained single-cell transcriptomic foundation-model prior)条件化于局部组织学邻域(local histological neighbourhoods),实现从常规H&E全切片图像(Whole-Slide Images, WSI)预测空间基因表达。该框架在前列腺癌、肾癌及乳腺癌多个基准数据集上均表现出领先性能,代表了将基础模型先验引入形态学条件分子解码的重要进展。
核心原理与功能¶
1. 整体架构设计¶
Morpho-FM 的核心设计思想是将形态学(morphology)特征与转录组基础模型先验(transcriptomic foundation-model prior)有机结合。其架构由以下关键组件构成:
轻量级形态-转录组适配器(Lightweight Morphology-to-Transcriptome Adapter)
该适配器负责将预先缓存的全切片组织学特征(cached whole-slide histology features)映射至转录组解码器(transcriptomic decoder)的输入空间。这一设计的优势在于: - 组织学特征可离线提取并缓存,推理时无需重复计算 - 适配器本身参数量轻量,降低了训练成本 - 实现了形态学编码与转录组解码的解耦,便于模块化替换
预训练单细胞转录组基础模型(Pretrained Single-Cell Transcriptomic Foundation Model)
区别于从头训练的方法,Morpho-FM 利用已在大规模单细胞转录组数据上预训练的基础模型作为解码器先验。该先验承载了丰富的基因表达空间知识,为形态学条件下的分子预测提供了有效约束,避免了模型在稀疏训练数据上的过拟合与外推失效问题。
2. 预测模式¶
Morpho-FM 支持三种互补的预测模式:
| 预测模式 | 说明 |
|---|---|
| 测量位置预测(Prediction at Measured Locations) | 在已有空间转录组测量点处进行表达预测,可直接与真实值比对评估 |
| 密集全切片重建(Dense Full-Section Reconstruction) | 对整张切片的所有组织区域进行逐点表达预测,生成全局分子图谱 |
| 原始测量支持重聚合(Re-aggregation to Original Measurement Support) | 将密集预测结果重新聚合至原始测量分辨率,兼容下游分析流程 |
3. 弱监督训练范式¶
Morpho-FM 采用弱监督(weakly supervised)策略,无需大规模高质量配对标注数据即可有效训练。这一特性使其能够在临床实际可用的小规模配对队列上实现具有竞争力的预测性能。
4. 消融分析揭示的关键设计要素¶
受控消融分析(controlled ablation analyses)系统验证了各组件对性能的贡献,关键结论如下:
- 预训练转录组初始化(pretrained transcriptomic initialization) 是可重复的性能提升来源,其贡献超过更换组织学特征骨干网络(histology feature backbone)所带来的增益
- 该结论在前列腺癌和肾癌数据集上均可重现,确认了基础模型先验的核心作用
5. 基准测试性能¶
前列腺癌(Prostate Cancer)基准: - 在五种代表性方法中取得最佳综合性能 - 旋转单切片评估(rotating single-slide evaluation):平均每基因 Pearson 相关系数 0.286 - 多切片留出验证(multi-slide held-out validation):平均每基因 Pearson 相关系数 0.298
肾癌(Kidney Cancer)基准: - 在肾癌切片上复现了性能优势 - 56个定向单切片评估(directed single-slide evaluations)平均相关系数 0.210 - 外部迁移至透明细胞肾细胞癌(clear-cell renal cell carcinoma, ccRCC)切片后仍保留可测量的预测信号
6. 生物学发现能力¶
除定量性能外,Morpho-FM 还展现出有意义的生物学发现能力:
- ERBB2富集肿瘤区室(ERBB2-enriched tumour compartments) 的识别与恢复
- 边界相关分子梯度(boundary-associated molecular gradients) 的空间重建
- 在 Xenium 和 HER2ST 乳腺癌数据集上实现标注对齐的组织域(annotation-aligned tissue domains) 恢复
关键方法与步骤¶
原文未提供具体安装命令或代码实现细节,以下整理其方法论层面的关键步骤。
步骤一:组织学特征提取与缓存¶
# 使用预训练组织学特征骨干网络(histology feature backbone)
# 对全切片图像(WSI)提取特征并离线缓存
# 缓存机制避免训练/推理时的重复计算开销
输入: H&E 全切片图像(Whole-Slide Image)
操作: 使用组织学骨干网络提取局部邻域(local histological neighbourhood)特征
输出: 缓存的特征张量(cached whole-slide histology features)
步骤二:形态-转录组适配器训练¶
# 轻量级适配器将组织学特征空间映射至转录组解码器输入空间
# 使用配对的 H&E + 空间转录组数据进行弱监督训练
输入: 缓存组织学特征 + 稀疏空间转录组测量值
训练策略: 弱监督(weakly supervised)
优化目标: 最小化测量位置处的基因表达预测误差
约束来源: 预训练转录组基础模型先验(foundation-model prior)
步骤三:预测模式选择与推理¶
# 模式A:测量位置预测(用于基准评估)
输入位置: 空间转录组已测量的 spot/cell 坐标
输出: 对应位置的基因表达预测值
评估指标: 每基因 Pearson 相关系数(per-gene Pearson correlation)
# 模式B:密集全切片重建(用于全局分子图谱生成)
输入位置: 全切片组织区域所有像素/patch 坐标
输出: 全切片密集基因表达图谱
# 模式C:重聚合(用于与原始测量分辨率对齐)
输入: 模式B的密集预测结果
操作: 重聚合至原始测量支持(original measurement support)
输出: 与空间转录组数据格式兼容的表达矩阵
步骤四:基准评估方案¶
# 评估方案一:旋转单切片评估(rotating single-slide evaluation)
# 适用于前列腺癌基准
# 逐切片轮流作为测试集,其余切片用于训练
# 评估方案二:多切片留出验证(multi-slide held-out validation)
# 独立留出多张切片作为验证集
# 评估方案三:定向单切片评估(directed single-slide evaluations)
# 适用于肾癌基准,共56个评估单元
# 评估方案四:外部迁移评估
# 训练于一种癌症类型,迁移至外部数据集(如 ccRCC 切片)
# 验证跨数据集泛化能力
实战示例¶
示例一:前列腺癌空间分子图谱重建¶
场景描述: 研究人员拥有一批前列腺癌患者的常规H&E病理切片,希望在无需额外空间转录组实验的情况下,获取全切片范围的基因表达分布图谱。
应用流程: 1. 输入常规H&E全切片图像(WSI) 2. 通过预训练组织学骨干网络提取局部邻域特征 3. 经形态-转录组适配器转换为转录组空间表示 4. 利用转录组基础模型解码器生成密集全切片基因表达预测 5. 输出结果:全切片范围的空间基因表达图谱
预期性能(基于论文报告): - 旋转单切片评估平均 Pearson r = 0.286 - 多切片留出验证平均 Pearson r = 0.298 - 在五种对比方法中综合排名第一
示例二:乳腺癌 HER2/ERBB2 肿瘤区室识别¶
场景描述: 在 HER2ST 和 Xenium 乳腺癌数据集上,验证 Morpho-FM 识别 HER2(ERBB2)阳性肿瘤亚区域的能力。
关键发现: - Morpho-FM 成功恢复(recover)了 ERBB2 富集的肿瘤区室空间分布 - 重建的分子图谱与病理学家标注的组织区域(annotation-aligned tissue domains)高度吻合 - 检测到肿瘤边界处的分子梯度变化(boundary-associated molecular gradients),反映了肿瘤微环境的空间异质性
示例三:跨癌种迁移——透明细胞肾细胞癌¶
场景描述: 验证 Morpho-FM 在外部数据集上的迁移泛化能力。
实验设置: - 训练集:肾癌基准数据集(56个定向单切片评估单元) - 测试集:外部透明细胞肾细胞癌(ccRCC)切片
关键结论: - 外部迁移后仍保留可测量的预测信号(measurable predictive signal) - 验证了转录组基础模型先验在跨数据集场景下的有效约束作用
常见问题¶
Q1:Morpho-FM 与现有组织学到表达预测方法的核心区别是什么?
A:现有大多数方法从头(de novo)在小规模配对队列上训练预测模型,模型缺乏有效的先验约束,在从稀疏测量外推至全切片密集图谱时容易失效。Morpho-FM 的核心创新在于引入了预训练单细胞转录组基础模型作为先验,该先验编码了大规模单细胞转录组数据中的基因表达知识,为形态学条件下的分子解码提供了强约束。消融实验证明,这一先验的贡献超过了更换组织学特征骨干网络所带来的提升。
Q2:Morpho-FM 需要多大规模的空间转录组配对训练数据?
A:Morpho-FM 采用弱监督训练范式,设计上对配对数据规模的需求较低。论文中在前列腺癌基准上使用了旋转单切片评估(rotating single-slide evaluation)方式,意味着每次仅用少量切片进行训练。具体的最低数据量要求论文未明确说明 [待验证],但其弱监督特性正是为了应对配对数据稀缺场景而设计。
Q3:Morpho-FM 的密集全切片重建在计算效率上如何?
A:论文提到组织学特征采用离线缓存(cached) 机制,即特征提取与预测推理解耦,训练和推理阶段无需重复运行骨干网络,有效降低了计算开销。但具体的推理时间、显存需求等硬件指标论文未明确报告 [待验证]。
Q4:Morpho-FM 支持哪些空间转录组技术平台的数据?
A:从论文实验来看,Morpho-FM 已在以下平台数据上进行了验证: - Xenium(10x Genomics 原位测序平台)——乳腺癌数据集 - HER2ST(基于Visium的HER2乳腺癌空间转录组数据集) - 前列腺癌及肾癌(具体平台论文未在摘要中明确说明 [待验证])
Q5:Morpho-FM 的预测性能是否足以替代实际的空间转录组实验?
A:目前的性能数据(前列腺癌最高 Pearson r ≈ 0.298)表明 Morpho-FM 能够捕捉有意义的分子空间模式,并在多个基准上领先现有方法。然而,这一相关系数水平意味着预测结果更适合用于探索性分析、队列级趋势发现、以及在无法开展空间转录组实验的存档切片上获取分子洞察,而非完全替代高精度空间转录组实验。论文的定位也是"扩展(extend)空间转录组洞察至常规病理切片",而非替代现有技术。
总结¶
Morpho-FM 提出了一种将预训练转录组基础模型先验与组织形态学特征相结合的弱监督框架,实现了从常规H&E全切片图像预测空间基因表达的新范式。
其核心贡献包括: - 设计了轻量级形态-转录组适配器,支持测量位置预测、密集全切片重建和测量支持重聚合三种推理模式 - 在前列腺癌、肾癌和乳腺癌多个基准数据集上验证了方法的有效性和跨数据集迁移能力 - 通过消融实验确认转录组基础模型先验是性能提升的核心驱动力,优先级高于更换组织学骨干网络 - 展示了恢复具有生物学意义的肿瘤亚区室、分子梯度和组织域结构的能力
Morpho-FM 为将空间转录组学洞察大规模扩展至存档临床病理切片提供了可行路径,在肿瘤异质性研究、生物标志物发现和计算病理学等领域具有重要应用潜力。