摘要: 急性髓系白血病（AML）中，耐药持续细胞（DTP）状态与复发密切相关，但目前缺乏专门针对该状态进行转录组评分的深度学习方法。本研究开发了一种基于Transformer架构的转录组评分模型，用于识别AML中的DTP细胞状态。研究团队在包含九个样本（共32,342个细胞）的单细胞RNA测序数据集上训练了一个Transformer分类器，并通过知识蒸馏技术构建了仅使用1,000个基因的轻量级学生模型，同时预设概率阈值τ=0.31。该模型在五个独立外部队列中进行验证，包括BeatAML队列（452例患者，附带体外药物反应AUC数据）和TCGA-LAML等，验证过程中未使用生存或药物反应数据进行任何调参。模型输出经与CRISPR/DepMap基因必要性数据、通路富集分析及正常组织过滤的表面蛋白候选列表进行机制层面的关联验证，结果表明转录组预测评分与体外药物反应数据具有显著关联，为AML耐药机制研究及后续实验提供了可解释、可校准的计算分析工具。

基于Transformer的转录组评分模型与AML体外药物响应关联研究¶

概述¶

急性髓系白血病（Acute Myeloid Leukaemia, AML）是一种高度异质性的血液恶性肿瘤，复发率高且预后差。研究表明，耐药持留细胞（Drug-Tolerant Persister, DTP）状态是多种癌症（包括AML）复发的重要驱动因素。然而，如何从转录组数据中准确识别和量化DTP细胞状态，长期以来缺乏专门设计、经过严格验证的深度学习方法。

本研究提出了一种基于Transformer架构的转录组评分框架，专门用于识别AML中的耐药持留细胞状态。该方法的核心创新在于：将Transformer教师模型（teacher model）与经过知识蒸馏（knowledge distillation）训练的1,000基因学生模型（student model）相结合，输出经过校准的概率值，并设置预先指定的决策阈值（threshold τ = 0.31），从而实现对DTP细胞的定量评分。

该研究的重要性体现在以下几个维度：其一，填补了AML领域缺乏专用DTP评分深度学习工具的空白；其二，评分结果直接与BeatAML队列中的体外药物曲线下面积（ex-vivo drug AUC）数据进行了外部验证；其三，通过CRISPR/DepMap必需基因图谱、通路富集分析及正常组织过滤的表面蛋白候选列表，为评分提供了机制层面的锚定，具有较高的生物学可解释性。

核心原理与功能¶

1. 问题背景与现有方法的局限性¶

现有转录组方法在评分耐药或持留样细胞状态时，主要依赖以下两类策略：

固定基因签名（Fixed Gene Signatures）：基于预定义的基因集合进行打分，缺乏对新样本的泛化能力，且无法输出校准的概率。
通用细胞类型分类器（General-Purpose Cell-Type Classifiers）：如 scPred、scANVI、scClassify，这些工具本为细胞类型注释设计，被事后（post hoc）适配用于DTP评分，缺乏针对性。

本研究明确指出：专门针对AML耐药持留细胞评分、具备校准概率输出、预设阈值，并对体外药物响应数据进行透明外部验证的深度学习方法，此前尚属空白。

2. 训练数据与实验设计¶

训练语料库（Training Corpus）由以下数据合并构成：

数据来源	样本类型	样本数
GSE123902（肺腺癌转移、正常及原发肿瘤）	单细胞RNA测序（scRNA-seq）	6个样本
院内原发AML样本	单细胞RNA测序	3个样本
合计	32,342个细胞，13,369个共同基因	9个样本

交叉验证策略： - 采用细胞层面（cell-level）的分层五折交叉验证（stratified 5-fold cross-validation） - 保留20%数据作为独立测试集（held-out test split） - 决策概率阈值（probability threshold）在折外预测（out-of-fold predictions）上预先选定，而非在测试集上调整

3. Transformer教师-学生知识蒸馏框架¶

教师模型（Teacher Model）： - 架构为Transformer分类器（Transformer Classifier） - 输入为全基因组转录组特征（13,369个共同基因） - 在九样本合并语料上进行训练

学生模型（Student Model）： - 通过知识蒸馏（Knowledge Distillation）从教师模型训练而来 - 输入维度压缩至1,000个基因，显著降低了计算成本和对基因覆盖度的要求 - 对每个输入细胞输出一个0到1之间的概率值，即"DTP评分"（the score） - 该概率值代表输入细胞属于阳性训练类别（正类，即DTP状态）的预测概率

预设阈值（Prespecified Threshold）： - τ = 0.31 - 该阈值在训练阶段通过折外预测选定，并在后续所有外部验证中固定不变，不进行重新调整

4. 外部验证队列¶

训练完成后，学生模型在未经任何重新调整（without re-tuning）的前提下，直接应用于以下五个外部或独立队列：

队列	说明	样本量
院内原发AML	院内独立样本	39例供体
GSE74246	公开AML数据集	—
BeatAML	含体外药物AUC数据	n = 452
BeatAML	含总体生存（OS）元数据	n = 405
TCGA-LAML	癌症基因组图谱AML队列	n = 149
院内scRNA-seq队列	含关联生存数据	n = 10

关键设计原则：生存数据和药物响应数据在训练、阈值选择及模型调参过程中均未使用，确保外部验证的独立性。

5. 机制锚定（Mechanistic Anchoring）¶

评分结果通过以下三个层面进行生物学机制验证：

CRISPR/DepMap必需基因图谱：将高评分细胞关联的基因与DepMap数据库中已知的癌细胞必需基因（essentiality）进行比对
通路富集分析（Pathway Enrichment）：识别DTP评分高分细胞富集的生物学通路
正常组织过滤的表面蛋白候选列表：结合人类蛋白质图谱（Human Protein Atlas, HPA）和GTEx数据库，筛选在正常组织中低表达、在DTP细胞中高表达的表面蛋白候选靶点

6. 蛋白质层面证据注释（HPA双标注体系）¶

为评估转录组优先级排序与蛋白质层面证据的一致性，每个候选基因被附加了两个来源于HPA的标注标志（flag）：

HPA_surface_protein（Yes/No）：
来源于HPA蛋白质类别（Protein class）和亚细胞定位（Subcellular location）字段
标注基因是否注释为：质膜（plasma-membrane）蛋白、GPCR、离子通道（ion-channel）、转运体（transporter）、受体（receptor）或CD标志物（CD-marker）
HPA_antibody_reliability（抗体可靠性分级）：
采用HPA抗体验证分级体系，分为：Enhanced（增强）、Supported（支持）、Approved（批准）、Uncertain（不确定）、Not available（不可用）

注释匹配率：250个候选基因中，248个（99.2%）通过HGNC基因符号成功匹配，匹配质量极高。[待验证：2个未匹配候选基因的具体处理方式，原文提及与"旧版CORF命名"相关，原始内容在此处截断]

关键方法与步骤¶

由于原始内容为论文方法学描述，以下整理其完整分析流程的关键步骤：

步骤一：数据整合与预处理¶

# 合并九个样本的scRNA-seq数据（6个GSE123902样本 + 3个院内AML样本）
# 总计：32,342个细胞，保留13,369个跨样本共同基因
# 执行标准单细胞预处理流程（质控、归一化、特征选择）

# 示例：合并多个AnnData对象（框架示意，非原文代码）
import anndata
combined = anndata.concat([gse123902_data, aml_inhouse_data], axis=0)
# 保留各样本共同表达基因
common_genes = list(set.intersection(*[set(d.var_names) for d in datasets]))
combined = combined[:, common_genes]  # 筛选13,369个共同基因

步骤二：Transformer教师模型训练¶

# 训练配置要点：
# - 模型架构：Transformer分类器
# - 验证策略：细胞层面分层五折交叉验证（stratified 5-fold CV）
# - 测试集：20%独立保留集（held-out test split）
# - 阳性类别：DTP细胞状态

# 阈值选择：在折外预测（out-of-fold predictions）上预先指定
# 最终确定阈值 tau = 0.31
# 注意：阈值不在测试集或外部验证集上调整

步骤三：知识蒸馏训练学生模型¶

# 知识蒸馏（Knowledge Distillation）流程：
# - 教师模型：全基因组Transformer（13,369基因输入）
# - 学生模型：1,000基因精简模型
# - 学生模型以教师模型的软标签（soft labels/概率输出）为监督信号训练
# - 最终学生模型对每个细胞输出0-1概率（DTP评分）

# 推理示例（框架示意）：
score = student_model.predict_proba(cell_expression_1000_genes)
# score ∈ [0, 1]，越接近1表示越可能为DTP细胞状态
dtp_label = score >= 0.31  # 使用预设阈值 tau = 0.31 进行二值化分类

步骤四：外部队列应用（无重新调整）¶

# 将训练好的学生模型直接应用于五个外部队列
# 严格要求：不进行任何形式的重新训练或参数调整

external_cohorts = {
    "inhouse_AML": {"n": 39, "type": "bulk/single-cell"},
    "GSE74246": {"n": "公开", "type": "scRNA-seq"},
    "BeatAML_drug": {"n": 452, "linked_data": "ex-vivo drug AUC"},
    "BeatAML_survival": {"n": 405, "linked_data": "overall survival"},
    "TCGA_LAML": {"n": 149, "type": "bulk RNA-seq"},
    "inhouse_scRNAseq": {"n": 10, "linked_data": "survival"}
}

# 对每个队列的每个细胞/样本计算DTP评分
for cohort_name, cohort_data in external_cohorts.items():
    scores = student_model.predict_proba(cohort_data["expression"])
    # 后续与药物AUC或生存数据进行关联分析

步骤五：机制锚定与候选靶点注释¶

# 1. 与DepMap必需基因数据进行交叉比对
# 2. 对高评分细胞执行通路富集分析（GSEA或ORA等方法）
# 3. 构建表面蛋白候选列表（HPA + GTEx正常组织过滤）

# HPA双标注注释流程：
# - 基于HGNC基因符号进行合并（匹配率99.2%，248/250）
# - 为每个候选基因添加：
#   HPA_surface_protein: Yes/No
#   HPA_antibody_reliability: Enhanced/Supported/Approved/Uncertain/Not available

实战示例¶

场景一：BeatAML队列中的体外药物响应关联分析¶

本研究最重要的外部验证场景之一是将DTP评分与BeatAML队列（n = 452）中患者样本的体外药物AUC数据进行关联。

分析逻辑： 1. 对BeatAML队列中每个患者的肿瘤细胞计算DTP评分（0-1概率值） 2. 汇总样本层面的DTP评分（如中位数或比例超过τ = 0.31的细胞百分比） 3. 与该患者对应的多种药物体外AUC值进行统计相关性分析 4. 高DTP评分样本预期对特定药物表现出更高的耐药性（更高的AUC值）

验证意义：由于药物响应数据完全未参与训练过程，该关联结果代表了模型在独立临床相关终点上的真实泛化能力。

场景二：表面蛋白靶点优先级排序¶

候选基因排序输出示例（基于原文描述的注释体系）：

基因符号 | HPA_surface_protein | HPA_antibody_reliability | DepMap必需性
-------- | ------------------- | ----------------------- | ------------
GeneA    | Yes (GPCR)         | Enhanced               | 必需（AML特异）
GeneB    | Yes (CD-marker)    | Supported              | 非必需
GeneC    | Yes (受体)          | Approved               | 必需（泛癌）
GeneD    | No                  | Not available          | —

# 优先级最高的候选：HPA_surface_protein=Yes + HPA_antibody_reliability=Enhanced/Supported
# 且在DepMap中具有AML特异性必需性的基因

场景三：单细胞层面DTP状态识别¶

# 对院内10例具有生存数据的scRNA-seq样本进行分析
# 每个细胞获得独立的DTP概率评分

# 可视化示例（框架示意）：
import scanpy as sc
import matplotlib.pyplot as plt

# 将DTP评分添加至AnnData对象
adata.obs["DTP_score"] = student_model.predict_proba(
    adata[:, gene_1000_list].X
)

# 在UMAP上展示DTP评分分布
sc.pl.umap(adata, color="DTP_score", cmap="RdYlBu_r", 
           title="DTP Score (τ=0.31)")

# 标注DTP阳性细胞
adata.obs["DTP_positive"] = adata.obs["DTP_score"] >= 0.31
sc.pl.umap(adata, color="DTP_positive")

常见问题¶

Q1：为什么选择τ = 0.31作为决策阈值，而不是常规的0.5？

A：该阈值通过在五折交叉验证的折外预测（out-of-fold predictions）上优化选定，反映了训练数据中DTP阳性与阴性细胞的类别分布及模型校准情况。在不平衡分类问题中，最优阈值通常偏离0.5。重要的是，该阈值在选定后对所有外部验证队列保持固定，确保了结果的可重复性和无偏性。[待验证：具体的阈值选择优化目标，如F1分数、Youden指数等]

Q2：训练数据中包含肺腺癌样本（GSE123902），这会影响AML预测的特异性吗？

A：这是一个合理的方法学疑问。原文将肺腺癌转移、正常及原发肿瘤样本（共6个）与3个AML样本合并训练，其设计意图可能在于：利用不同癌种中保守的DTP状态共性特征训练更具泛化能力的表示学习模型，同时通过在AML外部队列（GSE74246、BeatAML、TCGA-LAML等）中的直接验证评估AML特异性表现。[待验证：作者对跨癌种训练设计的具体理由]

Q3：学生模型的1,000基因是如何选定的？这会造成信息损失吗？

A：原文提及学生模型经由知识蒸馏训练，但1,000基因的具体选择标准（如信息增益、特征重要性或特定基因面板）在所提供的原始内容中未完整描述。[待验证]知识蒸馏的设计哲学本身即旨在最小化信息损失——学生模型以教师模型的概率输出（软标签）而非硬标签为学习目标，从而在压缩输入维度的同时尽可能保留教师模型捕获的概率分布信息。

Q4：该模型能否直接应用于其他AML数据集或其他癌种？

A：从原文描述来看，学生模型在五个外部队列上均"未经任何重新调整"直接应用，表明作者设计时有意追求跨数据集泛化能力。然而，以下几点需要注意：（1）输入必须包含模型所需的1,000个特定基因；（2）对于非AML癌种的直接应用尚未被原文验证；（3）在数据分布差异极大的新数据集上，τ = 0.31的阈值可能需要重新评估。[待验证：1,000基因列表的具体内容及可用性]

Q5：HPA_antibody_reliability注释如何指导后续实验验证？

A：HPA抗体可靠性分级直接反映了用于检测该蛋白质的抗体在独立验证实验中的表现质量。优先级排序建议：Enhanced > Supported > Approved 的候选基因在流式细胞术、免疫组化或免疫荧光等蛋白质层面的实验验证中，成功率更高，可减少因抗体质量问题导致的假阴性结果。这使研究者能够将有限的实验资源集中在具有高质量蛋白质层面证据支撑的转录组优先候选基因上。

总结¶

本研究提出了一种专门针对AML耐药持留细胞（DTP）状态的转录组评分深度学习框架，填补了该领域方法学空白。核心贡献包括：

方法创新：Transformer教师模型与1,000基因知识蒸馏学生模型的组合，在降低计算需求的同时输出校准概率值
严格验证：预设阈值τ = 0.31在五个独立外部队列中固定使用，与BeatAML体外药物AUC数据的关联验证确保了临床相关性
生物学可解释性：通过DepMap必需基因、通路富集及HPA双标注（表面蛋白属性+抗体可靠性）三重机制锚定，为计算预测向实验验证的转化提供了有据可查的优先级排序依据
训练数据独立性：生存与药物响应数据严格排除于训练和调参过程之外，保证了外部验证的可信度

该框架为AML基础研究和药物靶点发现提供了一个可靠的计算工具，尤其适用于从大规模单细胞转录组数据中系统性鉴定耐药持留细胞亚群及其潜在治疗靶点。