摘要: 单细胞RNA测序（scRNA-seq）数据整合是单细胞分析的关键步骤，但仅依赖转录组信息的整合方法往往难以区分高度相似的细胞亚型，导致本应可分离的细胞群在整合后过度混合，降低生物学分辨率。引入标记基因信息可缓解这一问题，但标记基因集的多样性和噪声限制了其有效应用。为此，本文提出半监督整合模型scCRAFT+，通过虚拟对抗训练（Virtual Adversarial Training, VAT）将标记基因信息融入整合过程。该方法在联合优化标记基因监督信号与全转录组表示的同时，对转录相似细胞强制施加局部预测平滑性约束，从而增强模型对噪声标记注释的鲁棒性，并同步提升整合质量与细胞类型自动注释精度。即便面对不完整或错误的标记基因集，scCRAFT+仍能保持稳健的注释性能。基准测试结果表明，scCRAFT+在整合质量和细胞亚型自动注释的生物学可解释性方面均优于现有无监督及有监督整合方法。

scCRAFT+：基于虚拟对抗训练的半监督单细胞RNA测序整合方法¶

概述¶

单细胞RNA测序（single-cell RNA sequencing, scRNA-seq）整合是多批次单细胞数据分析的核心环节，其目标是消除批次效应（batch effect）的同时保留真实的生物学差异。然而，现有整合方法大多仅依赖转录组数据（transcriptomic data），在处理亲缘关系紧密的细胞亚型（closely related cell subtypes）时往往力不从心——原始数据中本可区分的细胞群体，在整合后可能发生过度混合（over-mixing），导致生物学分辨率和可解释性下降。

引入标记基因（marker gene）信息是缓解上述问题的一条可行路径，但现实中标记基因集的质量参差不齐：存在不完整标注、错误标注乃至不同数据库之间的不一致，这使得标记基因的有效利用面临很大挑战。

为此，研究者提出了 scCRAFT+，一种创新性的半监督（semi-supervised）整合模型。其核心贡献在于将虚拟对抗训练（Virtual Adversarial Training, VAT）引入标记基因信息的整合框架，通过联合优化标记基因衍生的监督信号与全转录组表征，在转录相似细胞之间施加局部预测平滑性约束，从而在噪声标注条件下依然能够维持高质量的整合效果与细胞类型自动注释（auto-annotation）能力。基准测试结果表明，scCRAFT+ 在整合质量和细胞亚型注释准确性上均显著优于当前主流的无监督与有监督整合方法。

核心原理与功能¶

1. 问题背景：现有方法的局限性¶

当前主流的 scRNA-seq 整合方法（如 Seurat、Harmony、scVI 等）主要属于无监督整合（unsupervised integration）范式，完全依赖转录组信号对细胞进行对齐。这类方法在处理具有明显批次效应的数据时表现良好，但面对亲缘关系紧密的细胞亚型时存在内在缺陷：

转录谱高度相似的亚型（如 CD4+ T 细胞中的不同功能亚群）在嵌入空间中距离极近，整合过程中容易被错误地合并；
整合后的细胞群体边界模糊，下游聚类（clustering）与注释（annotation）的准确性随之降低；
生物学上有意义的亚型差异被批次校正过程所抹平。

有监督方法（supervised integration）虽然可以借助标记基因或已知标签引导整合，但对标注质量依赖极强，面对不完整或错误的标记基因集时鲁棒性严重不足。

2. scCRAFT+ 的半监督框架¶

scCRAFT+ 属于半监督整合（semi-supervised integration）范畴，其设计哲学是：利用有限且可能有噪声的标记基因信息作为弱监督信号，而非强制性标签，从而在监督学习与无监督学习之间寻求平衡。

整体框架的两个核心优化目标：

标记基因衍生的监督信号（marker-derived supervision）：利用已知标记基因对细胞类型归属提供先验约束，引导模型学习具有生物学意义的表征；
全转录组表征学习（transcriptome-wide representation learning）：在整个基因表达空间上学习细胞的低维嵌入，保留广泛的转录组结构信息。

二者通过联合优化（joint optimization）实现协同，使模型既能从标记基因获得类型区分能力，又不丧失对无标记信息的利用。

3. 虚拟对抗训练（Virtual Adversarial Training, VAT）的引入¶

VAT 是 scCRAFT+ 区别于其他半监督方法的关键创新。其核心思想源于对抗训练（adversarial training）领域：通过在输入空间构造微小扰动（perturbation），使模型对扰动前后的预测保持一致，从而提升模型的局部平滑性（local prediction smoothness）。

在 scCRAFT+ 中，VAT 的作用机制如下：

虚拟对抗扰动的构造：对每个细胞的转录组表达向量施加经过优化的对抗扰动，该扰动被设计为在当前模型参数下使预测结果变化最大的方向；
平滑性约束的施加：训练目标中加入正则化项，要求模型在原始输入与扰动输入上产生相近的细胞类型预测分布；
转录相似性的利用：由于对抗扰动在局部空间内搜索，转录谱相似的细胞自然受到相同方向扰动的影响，使得模型在相似细胞之间保持预测一致性。

这一机制带来两方面关键优势：

对噪声标注的鲁棒性（robustness to noisy marker annotations）：即便标记基因集存在错误或缺失，VAT 的平滑性约束仍能通过转录相似性传播正确的类型信息，防止错误标注的过拟合；
精细亚型区分能力的提升：局部平滑性约束使得模型能够在亲缘亚型之间维持清晰的决策边界，避免过度混合。

4. 整合质量提升机制¶

scCRAFT+ 的整合质量提升体现在两个层面：

（1）批次效应消除与生物信号保留的平衡

传统整合方法在消除批次效应时往往以牺牲生物变异为代价。scCRAFT+ 通过半监督框架，利用标记基因信号明确标定哪些变异属于需要保留的生物学差异，从而在批次对齐的同时保护细胞亚型特异性信号。

（2）细胞类型自动注释（cell type auto-annotation）

scCRAFT+ 将整合与注释两个任务统一在同一框架内，整合过程中学习到的表征直接服务于细胞类型自动注释。VAT 的引入使得注释模型在面对未见过的细胞或边界模糊的细胞时，依然能够给出稳健的类型预测。

5. 基准测试表现¶

scCRAFT+ 在系统性基准测试（benchmarking）中与当前主流方法进行了全面比较，包括：

无监督整合方法（unsupervised integration approaches）
有监督整合方法（supervised integration approaches）

测试结果显示，scCRAFT+ 在以下指标上实现了一致性的性能提升（consistently stronger performance）：

整合质量指标（integration quality metrics）：批次混合度与生物保留度的综合评分；
细胞亚型注释准确性（sub-cell type annotation accuracy）：尤其在亲缘亚型的精细区分上表现突出；
标注不完整或错误场景下的鲁棒性：在使用残缺标记基因集时，性能降级幅度显著低于对比方法。

关键方法与步骤¶

scCRAFT+ 的核心方法论可归纳为以下关键步骤，以下按照论文所描述的工作流程整理：

步骤一：数据准备与标记基因集输入¶

# 准备输入数据：多批次 scRNA-seq 表达矩阵
# 每个批次为一个细胞 × 基因的表达矩阵（通常为标准化后的计数矩阵）

# 准备标记基因集（marker gene set）
# 格式：字典形式，键为细胞类型名称，值为对应标记基因列表
marker_genes = {
    "CD4_T_cell": ["CD4", "IL7R", "CCR7"],    # CD4+ T 细胞标记基因
    "CD8_T_cell": ["CD8A", "CD8B", "GZMB"],   # CD8+ T 细胞标记基因
    "B_cell":     ["CD19", "MS4A1", "CD79A"],  # B 细胞标记基因
    # ... 其他细胞类型
}
# 注意：标记基因集可以不完整，scCRAFT+ 对不完整标注具有鲁棒性

步骤二：半监督模型构建¶

# 联合优化目标由两部分组成：
# 1. 基于标记基因的监督损失（marker-derived supervision loss）
# 2. 虚拟对抗训练正则化项（VAT regularization term）

# VAT 损失计算的核心逻辑（概念性描述）：
# 对输入表达向量 x 计算虚拟对抗扰动 r_adv
# 使 KL 散度 KL(p(y|x) || p(y|x + r_adv)) 最大化（内层优化）
# 然后在外层训练中最小化该 KL 散度，施加平滑性约束

# 总损失函数（conceptual）：
# L_total = L_reconstruction + L_marker_supervision + λ * L_VAT
# 其中 λ 为 VAT 正则化权重（regularization weight）

步骤三：模型训练与整合¶

# 训练过程中，模型同时接收：
# - 所有批次的转录组数据（用于无监督整合表征学习）
# - 标记基因先验（用于半监督监督信号生成）
# - VAT 对抗扰动（用于局部平滑性正则化）

# 输出：
# 1. 批次效应校正后的低维嵌入（corrected low-dimensional embedding）
#    可用于可视化（UMAP/tSNE）和下游聚类分析
# 2. 每个细胞的自动类型注释（auto-annotation）结果
#    包括细胞类型标签及对应置信度分数

步骤四：结果评估¶

# 整合质量评估指标（来自标准 scRNA-seq 整合基准框架）：

# 批次混合度指标（batch mixing metrics）：
# - kBET（k-nearest neighbor Batch Effect Test）
# - 批次 LISI 分数（batch Local Inverse Simpson's Index）

# 生物信号保留指标（biological conservation metrics）：
# - 细胞类型 LISI 分数（cell type LISI）
# - ARI（Adjusted Rand Index）聚类与真实标签的一致性

# 注释准确性指标（annotation accuracy metrics）：
# - 细胞类型注释的准确率（accuracy）
# - 尤其关注亚型（sub-cell type）层面的区分准确性

实战示例¶

场景一：亲缘 T 细胞亚型的精细整合¶

这是 scCRAFT+ 最典型的应用场景。以 CD4+ T 细胞亚群整合为例：

问题描述：来自多个供体（批次）的 scRNA-seq 数据中，包含 Naive CD4+ T、Memory CD4+ T、Regulatory T（Treg）等功能亚群。这些亚群在转录谱上高度相似，纯无监督方法整合后常发生混淆。

scCRAFT+ 的处理方式： - 输入 Treg 特异性标记基因（如 FOXP3、IL2RA）作为半监督信号； - VAT 在 Treg 细胞与其邻近的 Memory CD4+ T 细胞之间施加平滑性约束； - 即便标记基因集仅包含部分 Treg 标记（模拟不完整标注），VAT 仍能通过转录相似性传播，准确区分 Treg 与其他亚群； - 最终整合结果中，Treg 群体保持独立聚类，不与 Memory CD4+ T 混合。

场景二：含噪声标记基因的鲁棒整合¶

问题描述：实际应用中，研究者使用的标记基因可能来自不同数据库，存在物种差异、组织特异性差异导致的错误标注。

测试设置（基准测试中的评估方案）： - 在标准标记基因集中随机替换一定比例的错误基因（模拟噪声标注）； - 比较 scCRAFT+ 与其他有监督方法在不同噪声水平下的性能降级曲线；

结论：scCRAFT+ 在高噪声条件下，注释准确性的降级幅度显著低于对比的有监督方法，体现了 VAT 正则化带来的鲁棒性优势。

场景三：整合质量与注释的联合输出¶

scCRAFT+ 的一个实用特性是单次运行同时产出两类结果，无需分步处理：

输入：
├── 多批次 scRNA-seq 表达矩阵（cells × genes）
└── 标记基因字典（cell_type → gene_list）

输出：
├── 整合嵌入矩阵（cells × latent_dims）  ← 用于 UMAP 可视化 / 聚类
└── 细胞类型注释结果（cells × annotation）← 直接可用的亚型标签

这一设计减少了分析流程中的中间步骤，整合与注释结果相互一致，避免了先整合再单独注释时可能出现的结果不一致问题。

常见问题¶

Q1：scCRAFT+ 对标记基因集的质量有何要求？是否必须提供完整准确的标记基因？

不需要完整准确的标记基因集。scCRAFT+ 专门针对不完整或包含错误的标记基因场景进行了设计优化。VAT 机制的核心价值之一就是在噪声标注条件下维持鲁棒性——即便提供的标记基因集存在缺失条目或错误基因，模型仍能通过转录相似性在细胞之间传播正确的类型信息，不会因局部错误标注导致全局性能崩溃。[待验证：具体可容忍的噪声比例上限，需参考原始论文的定量实验结果]

Q2：与纯无监督整合方法相比，scCRAFT+ 的主要优势体现在哪些场景？

scCRAFT+ 的优势主要体现在亲缘细胞亚型的精细区分场景。当待整合数据中存在转录谱高度相似的细胞亚群（如 T 细胞亚群、髓系细胞亚群等）时，纯无监督方法受限于仅依赖转录组信号，无法有效区分这些亚型，整合后容易发生过度混合。scCRAFT+ 通过引入标记基因的弱监督信号，能够在保留批次校正效果的同时，维持亚型间的生物学分辨率。在转录谱差异显著的粗粒度细胞类型区分场景中，其相对优势相对较小。

Q3：scCRAFT+ 与现有有监督整合方法的核心区别是什么？

核心区别在于对标注信息的依赖程度和利用方式。传统有监督方法将标记基因信息作为硬约束（hard constraint），直接驱动模型优化，这使得模型对标注质量极为敏感，错误标注会被直接放大。scCRAFT+ 通过 VAT 将标记基因信息转化为软约束（soft constraint）形式的局部平滑性正则化，错误标注的影响被平滑性约束所稀释，而正确标注的信息则通过细胞间的转录相似性得到传播和强化。此外，scCRAFT+ 的半监督框架还能充分利用无标注细胞的转录组信息，而纯有监督方法对无标注数据的利用十分有限。

Q4：scCRAFT+ 是在 scCRAFT 基础上的扩展，两者的关系是什么？

从命名（scCRAFT+）推断，scCRAFT+ 是 scCRAFT 的扩展版本，主要创新点是引入了 VAT 机制和半监督框架。原始的 scCRAFT 应为无监督或早期版本的整合模型，scCRAFT+ 在其基础上增加了对标记基因信息的处理能力。[待验证：scCRAFT 原始方法的具体架构和发表情况，需参考原始论文的相关工作部分]

Q5：scCRAFT+ 适用于哪些类型的 scRNA-seq 数据规模？大规模图谱数据（atlas-scale data）是否适用？

从论文描述的方法框架来看，scCRAFT+ 的半监督框架在原理上不限于特定数据规模。然而，VAT 在每次迭代中需要计算对抗扰动，这会增加相对于纯无监督方法的计算开销。对于大规模图谱数据（atlas-scale，通常指百万级细胞），计算效率是重要考量因素。[待验证：论文是否报告了具体的可处理细胞数量上限和运行时间基准，需参考原始论文的实验设置部分]

总结¶

scCRAFT+ 代表了 scRNA-seq 整合方法从无监督范式向半监督范式演进的一个重要步骤。其核心贡献可归纳为三点：

第一，创新性地将虚拟对抗训练（VAT）引入单细胞数据整合，通过局部预测平滑性约束实现了对噪声标记基因的鲁棒处理，填补了现有有监督方法在标注质量敏感性上的缺陷。

第二，联合优化整合与注释两个任务，使得整合质量和细胞类型自动注释相互促进，一次运行产出两类互洽的结果，简化了分析流程。

第三，在精细亚型区分上实现了突破，特别针对转录相似的亲缘细胞亚型场景，在基准测试中全面超越现有无监督与有监督方法，为免疫细胞亚群分析、发育轨迹重建等需要高分辨率细胞注释的应用场景提供了更可靠的整合工具。

对于从事多批次单细胞数据整合分析、尤其是关注细胞亚型精细鉴定的研究者，scCRAFT+ 提供了一条兼顾鲁棒性与生物学精度的可行路径。