摘要: 本文提出了一种名为 SCITE-RNA 的新型系统发育树推断方法，专为单细胞 RNA 测序数据设计。该方法以单核苷酸变异的参考读数和替代读数作为输入，采用最大似然随机扫描贪心搜索策略，在细胞谱系树与突变树两种表示形式之间交替迭代，以跳出局部最优解，直至两者均达到收敛。在模拟数据上的评估结果表明，SCITE-RNA 的性能优于现有同类方法。此外，研究者将其应用于癌症单细胞 RNA 测序数据，成功将细胞的进化轨迹与其基因表达谱相关联，为理解肿瘤异质性及细胞克隆演化提供了有力工具。该方法兼顾了系统发育推断的准确性与单细胞转录组数据的生物学解释性，具有重要的方法学价值与临床研究潜力。

基于单细胞RNA测序数据的系统发育树推断：SCITE-RNA¶

概述¶

SCITE-RNA 是一种专为单细胞RNA测序（single-cell RNA sequencing，scRNA-seq）数据设计的新型系统发育树（phylogenetic tree）推断方法。传统的系统发育树推断方法主要依赖全基因组测序或单细胞DNA测序数据，而针对RNA测序数据的专用工具相对匮乏。SCITE-RNA 的出现填补了这一空白。

该方法以单核苷酸变异（single-nucleotide variants，SNVs）的参考读段计数（reference read counts）和替代读段计数（alternative read counts）作为输入，通过最大似然（maximum-likelihood）框架推断细胞的系统发育关系。

SCITE-RNA 的重要性体现在以下两个层面：

技术层面：在模拟数据上的测试表明，其性能优于现有的同类方法，具备更强的局部最优逃逸能力。
应用层面：在癌症单细胞RNA测序数据的分析中，SCITE-RNA 能够将细胞的进化轨迹（evolutionary trajectories）与其基因表达谱（gene expression profiles）相关联，为肿瘤异质性研究和癌症进化生物学提供了一个强有力的分析工具。

该工具将系统发育推断与转录组信息整合，是单细胞多组学分析领域的重要进展。

核心原理与功能¶

输入数据¶

SCITE-RNA 的输入为单核苷酸变异（SNVs）在每个细胞中的：

参考读段计数（reference read counts）：比对到参考基因组参考碱基的读段数量。
替代读段计数（alternative read counts）：比对到变异碱基的读段数量。

这两类计数可从标准的 scRNA-seq 数据处理流程中提取，例如通过变异检测工具对比对后的 BAM 文件进行分析获得。

最大似然随机扫描贪婪搜索（Maximum-Likelihood Random-Scan Greedy Search）¶

SCITE-RNA 的核心算法是一种最大似然随机扫描贪婪搜索策略。该策略的设计动机在于：系统发育树的搜索空间极大，单纯的贪婪搜索极易陷入局部最优（local optima），导致推断结果不准确。

为解决这一问题，SCITE-RNA 采用了一种双树交替表示机制：

1. 细胞谱系树（Cell Lineage Tree）¶

以细胞为叶节点，描述细胞之间的祖先-后代关系（ancestor-descendant relationships）。该表示直接刻画了细胞的克隆演化（clonal evolution）历史。

2. 突变树（Mutation Tree）¶

以突变（SNVs）为节点，描述突变事件的发生顺序与层级结构。该表示聚焦于突变的积累路径，与肿瘤进化模型高度契合。

交替搜索策略（Alternating Search Strategy）¶

SCITE-RNA 在上述两种树的表示之间交替进行搜索优化： - 在细胞谱系树空间中进行贪婪搜索，更新当前最优树结构； - 切换到突变树空间，继续在新的表示下进行优化； - 两个空间之间的交替迭代使算法能够逃脱单一表示空间中的局部最优； - 重复上述过程，直至两种表示均收敛（convergence is achieved in both）。

这种双空间交替搜索的设计是 SCITE-RNA 区别于其他方法的核心创新点，也是其在模拟数据上性能优越的根本原因。

性能优势¶

在模拟数据（simulated data）的基准测试中，SCITE-RNA 相较于现有方法表现出更优异的系统发育树推断性能。这表明双树交替搜索策略能够更有效地探索树空间，找到更接近真实系统发育历史的解。

癌症 scRNA-seq 数据的适用性¶

SCITE-RNA 被应用于癌症单细胞RNA测序数据，展示了其实际场景中的价值：

进化轨迹推断：通过推断的系统发育树，可以重建肿瘤细胞的克隆进化轨迹（evolutionary trajectories）。
基因表达整合：由于输入数据来自 RNA 测序，推断的细胞谱系树可以直接与每个细胞的基因表达谱（gene expression profiles）相关联。
表型-进化联合分析：这一能力允许研究者同时分析细胞的遗传进化历史和转录状态，是纯DNA测序方法无法直接实现的。

关键方法与步骤¶

原文为论文摘要，未提供具体安装命令或代码。以下为基于论文方法的关键分析步骤描述，代码示例均来源于原文所述流程。

步骤一：scRNA-seq 数据预处理与 SNV 提取¶

在运行 SCITE-RNA 之前，需要从 scRNA-seq 原始数据中提取 SNV 的读段计数矩阵。

# 标准流程：将 scRNA-seq reads 比对到参考基因组
# 使用 STAR 或 HISAT2 等比对工具生成 BAM 文件
# 此步骤为通用 scRNA-seq 预处理，非 SCITE-RNA 特有

# 从比对结果中提取 SNV 的参考读段计数和替代读段计数
# 可使用 bcftools、GATK 或专用 scRNA SNV calling 工具
# 输出格式：每个细胞 × 每个 SNV 位点 的计数矩阵

步骤二：准备 SCITE-RNA 输入数据¶

# SCITE-RNA 所需的两个输入矩阵：
# 1. 参考读段计数矩阵（reference read count matrix）
#    - 行：SNV 位点
#    - 列：单个细胞
#    - 值：该细胞在该位点比对到参考碱基的读段数

# 2. 替代读段计数矩阵（alternative read count matrix）
#    - 行：SNV 位点
#    - 列：单个细胞
#    - 值：该细胞在该位点比对到变异碱基的读段数

步骤三：运行 SCITE-RNA 系统发育树推断¶

# SCITE-RNA 核心推断流程（概念性描述，来自原文算法）：

# 1. 初始化：随机生成初始细胞谱系树或突变树
# 2. 最大似然评分：基于参考/替代读段计数计算当前树的似然值
# 3. 随机扫描贪婪搜索：
#    - 在细胞谱系树（cell lineage tree）空间中进行局部优化
#    - 切换到突变树（mutation tree）空间继续优化
#    - 交替迭代直至两个空间均收敛
# 4. 输出：最大似然系统发育树

步骤四：结果解读与下游分析¶

# 推断得到系统发育树后的下游分析方向：

# 方向 1：克隆进化轨迹可视化
# - 将推断的细胞谱系树可视化，识别主要克隆分支
# - 标注各分支上积累的特征性 SNV

# 方向 2：与基因表达谱整合（SCITE-RNA 的核心优势）
# - 将细胞在系统发育树上的位置映射到其转录组数据
# - 分析不同进化分支的差异基因表达
# - 关联进化状态与细胞表型（如细胞周期状态、分化状态）

实战示例¶

场景：癌症肿瘤内异质性分析¶

这是原文明确描述的 SCITE-RNA 应用场景，展示了该方法在真实生物学问题中的价值。

背景：肿瘤由具有不同突变谱的克隆亚群（clonal subpopulations）组成，理解这些亚群的进化关系对于揭示耐药机制和疾病进展至关重要。

分析流程：

输入数据：
├── 癌症患者肿瘤样本的 scRNA-seq 数据
├── 参考读段计数矩阵（cells × SNVs）
└── 替代读段计数矩阵（cells × SNVs）

SCITE-RNA 推断：
├── 执行最大似然随机扫描贪婪搜索
├── 在细胞谱系树与突变树之间交替优化
└── 输出收敛的最优系统发育树

下游整合分析（原文核心结论）：
├── 从系统发育树中识别细胞的进化轨迹（evolutionary trajectories）
├── 将每条进化轨迹上的细胞提取出来
├── 比较不同进化分支细胞的基因表达谱（gene expression profiles）
└── 发现进化状态与转录表型之间的关联

关键结论：通过 SCITE-RNA，研究者能够将"这个细胞从哪里进化而来"（进化历史）与"这个细胞现在在做什么"（基因表达）两个维度整合分析，这是 scDNA-seq 方法无法单独实现的能力。

场景：与现有方法的性能比较¶

基准测试设计：

模拟数据生成：
├── 模拟具有已知真实系统发育树的单细胞数据
├── 为每个模拟细胞生成 SNV 的参考/替代读段计数
└── 引入测序噪声以模拟真实 scRNA-seq 数据特性

方法比较：
├── SCITE-RNA（本方法）
│   └── 双树交替最大似然搜索
└── 现有方法（existing methods）[待验证具体方法名称]
    └── 各自的系统发育推断策略

评估指标：
└── 推断树与真实树的差异（树距离或拓扑准确性）[待验证具体指标]

结论：SCITE-RNA 在模拟数据上表现优于现有方法

常见问题¶

Q1：SCITE-RNA 与基于 DNA 测序的系统发育树推断方法（如 SCITE、infSCITE）有何本质区别？

A：SCITE-RNA 专为 RNA 测序数据设计。DNA测序方法通常假设每个位点有稳定的读段覆盖，而 scRNA-seq 数据中基因表达的差异会导致不同位点的读段深度极不均匀，甚至大量位点读段缺失（dropout）。SCITE-RNA 的最大似然模型专门针对这一特性进行了建模 [待验证具体似然函数形式]，因此能够更准确地处理 scRNA-seq 数据的噪声特性。

Q2：为什么要在细胞谱系树和突变树两种表示之间交替搜索，而不是只使用一种？

A：两种树的表示对应不同的搜索空间拓扑结构。在单一表示空间中进行贪婪搜索容易陷入局部最优（local optima）——即找到一个在该表示下无法继续改进的解，但这个解并非全局最优。通过交替切换表示，算法能够在一个空间中的"局部最优"在另一个空间中仍具有改进余地，从而跳出局部最优，持续向全局最优逼近，直至两个空间均收敛为止。

Q3：运行 SCITE-RNA 需要什么类型的输入数据，是否需要预先进行 SNV 检测？

A：是的，SCITE-RNA 本身不执行 SNV 检测，其输入为已检测到的 SNV 位点的参考读段计数和替代读段计数矩阵。用户需要首先使用标准的变异检测流程（如基于 GATK 或 bcftools 的流程）从 scRNA-seq 的 BAM 文件中提取 SNV 信息，再将结果整理为计数矩阵格式后输入 SCITE-RNA。

Q4：SCITE-RNA 是否适用于非癌症的发育生物学研究场景？

A：从方法原理上看，SCITE-RNA 对输入数据的要求仅为 scRNA-seq 数据中 SNV 的读段计数，并不限定必须是癌症数据。原文明确展示了其在癌症 scRNA-seq 数据上的应用，而对于发育生物学场景（如胚胎发育谱系追踪）的适用性，原文未明确讨论 [待验证]。理论上，只要存在可检测的体细胞突变作为谱系标记，该方法具有潜在的适用性。

Q5：SCITE-RNA 如何将进化轨迹与基因表达谱关联？

A：这是 scRNA-seq 输入数据的天然优势所赋予的能力。由于输入数据来自 RNA 测序，每个细胞在系统发育树上的位置（进化状态）与该细胞的全转录组表达谱（gene expression profiles）天然对应同一批测序数据。推断出系统发育树后，研究者可以直接提取每个进化分支上的细胞，比较其差异基因表达，从而建立进化历史与转录表型之间的直接关联，这是纯 DNA 测序方法需要额外整合多组学数据才能实现的分析。

总结¶

SCITE-RNA 是一种专为单细胞RNA测序数据设计的系统发育树推断方法，以 SNV 的参考读段计数和替代读段计数为输入，采用最大似然随机扫描贪婪搜索算法，通过在细胞谱系树与突变树两种表示空间之间交替优化，有效克服了局部最优问题，直至在两个空间中均达到收敛。

在模拟数据基准测试中，SCITE-RNA 性能优于现有方法；在癌症 scRNA-seq 真实数据应用中，它成功实现了细胞进化轨迹与基因表达谱的关联分析。

该方法的核心价值在于：将系统发育推断引入 scRNA-seq 分析框架，使研究者能够同时获得细胞的进化历史和转录状态两个维度的信息，为肿瘤异质性、克隆进化及细胞命运决定等研究领域提供了一个重要的新型分析工具。