46. 泛基因组分析（Pan-genome Analysis）¶

一句话说明：泛基因组是一个物种所有个体基因组的总和集合，通过分析哪些基因是共有的、哪些是特有的，揭示物种内部的遗传多样性全貌。

1. 什么是泛基因组（Pan-genome）¶

白话解释¶

想象一个班级拍集体照——单张照片（传统参考基因组）只能拍到站在前排的人，而泛基因组就像把全班每个人的照片都拍一遍再合在一起，这样就不会漏掉任何一个人的特征。

正式定义¶

泛基因组（Pan-genome）指一个物种（或一个群体）中所有个体的基因组序列的总集合。它包括： - 所有个体共享的序列 - 部分个体拥有的序列 - 某个个体独有的序列

概念起源¶

2005年，Tettelin 等人在研究 B 群链球菌时首次提出 "pan-genome" 概念
最初用于微生物基因组学（因为细菌基因组小、个体差异大）
后来扩展到植物基因组（水稻、小麦等作物）和人类基因组

2. 核心概念：Core / Accessory / Unique¶

泛基因组按照基因在群体中的分布频率，分为三个层次：

分类	英文名	定义	白话类比
核心基因组	Core genome	存在于所有（或≥99%）个体中的基因	每个人都有的"标配"——心脏、大脑
附属基因组	Accessory genome（Shell/Cloud）	存在于部分个体中的基因	有些人会长智齿、有些人不会
独有基因组	Unique genome（Singleton）	只存在于单个个体中的基因	你独有的胎记位置

更细分的划分（微生物常用）¶

Shell genes：在 15%-95% 的菌株中出现（中等频率）
Cloud genes：在 <15% 的菌株中出现（低频率）
Soft-core：在 95%-99% 的菌株中出现（接近核心但非100%）

生物学意义¶

分类	功能特点
Core	维持物种基本生存的必需基因（管家基因）
Accessory	环境适应、抗性基因、毒力因子等
Unique	可能是近期水平基因转移、突变或测序错误

3. 人类泛基因组参考（T2T-CHM13 / HPRC）最新进展¶

3.1 T2T-CHM13：第一个完整人类基因组¶

背景问题：传统人类参考基因组 GRCh38 仍有约 8% 的序列是 gap（空缺），主要集中在着丝粒、端粒和重复序列区域。

T2T-CHM13 成果（2022年 Science 发表）： - 全名：Telomere-to-Telomere（端粒到端粒） - 首次实现人类基因组从一端到另一端的完整无缺口组装 - 使用 CHM13（完全性葡萄胎细胞系，近乎纯合） - 新增约 2 亿 bp 序列（之前 GRCh38 中缺失的区域） - 补全了所有 22 条常染色体 + X 染色体的着丝粒序列 - 发现了约 2,000 个新基因（大部分是 rRNA 基因拷贝）

3.2 HPRC：人类泛基因组参考联盟¶

全称：Human Pangenome Reference Consortium

目标：构建一个能代表全球人类遗传多样性的泛基因组参考

Release 1（2023年5月，Nature 发表）： - 47 个遗传多样性个体的双倍体、分相组装（phased diploid assemblies） - 共 94 条单倍型（haplotype） - 覆盖每个基因组 >99% 的预期序列 - 结构和碱基水平准确率 >99% - 相比 GRCh38 新增 1.19 亿 bp 常染色质多态序列 - 新增 1,115 个基因重复 - 约 9,000 万 bp 来自结构变异 - 使用泛基因组分析短读长数据：小变异发现错误减少 34%，结构变异检测数量增加 104%

Release 2（2025年春季）： - 超过 200 个样本（>400 条单倍型） - 使用更先进的组装算法（整合 HiFi + ONT + Hi-C） - 更连续、结构更准确的组装 - 增加了碱基级别 polish 步骤，SNP 和 indel 错误减少一半以上 - 新增 HiFi 转录组数据用于基因注释

Release 3（2026年夏季，计划中）： - 超过 350 个组装（>700 条单倍型） - 纳入国际合作伙伴数据（International Human Pangenome Project） - 目标：每条单倍型实现端粒到端粒（T2T）级别的完整组装

4. 微生物泛基因组分析工具¶

4.1 Roary（经典工具）¶

定位：快速大规模原核生物泛基因组分析流水线

特点： - 输入：GFF3 格式的基因注释文件（通常由 Prokka 生成） - 速度：128 个样本 < 1 小时（1 GB RAM，单核） - 核心算法：CD-HIT 聚类 + BLAST 比对 + MCL 聚类

安装（conda）：

# 创建环境并安装 Roary
conda install -c bioconda roary

基本用法：

# 输入：prokka 注释后的 GFF 文件
# -p：线程数  -e -n：用 MAFFT 做核心基因比对  -f：输出目录
roary -p 8 -e -n -f roary_output *.gff

# 关键参数：
# -i 95    ：blastp 最低相似度阈值（默认95%）
# -cd 99   ：基因在多少比例的菌株中出现才算 core（默认99%）

输出文件： | 文件 | 内容 | |------|------| | gene_presence_absence.csv | 基因在每个样本中的有无矩阵 | | core_gene_alignment.aln | 核心基因的多序列比对 | | summary_statistics.txt | Core/Shell/Cloud 基因数量统计 | | pan_genome_reference.fa | 泛基因组代表序列 |

注意：Roary 已停止维护（最新 release 2019年），建议新项目使用 Panaroo。

4.2 Panaroo（推荐工具）¶

定位：Roary 的改进版，更准确的泛基因组分析

核心改进： - 使用图（graph）结构建模基因家族关系 - 能纠正基因注释错误（annotation errors） - 减少假阳性和假阴性 - 支持多种聚类严格度模式

安装：

# conda 安装（推荐）
conda install -c bioconda panaroo

# 或 pip 安装
pip install panaroo

基本用法：

# --clean-mode: strict（严格）/moderate（中等）/sensitive（敏感）
# -a core：输出核心基因比对
panaroo -i *.gff -o panaroo_output \
    --clean-mode strict \
    -a core \
    -t 8

# QC检查（推荐先运行）
panaroo-qc -i *.gff -o qc_output -t 8

Roary vs Panaroo 对比：

特性	Roary	Panaroo
维护状态	已停止（2019）	活跃维护（v1.6.0, 2026）
注释错误处理	无	有（图清理算法）
准确度	较高	更高
速度	快	稍慢（因为做了更多校正）
输出兼容性	与 Scoary 等兼容	同样兼容

5. 泛基因组图（Pan-genome Graph）¶

概念解释¶

白话：传统参考基因组像一条单行道，所有人的 reads 都要映射到同一条路上；泛基因组图则像一张城市地图，有主路（参考路径）也有各种岔路（变异路径），每个人可以走不同的路线。

正式定义：泛基因组图是一种用图数据结构（节点 + 边 + 路径）表示多个基因组序列的方法，其中： - 节点（Node）：DNA 序列片段 - 边（Edge）：节点之间的连接关系 - 路径（Path）：一个个体基因组在图中的走法

为什么需要图？¶

传统线性参考基因组的问题： 1. 参考偏差（Reference bias）：与参考不同的 reads 更难比对上去 2. 丢失多样性：一条线性序列无法同时表示多个等位基因 3. 结构变异盲区：大的插入/缺失/倒位很难用线性坐标描述

泛基因组图的优势： 1. 同时编码多个单倍型 2. 减少比对偏差 3. 天然支持结构变异表示

5.1 vg（variation graph）¶

定位：变异图的全套工具集——构建、比对、基因分型、变异检测

GitHub Stars：1,300+（最活跃的泛基因组图工具）

核心功能： | 子命令 | 功能 | |--------|------| | vg construct | 从 VCF + FASTA 构建图 | | vg autoindex | 自动构建各类索引 | | vg giraffe | 快速短读长比对（推荐） | | vg map | 通用读长比对 | | vg call | 变异检测 | | vg deconstruct | 从图中提取 VCF | | vg surject | 图比对转换为 BAM |

HPRC 图的使用：

# 下载 HPRC 预构建的人类泛基因组图（GBZ格式）
# GBZ 是高度压缩格式，支持单倍型路径

# 使用 vg giraffe 进行快速比对
vg giraffe -Z hprc-v1.1-mc-grch38.gbz \
    -f reads_1.fq.gz -f reads_2.fq.gz \
    -o BAM > aligned.bam

图格式说明： | 格式 | 特点 | |------|------| | GFA | 文本格式，通用交换格式 | | VG (.vg) | vg 原生格式，支持编辑 | | GBZ (.gbz) | 高度压缩，适合大量单倍型路径 |

5.2 Minigraph（李恒开发）¶

定位：序列到图的比对器 + 图构建器

核心思路：增量式构图——以参考基因组为骨架，逐个添加新组装的序列差异

特点： - 由 minimap2 作者李恒（Heng Li）开发 - 专注于结构变异级别的图构建（不处理 SNP） - 速度极快：90 个人类组装 → 几天（24核） - 输出 rGFA 格式

安装与使用：

# 安装
git clone https://github.com/lh3/minigraph
cd minigraph && make

# 增量构图：以参考为骨架，逐步加入新样本
# -cxggs：构图模式
minigraph -cxggs -t16 ref.fa sample1.fa sample2.fa > pangenome.gfa

# 对单个样本调用结构变异
minigraph -cxasm --call pangenome.gfa sample.fa > sample.bed

# 提取所有气泡（bubble = 结构变异）
gfatools bubble pangenome.gfa > sv.bed

Minigraph-Cactus： - Minigraph + Cactus 的组合流水线 - 用于 HPRC 官方泛基因组图构建 - 能生成碱基级精确比对的全基因组图

vg vs Minigraph 对比¶

特性	vg	Minigraph
定位	全功能图分析工具集	图构建 + SV 检测
变异分辨率	SNP 到 SV 全覆盖	主要处理 SV（>50bp）
输入	VCF/GFA/FASTA	FASTA 组装
速度	中等	极快
比对器	giraffe（短读长）、map	长读长/组装比对
维护	活跃（v1.73.0, 2026）	活跃（v0.21, 2024）

6. 泛基因组分析流程¶

6.1 微生物泛基因组标准流程¶

原始测序数据
    ↓ 质控（fastp/Trimmomatic）
    ↓ 组装（SPAdes/MEGAHIT）
基因组组装
    ↓ 基因注释（Prokka）
GFF3 注释文件
    ↓ 泛基因组分析（Panaroo/Roary）
    ↓
├── Core 基因比对 → 系统发育树（RAxML/IQ-TREE）
├── 基因有无矩阵 → 关联分析（Scoary）
└── 泛基因组曲线 → 开放/封闭判断

6.2 人类泛基因组分析流程¶

长读长测序（HiFi + ONT）+ Hi-C
    ↓ 组装（hifiasm + ONT 整合）
双倍体分相组装（diploid phased assembly）
    ↓ 质控（Merqury/QUAST）
高质量单倍型组装
    ↓ 图构建（Minigraph-Cactus）
泛基因组图（GFA/GBZ）
    ↓ 索引（vg autoindex）
    ↓
├── 短读长比对（vg giraffe）→ 变异检测（DeepVariant）
├── 结构变异检测（vg call / minigraph --call）
└── 群体遗传学分析

6.3 判断泛基因组是"开放"还是"封闭"¶

开放泛基因组（Open）：加入新样本时基因总数持续增长
    → 典型代表：大肠杆菌、铜绿假单胞菌
    → 含义：物种获取外源基因能力强（水平基因转移活跃）

封闭泛基因组（Closed）：加入新样本时基因总数趋于稳定
    → 典型代表：炭疽杆菌、结核分枝杆菌
    → 含义：物种基因组相对保守

7. 应用场景¶

7.1 精准医学¶

应用	说明
减少参考偏差	使用泛基因组图替代单一参考，提高变异检测准确性
结构变异检测	HPRC 图使 SV 检测能力提升 104%
药物基因组学	更准确识别 CYP450 等高度多态区域的变异
罕见病诊断	识别传统流程遗漏的致病变异

7.2 作物育种¶

应用	说明
发现抗性基因	在附属基因组中寻找抗病/抗旱基因
杂种优势	利用泛基因组理解杂交后的基因组贡献
种质资源评估	量化野生近缘种的遗传多样性
代表案例	水稻泛基因组（3,000+ 品种）、番茄泛基因组

7.3 微生物进化与公共卫生¶

应用	说明
毒力因子追踪	Accessory genome 中寻找致病相关基因
抗生素耐药分析	耐药基因通常在附属/独有基因组中
流行病溯源	Core genome SNP 树 + Accessory 基因比较
GWAS 关联分析	用 Scoary 等工具做基因有无 vs 表型关联

8. 面试高频题（5道）¶

Q1：什么是泛基因组？和传统参考基因组有什么区别？¶

答题模板：

泛基因组是一个物种所有个体的基因组集合，包括 Core（所有个体共有）、Accessory（部分个体共有）和 Unique（个体特有）三部分。传统参考基因组只代表一个或少数个体，存在参考偏差问题——与参考不同的变异容易被遗漏。泛基因组通过同时表示多个个体的序列，解决了单一参考的局限性。以人类为例，HPRC 泛基因组相比 GRCh38 多了 1.19 亿 bp 的多态序列。

Q2：Core genome 和 Accessory genome 分别有什么生物学意义？¶

答题模板：

Core genome 包含物种生存的必需基因（管家基因），如 DNA 复制、转录翻译相关基因，进化上保守、突变率低。Accessory genome 包含环境适应相关基因，如抗生素耐药基因、毒力因子、代谢相关基因，它们使物种能适应不同的生态位。在微生物中，Accessory genes 常通过水平基因转移获得，是细菌快速适应环境的重要机制。

Q3：泛基因组图（Graph）比线性参考基因组有什么优势？¶

答题模板：

三个核心优势：(1) 减少参考偏差——图同时编码多个等位基因，与参考不同的 reads 也能准确比对；(2) 天然表示结构变异——插入、缺失、倒位在图中是不同路径，不需要额外编码；(3) 提高变异检测精度——HPRC 研究显示，使用泛基因组图分析短读长数据，小变异错误减少 34%，SV 检测增加 104%。代表工具有 vg（全功能分析）和 Minigraph（快速图构建）。

Q4：请比较 Roary 和 Panaroo 两个微生物泛基因组工具。¶

答题模板：

两者都是从 GFF 注释文件计算原核生物泛基因组的工具。Roary 是经典工具（2015年），速度快，128个样本不到1小时，但已停止维护。Panaroo（2020年）是改进版，核心改进在于使用图结构建模基因家族，能发现并纠正基因注释错误，减少假阳性/假阴性。对于新项目我推荐使用 Panaroo，它的 --clean-mode strict 模式能有效过滤注释噪声。两者输出格式兼容，都可以接入下游的 Scoary 关联分析和系统发育分析。

Q5：HPRC 人类泛基因组的最新进展是什么？¶

答题模板：

HPRC 第一版（2023年5月 Nature）发布了 47 个个体的双倍体分相组装（94条单倍型），覆盖率和准确率均 >99%。2025年春季发布 Release 2，扩展到 200+ 样本（400+ 单倍型），使用 HiFi+ONT+Hi-C 整合的更先进组装算法，新增转录组数据支持基因注释。2026年夏季计划发布 Release 3，目标 350+ 组装（700+ 单倍型），实现每条单倍型 T2T 级别的完整组装。技术上，使用 Minigraph-Cactus 构建泛基因组图，vg giraffe 做快速比对，整个生态系统正在走向临床应用成熟。

9. 速查表¶

工具速查¶

工具	用途	输入	安装
Prokka	原核基因注释	FASTA	`conda install -c bioconda prokka`
Roary	微生物泛基因组（经典）	GFF	`conda install -c bioconda roary`
Panaroo	微生物泛基因组（推荐）	GFF	`conda install -c bioconda panaroo`
Minigraph	图构建 + SV	FASTA组装	`git clone + make`
vg	图比对/变异检测	GBZ/GFA	下载预编译二进制
Minigraph-Cactus	全基因组图构建	FASTA组装	`pip install cactus`
Scoary	基因-表型关联	gene_presence_absence.csv	`conda install -c bioconda scoary`
PGGB	全基因组图构建	FASTA	`docker pull ghcr.io/pangenome/pggb`

概念速查¶

术语	含义
Pan-genome	物种所有个体基因组的集合
Core genome	所有个体共有的基因集
Accessory genome	部分个体拥有的基因集
Unique/Singleton	仅一个个体拥有的基因
Open pan-genome	基因总数随样本增加持续增长
Closed pan-genome	基因总数趋于稳定
Reference bias	线性参考导致的比对偏差
Genome graph	用图结构表示多个基因组
GBZ	vg 的压缩图格式
rGFA	Minigraph 的参考图格式
Bubble	图中的气泡结构，代表变异位点
Haplotype path	一条单倍型在图中的路径
T2T	端粒到端粒的完整组装
HPRC	人类泛基因组参考联盟

关键数字速记¶

数据点	数值
HPRC Release 1 样本数	47 个体 / 94 单倍型
HPRC Release 2 样本数	200+ 个体 / 400+ 单倍型
HPRC Release 3 样本数	350+ 个体 / 700+ 单倍型
T2T-CHM13 新增序列	~2 亿 bp
HPRC vs GRCh38 新增序列	1.19 亿 bp
使用泛基因组后 SV 检测提升	104%
使用泛基因组后小变异错误减少	34%
Roary 处理 128 样本耗时	< 1 小时

10. 延伸资源¶

必读论文¶

HPRC Draft Pangenome：Liao et al. "A draft human pangenome reference." Nature 617, 312-324 (2023). DOI: 10.1038/s41586-023-05896-x
T2T-CHM13：Nurk et al. "The complete sequence of a human genome." Science 376, 44-53 (2022). DOI: 10.1126/science.abj6987
Minigraph-Cactus：Hickey et al. "Pangenome graph construction from genome alignments with Minigraph-Cactus." Nature Biotechnology 42, 1031-1036 (2024).
Roary：Page et al. "Roary: rapid large-scale prokaryote pan genome analysis." Bioinformatics 31, 3691-3693 (2015).
Panaroo：Tonkin-Hill et al. "Producing polished prokaryotic pangenomes with the Panaroo pipeline." Genome Biology 21, 180 (2020).

在线资源¶

资源	网址
HPRC 官网	https://humanpangenome.org/
HPRC 数据下载	https://github.com/human-pangenomics
vg 文档	https://github.com/vgteam/vg
Minigraph	https://github.com/lh3/minigraph
Panaroo 文档	https://gtonkinhill.github.io/panaroo/
T2T 联盟	https://sites.google.com/ucsc.edu/t2tworkinggroup
HPRC 预构建图下载	Zenodo（搜索 "HPRC pangenome graph"）

小结¶

泛基因组分析正在从"前沿研究"走向"标准实践"： - 微生物领域：Panaroo 已成为标准流水线的一部分 - 人类基因组：HPRC 泛基因组图正在逐步替代 GRCh38 成为新的参考标准 - 面试重点：理解 Core/Accessory/Unique 的概念、图的优势、HPRC 最新进展

对于该宏基因组方向面试，泛基因组分析与该肠道菌群研究直接相关——当你有多个菌株的基因组时，泛基因组分析能帮助你理解菌株间的功能差异（哪些基因是共有的管家基因，哪些是某些菌株特有的适应性基因）。

46. 泛基因组分析（Pan-genome Analysis）¶

1. 什么是泛基因组（Pan-genome）¶

白话解释¶

正式定义¶

概念起源¶

2. 核心概念：Core / Accessory / Unique¶

更细分的划分（微生物常用）¶

生物学意义¶

3. 人类泛基因组参考（T2T-CHM13 / HPRC）最新进展¶

3.1 T2T-CHM13：第一个完整人类基因组¶

3.2 HPRC：人类泛基因组参考联盟¶

4. 微生物泛基因组分析工具¶

4.1 Roary（经典工具）¶

4.2 Panaroo（推荐工具）¶

5. 泛基因组图（Pan-genome Graph）¶

概念解释¶

为什么需要图？¶

5.1 vg（variation graph）¶

5.2 Minigraph（李恒开发）¶

vg vs Minigraph 对比¶

6. 泛基因组分析流程¶

6.1 微生物泛基因组标准流程¶

6.2 人类泛基因组分析流程¶

6.3 判断泛基因组是"开放"还是"封闭"¶

7. 应用场景¶

7.1 精准医学¶

7.2 作物育种¶

7.3 微生物进化与公共卫生¶

8. 面试高频题（5道）¶

Q1：什么是泛基因组？和传统参考基因组有什么区别？¶

Q2：Core genome 和 Accessory genome 分别有什么生物学意义？¶

Q3：泛基因组图（Graph）比线性参考基因组有什么优势？¶

Q4：请比较 Roary 和 Panaroo 两个微生物泛基因组工具。¶

Q5：HPRC 人类泛基因组的最新进展是什么？¶

9. 速查表¶

工具速查¶

概念速查¶

关键数字速记¶

10. 延伸资源¶

必读论文¶

在线资源¶

相关知识库文章¶

小结¶