46. 泛基因组分析(Pan-genome Analysis)¶
一句话说明:泛基因组是一个物种所有个体基因组的总和集合,通过分析哪些基因是共有的、哪些是特有的,揭示物种内部的遗传多样性全貌。
1. 什么是泛基因组(Pan-genome)¶
白话解释¶
想象一个班级拍集体照——单张照片(传统参考基因组)只能拍到站在前排的人,而泛基因组就像把全班每个人的照片都拍一遍再合在一起,这样就不会漏掉任何一个人的特征。
正式定义¶
泛基因组(Pan-genome)指一个物种(或一个群体)中所有个体的基因组序列的总集合。它包括: - 所有个体共享的序列 - 部分个体拥有的序列 - 某个个体独有的序列
概念起源¶
- 2005年,Tettelin 等人在研究 B 群链球菌时首次提出 "pan-genome" 概念
- 最初用于微生物基因组学(因为细菌基因组小、个体差异大)
- 后来扩展到植物基因组(水稻、小麦等作物)和人类基因组
2. 核心概念:Core / Accessory / Unique¶
泛基因组按照基因在群体中的分布频率,分为三个层次:
| 分类 | 英文名 | 定义 | 白话类比 |
|---|---|---|---|
| 核心基因组 | Core genome | 存在于所有(或≥99%)个体中的基因 | 每个人都有的"标配"——心脏、大脑 |
| 附属基因组 | Accessory genome(Shell/Cloud) | 存在于部分个体中的基因 | 有些人会长智齿、有些人不会 |
| 独有基因组 | Unique genome(Singleton) | 只存在于单个个体中的基因 | 你独有的胎记位置 |
更细分的划分(微生物常用)¶
Shell genes:在 15%-95% 的菌株中出现(中等频率)
Cloud genes:在 <15% 的菌株中出现(低频率)
Soft-core:在 95%-99% 的菌株中出现(接近核心但非100%)
生物学意义¶
| 分类 | 功能特点 |
|---|---|
| Core | 维持物种基本生存的必需基因(管家基因) |
| Accessory | 环境适应、抗性基因、毒力因子等 |
| Unique | 可能是近期水平基因转移、突变或测序错误 |
3. 人类泛基因组参考(T2T-CHM13 / HPRC)最新进展¶
3.1 T2T-CHM13:第一个完整人类基因组¶
背景问题:传统人类参考基因组 GRCh38 仍有约 8% 的序列是 gap(空缺),主要集中在着丝粒、端粒和重复序列区域。
T2T-CHM13 成果(2022年 Science 发表): - 全名:Telomere-to-Telomere(端粒到端粒) - 首次实现人类基因组从一端到另一端的完整无缺口组装 - 使用 CHM13(完全性葡萄胎细胞系,近乎纯合) - 新增约 2 亿 bp 序列(之前 GRCh38 中缺失的区域) - 补全了所有 22 条常染色体 + X 染色体的着丝粒序列 - 发现了约 2,000 个新基因(大部分是 rRNA 基因拷贝)
3.2 HPRC:人类泛基因组参考联盟¶
全称:Human Pangenome Reference Consortium
目标:构建一个能代表全球人类遗传多样性的泛基因组参考
Release 1(2023年5月,Nature 发表): - 47 个遗传多样性个体的双倍体、分相组装(phased diploid assemblies) - 共 94 条单倍型(haplotype) - 覆盖每个基因组 >99% 的预期序列 - 结构和碱基水平准确率 >99% - 相比 GRCh38 新增 1.19 亿 bp 常染色质多态序列 - 新增 1,115 个基因重复 - 约 9,000 万 bp 来自结构变异 - 使用泛基因组分析短读长数据:小变异发现错误减少 34%,结构变异检测数量增加 104%
Release 2(2025年春季): - 超过 200 个样本(>400 条单倍型) - 使用更先进的组装算法(整合 HiFi + ONT + Hi-C) - 更连续、结构更准确的组装 - 增加了碱基级别 polish 步骤,SNP 和 indel 错误减少一半以上 - 新增 HiFi 转录组数据用于基因注释
Release 3(2026年夏季,计划中): - 超过 350 个组装(>700 条单倍型) - 纳入国际合作伙伴数据(International Human Pangenome Project) - 目标:每条单倍型实现端粒到端粒(T2T)级别的完整组装
4. 微生物泛基因组分析工具¶
4.1 Roary(经典工具)¶
定位:快速大规模原核生物泛基因组分析流水线
特点: - 输入:GFF3 格式的基因注释文件(通常由 Prokka 生成) - 速度:128 个样本 < 1 小时(1 GB RAM,单核) - 核心算法:CD-HIT 聚类 + BLAST 比对 + MCL 聚类
安装(conda):
基本用法:
# 输入:prokka 注释后的 GFF 文件
# -p:线程数 -e -n:用 MAFFT 做核心基因比对 -f:输出目录
roary -p 8 -e -n -f roary_output *.gff
# 关键参数:
# -i 95 :blastp 最低相似度阈值(默认95%)
# -cd 99 :基因在多少比例的菌株中出现才算 core(默认99%)
输出文件: | 文件 | 内容 | |------|------| | gene_presence_absence.csv | 基因在每个样本中的有无矩阵 | | core_gene_alignment.aln | 核心基因的多序列比对 | | summary_statistics.txt | Core/Shell/Cloud 基因数量统计 | | pan_genome_reference.fa | 泛基因组代表序列 |
注意:Roary 已停止维护(最新 release 2019年),建议新项目使用 Panaroo。
4.2 Panaroo(推荐工具)¶
定位:Roary 的改进版,更准确的泛基因组分析
核心改进: - 使用图(graph)结构建模基因家族关系 - 能纠正基因注释错误(annotation errors) - 减少假阳性和假阴性 - 支持多种聚类严格度模式
安装:
基本用法:
# --clean-mode: strict(严格)/moderate(中等)/sensitive(敏感)
# -a core:输出核心基因比对
panaroo -i *.gff -o panaroo_output \
--clean-mode strict \
-a core \
-t 8
# QC检查(推荐先运行)
panaroo-qc -i *.gff -o qc_output -t 8
Roary vs Panaroo 对比:
| 特性 | Roary | Panaroo |
|---|---|---|
| 维护状态 | 已停止(2019) | 活跃维护(v1.6.0, 2026) |
| 注释错误处理 | 无 | 有(图清理算法) |
| 准确度 | 较高 | 更高 |
| 速度 | 快 | 稍慢(因为做了更多校正) |
| 输出兼容性 | 与 Scoary 等兼容 | 同样兼容 |
5. 泛基因组图(Pan-genome Graph)¶
概念解释¶
白话:传统参考基因组像一条单行道,所有人的 reads 都要映射到同一条路上;泛基因组图则像一张城市地图,有主路(参考路径)也有各种岔路(变异路径),每个人可以走不同的路线。
正式定义:泛基因组图是一种用图数据结构(节点 + 边 + 路径)表示多个基因组序列的方法,其中: - 节点(Node):DNA 序列片段 - 边(Edge):节点之间的连接关系 - 路径(Path):一个个体基因组在图中的走法
为什么需要图?¶
传统线性参考基因组的问题: 1. 参考偏差(Reference bias):与参考不同的 reads 更难比对上去 2. 丢失多样性:一条线性序列无法同时表示多个等位基因 3. 结构变异盲区:大的插入/缺失/倒位很难用线性坐标描述
泛基因组图的优势: 1. 同时编码多个单倍型 2. 减少比对偏差 3. 天然支持结构变异表示
5.1 vg(variation graph)¶
定位:变异图的全套工具集——构建、比对、基因分型、变异检测
GitHub Stars:1,300+(最活跃的泛基因组图工具)
核心功能: | 子命令 | 功能 | |--------|------| | vg construct | 从 VCF + FASTA 构建图 | | vg autoindex | 自动构建各类索引 | | vg giraffe | 快速短读长比对(推荐) | | vg map | 通用读长比对 | | vg call | 变异检测 | | vg deconstruct | 从图中提取 VCF | | vg surject | 图比对转换为 BAM |
HPRC 图的使用:
# 下载 HPRC 预构建的人类泛基因组图(GBZ格式)
# GBZ 是高度压缩格式,支持单倍型路径
# 使用 vg giraffe 进行快速比对
vg giraffe -Z hprc-v1.1-mc-grch38.gbz \
-f reads_1.fq.gz -f reads_2.fq.gz \
-o BAM > aligned.bam
图格式说明: | 格式 | 特点 | |------|------| | GFA | 文本格式,通用交换格式 | | VG (.vg) | vg 原生格式,支持编辑 | | GBZ (.gbz) | 高度压缩,适合大量单倍型路径 |
5.2 Minigraph(李恒开发)¶
定位:序列到图的比对器 + 图构建器
核心思路:增量式构图——以参考基因组为骨架,逐个添加新组装的序列差异
特点: - 由 minimap2 作者李恒(Heng Li)开发 - 专注于结构变异级别的图构建(不处理 SNP) - 速度极快:90 个人类组装 → 几天(24核) - 输出 rGFA 格式
安装与使用:
# 安装
git clone https://github.com/lh3/minigraph
cd minigraph && make
# 增量构图:以参考为骨架,逐步加入新样本
# -cxggs:构图模式
minigraph -cxggs -t16 ref.fa sample1.fa sample2.fa > pangenome.gfa
# 对单个样本调用结构变异
minigraph -cxasm --call pangenome.gfa sample.fa > sample.bed
# 提取所有气泡(bubble = 结构变异)
gfatools bubble pangenome.gfa > sv.bed
Minigraph-Cactus: - Minigraph + Cactus 的组合流水线 - 用于 HPRC 官方泛基因组图构建 - 能生成碱基级精确比对的全基因组图
vg vs Minigraph 对比¶
| 特性 | vg | Minigraph |
|---|---|---|
| 定位 | 全功能图分析工具集 | 图构建 + SV 检测 |
| 变异分辨率 | SNP 到 SV 全覆盖 | 主要处理 SV(>50bp) |
| 输入 | VCF/GFA/FASTA | FASTA 组装 |
| 速度 | 中等 | 极快 |
| 比对器 | giraffe(短读长)、map | 长读长/组装比对 |
| 维护 | 活跃(v1.73.0, 2026) | 活跃(v0.21, 2024) |
6. 泛基因组分析流程¶
6.1 微生物泛基因组标准流程¶
原始测序数据
↓ 质控(fastp/Trimmomatic)
↓ 组装(SPAdes/MEGAHIT)
基因组组装
↓ 基因注释(Prokka)
GFF3 注释文件
↓ 泛基因组分析(Panaroo/Roary)
↓
├── Core 基因比对 → 系统发育树(RAxML/IQ-TREE)
├── 基因有无矩阵 → 关联分析(Scoary)
└── 泛基因组曲线 → 开放/封闭判断
6.2 人类泛基因组分析流程¶
长读长测序(HiFi + ONT)+ Hi-C
↓ 组装(hifiasm + ONT 整合)
双倍体分相组装(diploid phased assembly)
↓ 质控(Merqury/QUAST)
高质量单倍型组装
↓ 图构建(Minigraph-Cactus)
泛基因组图(GFA/GBZ)
↓ 索引(vg autoindex)
↓
├── 短读长比对(vg giraffe)→ 变异检测(DeepVariant)
├── 结构变异检测(vg call / minigraph --call)
└── 群体遗传学分析
6.3 判断泛基因组是"开放"还是"封闭"¶
开放泛基因组(Open):加入新样本时基因总数持续增长
→ 典型代表:大肠杆菌、铜绿假单胞菌
→ 含义:物种获取外源基因能力强(水平基因转移活跃)
封闭泛基因组(Closed):加入新样本时基因总数趋于稳定
→ 典型代表:炭疽杆菌、结核分枝杆菌
→ 含义:物种基因组相对保守
7. 应用场景¶
7.1 精准医学¶
| 应用 | 说明 |
|---|---|
| 减少参考偏差 | 使用泛基因组图替代单一参考,提高变异检测准确性 |
| 结构变异检测 | HPRC 图使 SV 检测能力提升 104% |
| 药物基因组学 | 更准确识别 CYP450 等高度多态区域的变异 |
| 罕见病诊断 | 识别传统流程遗漏的致病变异 |
7.2 作物育种¶
| 应用 | 说明 |
|---|---|
| 发现抗性基因 | 在附属基因组中寻找抗病/抗旱基因 |
| 杂种优势 | 利用泛基因组理解杂交后的基因组贡献 |
| 种质资源评估 | 量化野生近缘种的遗传多样性 |
| 代表案例 | 水稻泛基因组(3,000+ 品种)、番茄泛基因组 |
7.3 微生物进化与公共卫生¶
| 应用 | 说明 |
|---|---|
| 毒力因子追踪 | Accessory genome 中寻找致病相关基因 |
| 抗生素耐药分析 | 耐药基因通常在附属/独有基因组中 |
| 流行病溯源 | Core genome SNP 树 + Accessory 基因比较 |
| GWAS 关联分析 | 用 Scoary 等工具做基因有无 vs 表型关联 |
8. 面试高频题(5道)¶
Q1:什么是泛基因组?和传统参考基因组有什么区别?¶
答题模板:
泛基因组是一个物种所有个体的基因组集合,包括 Core(所有个体共有)、Accessory(部分个体共有)和 Unique(个体特有)三部分。传统参考基因组只代表一个或少数个体,存在参考偏差问题——与参考不同的变异容易被遗漏。泛基因组通过同时表示多个个体的序列,解决了单一参考的局限性。以人类为例,HPRC 泛基因组相比 GRCh38 多了 1.19 亿 bp 的多态序列。
Q2:Core genome 和 Accessory genome 分别有什么生物学意义?¶
答题模板:
Core genome 包含物种生存的必需基因(管家基因),如 DNA 复制、转录翻译相关基因,进化上保守、突变率低。Accessory genome 包含环境适应相关基因,如抗生素耐药基因、毒力因子、代谢相关基因,它们使物种能适应不同的生态位。在微生物中,Accessory genes 常通过水平基因转移获得,是细菌快速适应环境的重要机制。
Q3:泛基因组图(Graph)比线性参考基因组有什么优势?¶
答题模板:
三个核心优势:(1) 减少参考偏差——图同时编码多个等位基因,与参考不同的 reads 也能准确比对;(2) 天然表示结构变异——插入、缺失、倒位在图中是不同路径,不需要额外编码;(3) 提高变异检测精度——HPRC 研究显示,使用泛基因组图分析短读长数据,小变异错误减少 34%,SV 检测增加 104%。代表工具有 vg(全功能分析)和 Minigraph(快速图构建)。
Q4:请比较 Roary 和 Panaroo 两个微生物泛基因组工具。¶
答题模板:
两者都是从 GFF 注释文件计算原核生物泛基因组的工具。Roary 是经典工具(2015年),速度快,128个样本不到1小时,但已停止维护。Panaroo(2020年)是改进版,核心改进在于使用图结构建模基因家族,能发现并纠正基因注释错误,减少假阳性/假阴性。对于新项目我推荐使用 Panaroo,它的
--clean-mode strict模式能有效过滤注释噪声。两者输出格式兼容,都可以接入下游的 Scoary 关联分析和系统发育分析。
Q5:HPRC 人类泛基因组的最新进展是什么?¶
答题模板:
HPRC 第一版(2023年5月 Nature)发布了 47 个个体的双倍体分相组装(94条单倍型),覆盖率和准确率均 >99%。2025年春季发布 Release 2,扩展到 200+ 样本(400+ 单倍型),使用 HiFi+ONT+Hi-C 整合的更先进组装算法,新增转录组数据支持基因注释。2026年夏季计划发布 Release 3,目标 350+ 组装(700+ 单倍型),实现每条单倍型 T2T 级别的完整组装。技术上,使用 Minigraph-Cactus 构建泛基因组图,vg giraffe 做快速比对,整个生态系统正在走向临床应用成熟。
9. 速查表¶
工具速查¶
| 工具 | 用途 | 输入 | 安装 |
|---|---|---|---|
| Prokka | 原核基因注释 | FASTA | conda install -c bioconda prokka |
| Roary | 微生物泛基因组(经典) | GFF | conda install -c bioconda roary |
| Panaroo | 微生物泛基因组(推荐) | GFF | conda install -c bioconda panaroo |
| Minigraph | 图构建 + SV | FASTA组装 | git clone + make |
| vg | 图比对/变异检测 | GBZ/GFA | 下载预编译二进制 |
| Minigraph-Cactus | 全基因组图构建 | FASTA组装 | pip install cactus |
| Scoary | 基因-表型关联 | gene_presence_absence.csv | conda install -c bioconda scoary |
| PGGB | 全基因组图构建 | FASTA | docker pull ghcr.io/pangenome/pggb |
概念速查¶
| 术语 | 含义 |
|---|---|
| Pan-genome | 物种所有个体基因组的集合 |
| Core genome | 所有个体共有的基因集 |
| Accessory genome | 部分个体拥有的基因集 |
| Unique/Singleton | 仅一个个体拥有的基因 |
| Open pan-genome | 基因总数随样本增加持续增长 |
| Closed pan-genome | 基因总数趋于稳定 |
| Reference bias | 线性参考导致的比对偏差 |
| Genome graph | 用图结构表示多个基因组 |
| GBZ | vg 的压缩图格式 |
| rGFA | Minigraph 的参考图格式 |
| Bubble | 图中的气泡结构,代表变异位点 |
| Haplotype path | 一条单倍型在图中的路径 |
| T2T | 端粒到端粒的完整组装 |
| HPRC | 人类泛基因组参考联盟 |
关键数字速记¶
| 数据点 | 数值 |
|---|---|
| HPRC Release 1 样本数 | 47 个体 / 94 单倍型 |
| HPRC Release 2 样本数 | 200+ 个体 / 400+ 单倍型 |
| HPRC Release 3 样本数 | 350+ 个体 / 700+ 单倍型 |
| T2T-CHM13 新增序列 | ~2 亿 bp |
| HPRC vs GRCh38 新增序列 | 1.19 亿 bp |
| 使用泛基因组后 SV 检测提升 | 104% |
| 使用泛基因组后小变异错误减少 | 34% |
| Roary 处理 128 样本耗时 | < 1 小时 |
10. 延伸资源¶
必读论文¶
- HPRC Draft Pangenome:Liao et al. "A draft human pangenome reference." Nature 617, 312-324 (2023). DOI: 10.1038/s41586-023-05896-x
- T2T-CHM13:Nurk et al. "The complete sequence of a human genome." Science 376, 44-53 (2022). DOI: 10.1126/science.abj6987
- Minigraph-Cactus:Hickey et al. "Pangenome graph construction from genome alignments with Minigraph-Cactus." Nature Biotechnology 42, 1031-1036 (2024).
- Roary:Page et al. "Roary: rapid large-scale prokaryote pan genome analysis." Bioinformatics 31, 3691-3693 (2015).
- Panaroo:Tonkin-Hill et al. "Producing polished prokaryotic pangenomes with the Panaroo pipeline." Genome Biology 21, 180 (2020).
在线资源¶
| 资源 | 网址 |
|---|---|
| HPRC 官网 | https://humanpangenome.org/ |
| HPRC 数据下载 | https://github.com/human-pangenomics |
| vg 文档 | https://github.com/vgteam/vg |
| Minigraph | https://github.com/lh3/minigraph |
| Panaroo 文档 | https://gtonkinhill.github.io/panaroo/ |
| T2T 联盟 | https://sites.google.com/ucsc.edu/t2tworkinggroup |
| HPRC 预构建图下载 | Zenodo(搜索 "HPRC pangenome graph") |
相关知识库文章¶
- 知识库1:基因组组装相关章节
- 知识库2:宏基因组分析流程(本知识库其他篇目)
小结¶
泛基因组分析正在从"前沿研究"走向"标准实践": - 微生物领域:Panaroo 已成为标准流水线的一部分 - 人类基因组:HPRC 泛基因组图正在逐步替代 GRCh38 成为新的参考标准 - 面试重点:理解 Core/Accessory/Unique 的概念、图的优势、HPRC 最新进展
对于该宏基因组方向面试,泛基因组分析与该肠道菌群研究直接相关——当你有多个菌株的基因组时,泛基因组分析能帮助你理解菌株间的功能差异(哪些基因是共有的管家基因,哪些是某些菌株特有的适应性基因)。