16S 扩增子测序分析——从原理到面试¶
1. 一句话说明¶
16S 扩增子测序是通过 PCR 扩增细菌/古菌共有的 16S rRNA 基因的特定可变区,再用高通量测序来鉴定样本中"有哪些菌、各占多少"的技术——白话说就是"用细菌的身份证基因来给一个样本里的菌群做人口普查"。
注意与知识库 15(QIIME2 微生物组分析)的分工:15 侧重 QIIME2 这个工具的安装和操作流程,本篇侧重 16S 分析本身的生物学原理和完整知识体系。
2. 16S rRNA 基因是什么¶
2.1 基本概念¶
16S rRNA(16S ribosomal RNA)是原核生物(细菌和古菌)核糖体 30S 小亚基的 RNA 组分,由 16S rRNA 基因编码。
关键特征:
| 特征 | 说明 |
|---|---|
| 基因长度 | 约 1542 bp(大肠杆菌为参考) |
| 拷贝数 | 每个菌基因组中有 1~15 个拷贝(平均约 4.2 个),不同拷贝之间可能有微小差异 |
| 普遍性 | 几乎所有已知细菌和古菌都含有此基因 |
| 进化速率 | 慢——功能太重要(蛋白质合成必需),突变大多是致死的,所以进化很保守 |
白话:16S rRNA 基因就像每个细菌都必须携带的一张"身份证"。因为造蛋白质的核糖体不能乱变,所以这张身份证几十亿年来格式都差不多——但"号码"部分(可变区)不同菌还是不一样的,我们就靠读这个号码来认菌。
2.2 保守区与可变区¶
16S rRNA 基因由9 个保守区(C1-C9)和9 个可变区(V1-V9)交替排列组成:
5' ─[C1]─[V1]─[C2]─[V2]─[C3]─[V3]─[C4]─[V4]─[C5]─[V5]─[C6]─[V6]─[C7]─[V7]─[C8]─[V8]─[C9]─[V9]─ 3'
保守 可变 保守 可变 保守 可变 保守 可变 保守 可变 保守 可变 保守 可变 保守 可变 保守 可变
| 区域类型 | 作用 | 白话 |
|---|---|---|
| 保守区(C) | 几乎所有细菌都一样,用来设计"通用引物",一网打尽所有菌 | 身份证的统一格式——姓名栏、地址栏的位置都是固定的 |
| 可变区(V) | 不同菌在这些位置的序列不同,用来区分物种 | 身份证上具体填的名字和地址——每人不一样 |
2.3 为什么偏偏选 16S¶
| 候选基因 | 问题 | 16S 的优势 |
|---|---|---|
| 管家基因(rpoB, gyrB 等) | 没有通用引物,不同菌需要不同引物 | 保守区足够保守,一对引物能"钓"到几乎所有细菌 |
| 23S rRNA | 太长(~2900 bp),测序成本高,且可变区分辨力不比 16S 好多少 | 长度适中(~1500 bp),与二代测序读长匹配 |
| 5S rRNA | 太短(~120 bp),信息量不够 | V 区足够多,提供足够的物种分辨力 |
白话:选 16S 的核心理由三条——(1) 所有细菌都有;(2) 有通用引物能一次抓住全部;(3) 长度刚好够区分物种又不会测不完。这三个条件同时满足的基因,目前只有 16S 最合适。
3. 16S vs ITS vs 18S——选哪个取决于你要研究什么¶
| 对比维度 | 16S rRNA | ITS(Internal Transcribed Spacer) | 18S rRNA |
|---|---|---|---|
| 目标生物 | 细菌和古菌(原核生物) | 真菌 | 真核生物(原生动物、藻类、真菌等) |
| 基因位置 | 原核 30S 核糖体小亚基 | rRNA 基因簇中的间隔区(18S-5.8S-28S 之间) | 真核 40S 核糖体小亚基 |
| 长度 | ~1542 bp | ITS1: ~200-600 bp; ITS2: ~200-400 bp | ~1800 bp |
| 分辨能力 | 属→种级别 | 种→甚至菌株级别(真菌鉴定金标准) | 门→属级别(分辨力较低) |
| 数据库 | SILVA, Greengenes2, RDP | UNITE | SILVA (18S 部分), PR2 |
| 常见引物 | 515F/806R (V4), 341F/805R (V3-V4) | ITS1F/ITS2, ITS3/ITS4 | Euk1391f/EukBr |
| 典型应用 | 肠道菌群、土壤细菌、水体微生物 | 土壤真菌、植物根际真菌、食品发酵 | 海洋浮游生物、环境真核微生物 |
选择决策树:
你研究的是什么生物?
├── 细菌/古菌 → 16S rRNA(最成熟、数据库最全)
├── 真菌 → ITS(真菌鉴定的金标准,UNITE 数据库)
├── 真核微生物(原生生物、藻类) → 18S rRNA
└── 什么都想看 → 考虑鸟枪法宏基因组(shotgun metagenomics)
白话:16S 是"查细菌户口的",ITS 是"查真菌户口的",18S 是"查所有真核微生物户口的"。它们不是竞争关系,而是分工合作。该 T2D 项目关注肠道细菌,所以对应的就是 16S。
4. 引物选择——V 区不同,结果不同¶
4.1 主流引物方案对比¶
| 引物方案 | 目标区域 | 扩增长度 | 代表引物对 | 优势 | 劣势 | 适用场景 |
|---|---|---|---|---|---|---|
| V3-V4 | V3+V4 | ~460 bp | 341F (5'-CCTACGGGNGGCWGCAG) / 805R (5'-GACTACHVGGGTATCTAATCC) | 覆盖度最广、物种分辨力高、文献最多 | 扩增片段较长,PE250 有时拼接困难 | 大多数细菌群落研究的首选,如人体肠道 |
| V4 | V4 | ~253 bp | 515F (5'-GTGYCAGCMGCCGCGGTAA) / 806R (5'-GGACTACNVGGGTWTCTAAT) | EMP 标准方案、扩增短、PE150 即可、古菌覆盖好 | 单区段信息量少于双区段 | Earth Microbiome Project 推荐、需要同时检测古菌 |
| V1-V2 | V1+V2 | ~330 bp | 27F (5'-AGAGTTTGATCMTGGCTCAG) / 338R (5'-GCTGCCTCCCGTAGGAGT) | 对特定菌群(如口腔菌)分辨力好 | 对某些菌门(如放线菌门)覆盖较差 | 口腔微生物、皮肤微生物 |
| V4-V5 | V4+V5 | ~400 bp | 515F / 926R (5'-CCGTCAATTCMTTTRAGT) | 对土壤和水体菌群覆盖好 | 相比 V3-V4 文献较少 | 环境微生物(土壤、水体) |
4.2 选择原则¶
三问法则:
Q1: 你研究什么环境的菌?
→ 人体(肠道/口腔/皮肤)→ V3-V4 或 V4
→ 环境(土壤/水体)→ V4 或 V4-V5
→ 口腔 → V1-V2
Q2: 你需要兼顾古菌吗?
→ 需要 → V4(515F/806R,EMP 方案)
→ 只看细菌 → V3-V4 也行
Q3: 你的测序平台读长是多少?
→ PE150 → 选 V4(~253 bp,拼得上)
→ PE250 → V3-V4(~460 bp,刚好能拼)
→ PE300 → 都行
白话:引物的选择就像选考试范围——V3-V4 考的范围大、题目多、
区分度高,是最通用的方案;V4 单区段短小精悍、兼容性好;
V1-V2 对某些特殊菌群有独到优势。没有"最好的"引物,
只有"最适合你实验目的"的引物。
4.3 引物偏好性(Primer Bias)——必须知道的局限¶
任何引物都有偏好性,不可能 100% 覆盖所有菌:
| 偏好问题 | 说明 |
|---|---|
| 某些菌扩增不出来 | 引物结合位点有突变的菌会被漏掉(如 27F 对部分 Bifidobacterium 效率低) |
| 拷贝数差异 | 不同菌的 16S 拷贝数不同(1~15 个),拷贝多的菌会被"高估"丰度 |
| 嵌合体(Chimera) | PCR 过程中两条不同模板的半成品互相拼接,产生假序列 |
白话:引物偏好性就像考试出题老师的偏好——有些知识点他就是不考,你答得再好也测不到。所以 16S 结果只能说明"检测到的菌",不等于"所有的菌"。
5. 16S 分析原理——三大核心步骤¶
5.1 OTU 聚类原理(传统方法)¶
核心思想:
把序列按相似度 ≥97% 聚成一堆,每堆叫一个 OTU。
经典算法:
1. UCLUST / VSEARCH —— 选一条代表序列(centroid),其他序列和它比对
如果相似度 ≥ 97%,就归入同一个 OTU
2. 为每个 OTU 选一条代表序列(rep-seq)去做分类注释
步骤:
原始序列 → 质控 → 去嵌合体 → 按 97% 相似度聚类 → OTU 表 → 分类注释
问题:
- 97% 阈值是人为规定的,没有生物学依据(不同菌种之间 16S 差异可能 <3%)
- 不同实验产生的 OTU 编号不通用(OTU_001 在 A 实验和 B 实验是不同的菌)
- 测序错误会产生大量假 OTU(一个碱基错误就可能产生新 OTU)
白话:OTU 聚类就像"长得差不多的人编成一组"——你和你表弟可能被编成一组,
但你们其实是不同的人。而且每个村的编组方式不一样,跨村比较没意义。
5.2 DADA2 降噪原理(现代方法)¶
DADA2(Divisive Amplicon Denoising Algorithm 2)是目前 16S 分析的主流方法,由 Benjamin Callahan 于 2016 年发表。
核心思想:
不是"按相似度聚类",而是用统计模型学习测序错误的模式,
然后把错误纠正回去,推断出真实的生物序列(ASV)。
四步流程:
1. 学习错误模型(learnErrors)
- 统计每种碱基替换的频率(A→G 多常见?T→C 多常见?)
- 建立一个"错误率 vs 质量值"的关系模型
白话:先学习"这台测序仪通常犯什么样的错误"
2. 去噪(dada)
- 对每条序列,计算它是"真实生物序列"还是"测序错误产生的假序列"的概率
- 如果一条序列和某条丰度更高的序列只差一两个碱基,
且差异碱基的质量值低 → 大概率是测序错误 → 纠正回去
白话:对每条序列做"有罪推定"——你和高丰度序列只差一个碱基?
那这个碱基质量还很低?八成你就是人家的测序错误版本。
3. 合并双端(mergePairs)
- PE 测序的正向和反向读段有重叠区
- 重叠区的序列必须一致才合并
白话:两张从不同方向拍的半张照片,重叠部分对得上才拼成完整照片
4. 去嵌合体(removeBimeraDenovo)
- 检测并移除 PCR 过程中产生的嵌合体序列
白话:PCR 有时候会把两条不同的 DNA "缝"在一起产生假序列,
这一步就是把这些"缝合怪"找出来删掉
最终产出:ASV 表(每个 ASV 是一条精确到单碱基的去噪序列)
OTU vs ASV 终极对比:
| 维度 | OTU (97%) | ASV (DADA2) |
|---|---|---|
| 本质 | 相似序列的聚类簇 | 去噪后的精确序列 |
| 精度 | ~属级别 | 单碱基分辨率,可达种甚至菌株级别 |
| 跨实验可比性 | 不行,OTU 编号是局部的 | 可以,同一条 ASV 序列全球通用 |
| 假阳性 | 高(测序错误产生大量假 OTU) | 低(错误被统计模型纠正) |
| 目前地位 | 逐渐被淘汰 | 主流方法,QIIME2 默认使用 |
5.3 分类注释原理¶
拿到 ASV/OTU 的代表序列后,需要给它"贴标签"——这个序列是什么菌?
主流方法:
1. Naive Bayes 分类器(QIIME2 默认 = sklearn 分类器)
- 原理:用已知物种的 16S 序列训练一个贝叶斯分类器
- 对每条 ASV 序列,计算它属于每个物种的后验概率
- 取概率最高的作为分类结果
- 白话:就像垃圾邮件过滤器——你给它看过一万封垃圾邮件的特征,
新来一封邮件它就能算出"这封 80% 概率是垃圾邮件"
2. BLAST/VSEARCH 比对
- 把 ASV 序列直接比对到参考数据库
- 按最佳匹配结果赋予分类
- 白话:拿"身份证号"去户籍数据库查,找最像的那个
3. 置信度阈值
- 通常设置 0.7(70%),低于此阈值的分类结果标为"unassigned"
- 白话:查出来像但不确定的,宁可说"不知道"也不瞎猜
分类层级(从粗到细):
界(Kingdom)→ 门(Phylum)→ 纲(Class)→ 目(Order)
→ 科(Family)→ 属(Genus)→ 种(Species)
16S 的通常极限:能可靠注释到属(Genus)级别,种级别常常不确定。
6. 常用分类数据库对比¶
| 数据库 | 最新版本 | 序列数量 | 覆盖范围 | 分类体系 | 优缺点 | 推荐场景 |
|---|---|---|---|---|---|---|
| SILVA | 138.2 (2024) | >1100 万条 SSU | 细菌+古菌+真核 (16S/18S) | 基于系统发育树的手动校正分类 | 最全最大、更新频繁、同时含 16S 和 18S;但文件很大 | 通用首选,兼顾细菌和真核分析 |
| Greengenes2 | 2024.09 | 基于 WoL2(Web of Life 2)全基因组系统发育 | 细菌+古菌 | 全基因组系统发育树驱动的分类(非传统 16S 比对) | 分类学最一致、与宏基因组数据兼容、McDonald et al. Nat Biotechnol 2024;但相对较新 | 需要 16S 与宏基因组结果互通时,QIIME2 深度用户 |
| RDP (Ribosomal Database Project) | 11.5 | ~340 万条 | 细菌+古菌+真菌 | 基于 Naive Bayes 分类器的层级分类 | 分类器训练成熟、经典;但近年更新较慢 | 传统分析、教学参考 |
| UNITE | 10.0 (2024) | ~200 万条 ITS | 仅真菌 | 基于 Species Hypothesis (SH) 的动态分类 | 真菌分类金标准;但不含细菌 | ITS 真菌分析专用 |
数据库选择建议:
你的情况(T2D 肠道菌群)→ SILVA 138.2 或 Greengenes2
日常分析决策树:
├── 只研究细菌 → SILVA 138.2(最稳妥)或 Greengenes2(更新更先进)
├── 细菌+真核微生物 → SILVA(同时覆盖 16S 和 18S)
├── 只研究真菌 → UNITE
└── 需要和宏基因组数据对比 → Greengenes2(同一棵系统发育树)
白话:数据库就像户籍系统的"花名册"。SILVA 是最全的花名册,
Greengenes2 是最新用"基因组族谱"重新编排的花名册,
RDP 是老牌花名册,UNITE 是只登记真菌的专用花名册。
7. PICRUSt2 功能预测——从物种猜功能¶
7.1 核心原理¶
16S 测序只能告诉你"有哪些菌",但不能直接知道这些菌"能干什么"(有什么功能基因)。PICRUSt2(Phylogenetic Investigation of Communities by Reconstruction of Unobserved States, v2)就是来弥补这个缺陷的。
白话原理(三步走):
第 1 步:查族谱、找近亲
输入你的 ASV 序列,在已知基因组的参考树上找到最近的亲戚
白话:你不知道张三会什么技能,但你知道他表哥张大会修车、
他堂弟张二会做饭——按照"一家人技能差不多"来猜
第 2 步:预测基因家族
根据近亲的已知基因组,用系统发育的方法推断你的菌可能有哪些基因
参考数据库:
- KEGG KO(KEGG Orthology)—— 基因功能分类
- EC 酶编号 —— 酶活性分类
- MetaCyc 代谢通路
第 3 步:推断通路丰度
用 MinPath 算法,从预测的基因集合中推断哪些代谢通路是完整的
白话:有了原料清单(基因),推断能做出什么菜(代谢通路)
7.2 局限性(面试必答)¶
| 局限 | 说明 |
|---|---|
| 依赖参考基因组 | 如果你的菌在参考数据库中没有近亲基因组,预测就不准 |
| 假设:近缘菌功能相似 | 但水平基因转移(HGT)可以让近缘菌功能差异很大 |
| 不能发现新功能 | 只能预测参考数据库中已有的功能,真正的新基因/新通路测不到 |
| 定量不够精确 | 预测的是"可能有这个功能",不是"这个功能表达了多少" |
白话:PICRUSt2 就像"根据你的姓氏猜你的职业"——张姓人家代代行医,新来一个姓张的你猜他大概率也是医生。多数情况能猜对,但碰到一个姓张的程序员就猜错了。所以 PICRUSt2 的结果只能作为初步筛选,真正确认功能需要做鸟枪法宏基因组或宏转录组。
8. 16S 和宏基因组的互补关系¶
| 对比维度 | 16S 扩增子 | 鸟枪法宏基因组(该 T2D 项目) |
|---|---|---|
| 测什么 | 只测 16S 这一个基因 | 所有微生物的所有 DNA |
| 白话类比 | "查身份证" | "做全身体检" |
| 成本 | 低(每样本 50-150 元) | 高(每样本 500-2000 元) |
| 物种分辨力 | 属~种级别 | 种~菌株级别 |
| 功能信息 | 无(需 PICRUSt2 间接预测) | 有(直接注释功能基因) |
| 覆盖生物 | 主要细菌和古菌 | 细菌+真菌+病毒+原生生物 |
| 样本通量 | 高(一次可测数百个样本) | 较低(数据量大、分析复杂) |
| 主流工具 | QIIME2, mothur, DADA2 | Kraken2, MetaPhlAn, HUMAnN |
| 对宿主 DNA 的敏感性 | 不敏感(引物只扩增细菌 16S) | 很敏感(宿主 DNA 会浪费大量测序量) |
互补策略:
典型实验设计(发一篇好文章的标配):
1. 先用 16S 做"大筛"(样本量大、成本低)
→ 找到组间差异最显著的菌群模式(如 T2D 组 Firmicutes/Bacteroidetes 比值升高)
2. 再用宏基因组做"精查"(选重要样本深入分析)
→ 看差异菌到底是功能基因不同(如产丁酸的基因少了)
→ 该 T2D 项目用的就是这一步
3. 结合两者讲故事:
16S 告诉你"谁变了" → 宏基因组告诉你"它变了之后能干嘛"
白话:16S 是"海选",宏基因组是"复赛"。
海选便宜、筛得快但只看脸(物种组成);
复赛贵、慢但看综合实力(功能能力)。
9. 和 T2D 项目的关联¶
该 T2D(2型糖尿病)肠道菌群项目走的是鸟枪法宏基因组路线(Kraken2 + Bracken + 随机森林)。面试时被问到 16S 相关的内容,可以这样串联:
关联点 1:该项目为什么选宏基因组而不是 16S?
"我们需要菌株级别的分辨率来训练机器学习模型,
16S 只能到属级别,信息量不够,所以选了鸟枪法。"
关联点 2:如果经费有限你会怎么做?
"如果经费有限,我会先用 16S 做大量样本的菌群结构调查,
用 QIIME2 的 DADA2 流程生成 ASV 表做多样性分析,
再挑出差异显著的样本子集做宏基因组验证功能。"
关联点 3:你的 Kraken2 结果能和 16S 数据比较吗?
"直接比较要注意方法学差异——16S 有引物偏好性、只能看细菌,
鸟枪法能看所有微生物。但如果用 Greengenes2 数据库,
它基于全基因组系统发育树统一了 16S 和鸟枪法的分类体系,
使得两种方法的结果可以在同一棵树上对照。"
关联点 4:T2D 研究中 16S 发现了什么经典结论?
"大量 16S 研究发现 T2D 患者肠道中产丁酸菌(如 Roseburia、
Faecalibacterium)丰度降低,这与我们宏基因组中看到的
丁酸合成通路基因下调是一致的。16S 提供了流行病学证据,
宏基因组提供了机制证据。"
10. 面试怎么答(5 道高频题)¶
Q1: 请解释 16S rRNA 基因测序的原理¶
标准答案:
16S rRNA 基因是几乎所有细菌和古菌都有的一个约 1500bp 的基因。
它由保守区和可变区交替组成——保守区用来设计通用引物,一次 PCR
就能捕获样本中所有细菌的这个基因;可变区(通常选 V3-V4 或 V4)
序列因物种而异,通过高通量测序读取这些序列,再和参考数据库比对,
就能鉴定样本中有哪些菌、各占多少比例。
加分点:
"现在主流方法是用 DADA2 降噪得到 ASV,而不是传统的 97% OTU 聚类。
ASV 精确到单碱基分辨率,而且不同实验间可以直接比较。"
Q2: OTU 和 ASV 有什么区别?¶
标准答案:
OTU 是传统方法,把相似度 ≥97% 的序列聚成一组,每组取一条代表序列。
问题是:(1) 97% 阈值是人为设定的;(2) 测序错误会产生大量假 OTU;
(3) 不同实验的 OTU 编号不通用。
ASV 是现在的主流方法(DADA2/Deblur),通过统计模型学习测序错误模式,
把错误纠正回去,得到精确到单碱基的真实生物序列。
ASV 的优势是:精度更高、可重现、跨实验可比、假阳性更低。
白话版:OTU 是"长得像的编一组",ASV 是"每个人都精确识别"。
Q3: 16S 测序能做功能分析吗?¶
标准答案:
16S 测序本身不能直接做功能分析,因为它只测了一个标记基因,
不包含功能基因的信息。但可以用 PICRUSt2 做间接的功能预测——
它根据 ASV 序列在参考系统发育树上的位置,利用近缘物种的已知基因组
来推断样本中可能存在的功能基因和代谢通路。
但必须指出其局限性:PICRUSt2 假设近缘菌功能相似,对于参考数据库中
没有近亲的菌、或经历了水平基因转移的菌,预测准确度会下降。
如果需要准确的功能信息,应该做鸟枪法宏基因组测序。
Q4: 为什么选 V3-V4 区而不是其他区段?¶
标准答案:
V3-V4 区的综合表现最均衡:
(1) 变异度够高——能区分大多数细菌到属甚至种级别;
(2) 扩增长度约 460bp,和 Illumina PE250 测序匹配,双端能拼接;
(3) 对人体相关菌群(特别是肠道菌群)的覆盖度最好;
(4) 文献积累最多,便于和已发表数据比较。
V4 单区段(EMP 方案)也是很好的选择,特别是需要兼顾古菌、
或者测序预算只能做 PE150 的时候。
选择哪个 V 区取决于研究对象、测序平台和预算。
Q5: 16S 扩增子和鸟枪法宏基因组怎么选?¶
标准答案:
两者不是替代关系,而是互补关系:
- 16S 扩增子:成本低、通量高,适合大样本量的菌群结构调查,
但只能看"有哪些菌",分辨率到属级别
- 鸟枪法宏基因组:能看物种+功能+甚至菌株变异,但成本高、
数据量大、分析复杂
实际应用中,经典策略是"16S 先筛、宏基因组精查":
先用 16S 在大量样本中找到关键的菌群差异模式,
再对重要样本做宏基因组探究功能机制。
结合自身经历:
"该 T2D 项目直接用的鸟枪法,因为我们关注功能基因层面的差异。
但如果预算有限或样本量很大,我会建议先做 16S 筛选。"
11. 16S 扩增子分析速查表¶
11.1 完整分析流程¶
原始数据(FASTQ)
│
▼
① 质控(FastQC/MultiQC 查看质量 → Cutadapt 去引物 → Trimmomatic/fastp 去低质量)
│
▼
② 降噪/聚类(DADA2 生成 ASV 表 或 VSEARCH 聚类生成 OTU 表)
│
▼
③ 分类注释(Naive Bayes 分类器 + SILVA/Greengenes2 数据库 → 物种组成表)
│
▼
④ 多样性分析
├── Alpha 多样性:Shannon, Simpson, Chao1, Observed ASVs(单样本丰富度/均匀度)
└── Beta 多样性:Bray-Curtis, UniFrac(样本间差异)→ PCoA/NMDS 可视化
│
▼
⑤ 差异分析(LEfSe, ANCOM-BC, DESeq2 → 找组间差异菌)
│
▼
⑥ 功能预测(PICRUSt2 → KEGG/MetaCyc 通路)
│
▼
⑦ 可视化与报告(R/ggplot2, phyloseq, MicrobiomeAnalyst)
11.2 关键术语速查¶
| 术语 | 全称 | 白话解释 |
|---|---|---|
| ASV | Amplicon Sequence Variant | 去噪后的精确序列,细菌的"精确身份证号" |
| OTU | Operational Taxonomic Unit | 相似序列聚成的组,细菌的"模糊分组号" |
| Alpha 多样性 | -- | 单个样本内的菌群丰富度和均匀度 |
| Beta 多样性 | -- | 不同样本之间的菌群组成差异 |
| UniFrac | Unique Fraction | 考虑进化关系的 Beta 多样性距离 |
| Rarefaction | 稀释曲线 | 评估测序深度是否足够的曲线 |
| Chimera | 嵌合体 | PCR 过程中两条模板拼接产生的假序列 |
| PICRUSt2 | Phylogenetic Investigation of Communities by Reconstruction of Unobserved States | 从 16S 数据预测功能基因的工具 |
| SILVA | -- | 最大的 rRNA 参考数据库 |
| Greengenes2 | GG2 | 基于全基因组系统发育树的新一代参考数据库 |
| EMP | Earth Microbiome Project | 全球微生物组计划,制定了 V4 区测序标准方案 |
11.3 引物速查¶
| 引物名 | 序列 (5'→3') | 目标 | 配合使用 |
|---|---|---|---|
| 515F | GTGYCAGCMGCCGCGGTAA | V4 正向 | 806R |
| 806R | GGACTACNVGGGTWTCTAAT | V4 反向 | 515F |
| 341F | CCTACGGGNGGCWGCAG | V3 正向 | 805R |
| 805R | GACTACHVGGGTATCTAATCC | V3-V4 反向 | 341F |
| 27F | AGAGTTTGATCMTGGCTCAG | V1 正向 | 338R / 1492R |
| 338R | GCTGCCTCCCGTAGGAGT | V1-V2 反向 | 27F |
| 1492R | TACGGYTACCTTGTTACGACTT | 全长反向 | 27F (全长 16S) |
12. 延伸资源¶
| 资源 | 类型 | 说明 |
|---|---|---|
| Callahan et al., 2016, Nature Methods | 论文 | DADA2 原始论文 |
| McDonald et al., 2024, Nature Biotechnology | 论文 | Greengenes2 发表论文 |
| Quast et al., 2013, Nucleic Acids Research | 论文 | SILVA 数据库论文 |
| Douglas et al., 2020, Nature Biotechnology | 论文 | PICRUSt2 论文 |
| Bolyen et al., 2019, Nature Biotechnology | 论文 | QIIME2 框架论文 |
| Callahan et al., 2019, F1000Research | 教程 | DADA2 的 R 实操教程 |
| docs.qiime2.org | 文档 | QIIME2 官方教程(含 16S 分析全流程) |
| github.com/picrust/picrust2/wiki | Wiki | PICRUSt2 官方文档 |
| microbiomeanalyst.ca | 在线工具 | 16S 数据在线分析和可视化平台 |
| 知识库 15: QIIME2 微生物组分析 | 本项目 | QIIME2 工具安装和操作流程 |
自我审核清单: - [x] 字数:约 4800 字,符合 3000-5000 字要求 - [x] 和知识库 15(QIIME2)不重复:15 讲工具使用流程,本篇讲 16S 原理和知识体系 - [x] 白话解释:每个核心概念都有白话类比 - [x] 数据库信息已联网验证:SILVA 138.2、Greengenes2 (Nat Biotechnol 2024)、PICRUSt2 GitHub - [x] 引物序列已核实:515F/806R (EMP V4)、341F/805R (V3-V4) 为公开标准序列 - [x] 包含所有必要章节:16S 原理、V 区、16S/ITS/18S 对比、引物选择、OTU/DADA2/分类注释原理、数据库对比、PICRUSt2、与宏基因组互补、T2D 关联、5 道面试题、速查表、延伸资源