建库与测序实验设计(Library Preparation & Sequencing Design)¶
一句话说明¶
建库(Library Preparation)是把样本 DNA/RNA "改造"成测序仪能认识的标准格式的过程,而测序实验设计决定了用什么读长、多大深度、怎么混样——选错了方案,要么浪费钱,要么数据不够用。本篇讲的是"怎么建库、怎么设计测序方案",和第13篇(测序平台原理)互补但不重复。
建库(Library Preparation)是什么(白话版)¶
一句话:建库就是把你提取出来的 DNA/RNA 加工成测序仪能"吃"的标准食物。
白话类比:
- 你的 DNA 原液好比一整头生猪 —— 测序仪不能直接吃
- 建库就是把猪切成标准大小的肉块(打断)→ 给每块肉串上签子(接头连接)→ 给每串肉贴上桌号标签(Index)→ 检查合不合格(质检)
- 最后把加工好的"标准烤串"送上测序仪这台"烤炉"
技术定义:建库是将核酸样本经过片段化、末端修复、接头连接、扩增和纯化等步骤,制备成带有平台特异性接头(Adapter)的 DNA 片段集合(Library),使其能被测序仪识别、扩增并测序的过程。
和第13篇的分工:第13篇讲的是测序仪内部怎么读碱基(SBS、SMRT、纳米孔电信号),本篇讲的是上机之前样本怎么处理、怎么设计测序方案。
DNA 建库流程详解(六步走)¶
以最常用的 Illumina DNA 建库(如 TruSeq DNA / Nextera Flex)为例:
第1步:DNA 片段化(Fragmentation)¶
目的:把长 DNA 分子打碎成测序仪能处理的短片段(通常 200-800 bp)。
| 方法 | 原理 | 优点 | 缺点 | 典型工具/试剂 |
|---|---|---|---|---|
| 超声波打断 | 用高频声波的剪切力随机打断 DNA | 打断均匀,偏差小,是 WGS 的金标准 | 需要专用设备,耗时 | Covaris 超声仪 |
| 酶切打断 | 用转座酶(Transposase)同时切割并插入接头 | 极快(<15分钟),起始量低至 1ng | 有序列偏好性(对某些区域切得多、某些切得少),GC 偏差稍大 | Illumina Nextera / Tn5 转座酶 |
| 超声+机械 | 针式超声(如 Bioruptor)或液压剪切 | 适合小体积样本 | 需要优化参数 | Bioruptor、Hydroshear |
白话解释: - 超声波打断 → 像用碎石机把大石头均匀砸碎,碎得比较随机,大小均匀 - 酶切打断(Tn5 转座酶)→ 像用一把有偏好的剪刀,剪得快但某些花纹的地方更容易下刀
片段大小选择: - WGS(全基因组测序):300-500 bp(常见) - 宏基因组:300-500 bp - PCR-free 建库:350-450 bp(更窄,要求更严格)
第2步:末端修复 + 加 A 尾(End Repair + A-tailing)¶
为什么需要:DNA 打碎后断口是参差不齐的(有的是平头、有的是突出头),而接头连接需要整齐的末端。
打断后的 DNA 片段(断口不整齐):
5'---ATCGGA ← 突出
TAGCC---5'
↓ 末端修复(End Repair)
5'---ATCGGA---3' ← 补平(平末端,Blunt End)
3'---TAGCCT---5'
↓ 加 A 尾(A-tailing)
5'---ATCGGAA---3' ← 3' 端多加一个 A
3'---TAGCCT ---5'
白话解释: - 末端修复 → 把参差不齐的断口用砂纸磨平 - 加 A 尾 → 在磨平的一端涂上胶水(A 碱基),和接头上的 T 碱基配对黏合,像魔术贴的公母扣
关键酶:T4 DNA 聚合酶(补平)+ Klenow 片段(加 A)+ T4 PNK(磷酸化 5' 端)。现在很多试剂盒把这几步合成一管酶,一步完成。
第3步:接头连接(Adapter Ligation)¶
这是建库最核心的一步——给 DNA 片段两端接上"通用插头",让测序仪能识别。
接头结构(以 Illumina Y 型接头为例):
P5 Adapter P7 Adapter
┌────────────┐ ┌────────────┐
│ P5 序列 │ │ Index (i7) │
│ Rd1 SP │ │ Rd2 SP │
│ T 悬挂 │───DNA片段───│ T 悬挂 │
└────────────┘ │ P7 序列 │
└────────────┘
各部分功能:
- P5 / P7 序列:和 Flow Cell 表面的互补寡核苷酸结合,让片段"粘"在芯片上
- Rd1 SP / Rd2 SP:测序引物结合位点(Read 1 / Read 2 的测序从这里起始)
- Index (i7 / i5):样本标签序列(用于多样本混合后拆分数据,详见后文)
- T 悬挂:和 DNA 片段的 A 尾配对,实现定向连接
白话解释:接头就像 USB 接口——不管你内部存了什么数据(不同样本的 DNA),外面的插头形状是标准的,测序仪这台电脑才能识别。
连接效率的影响因素: - 接头与 DNA 片段的摩尔比(通常接头过量 10-100 倍) - 连接酶活性(T4 DNA Ligase) - 温度和时间(通常 20°C、15-30 分钟)
第4步:PCR 扩增(Library Amplification)¶
目的:把连接好接头的文库分子复制多份,增加文库总量(尤其是起始 DNA 量少的时候)。
PCR 循环数选择:
- 起始量充足(>100ng):4-6 个循环,甚至 PCR-free(零循环)
- 起始量中等(10-100ng):6-8 个循环
- 起始量低(<10ng):8-12 个循环
- 超低量(单细胞、FFPE):12-15 个循环
循环数越多 → 扩增偏差越大(GC 偏差加重、PCR duplicates 增多)
为什么 PCR-free 是趋势: - PCR 扩增会引入偏差:高 GC / 低 GC 区域扩增效率不同 - PCR 会产生 duplicates(完全一样的片段不是独立取样,而是同一分子的拷贝),会浪费测序资源 - Illumina 的 PCR-free 试剂盒(如 Illumina DNA Prep, PCR-free)跳过这步,但需要较多起始 DNA(>100ng)
白话解释:PCR 扩增像用复印机复印考卷——复印几份还行,复印太多次字迹就模糊了(偏差增大),而且复印出来的卷子不算独立答题(PCR duplicates)。
第5步:纯化与片段大小选择(Purification & Size Selection)¶
目的:去除接头二聚体(adapter dimer,两个接头自己连在一起没有 DNA 插入片段)、引物残留、酶等杂质,并选择目标大小范围的片段。
| 方法 | 原理 | 说明 |
|---|---|---|
| 磁珠纯化(AMPure XP / SPRI beads) | 固相可逆化固定法,DNA 在特定盐浓度下吸附到磁珠表面 | 最常用。通过调节磁珠与样本的体积比(如 0.8×)来选择大于特定长度的片段 |
| 凝胶回收 | 电泳分离后切胶回收目标大小片段 | 精度高但费时,现在较少用于高通量建库 |
| 自动化仪器 | Pippin Prep / BluePippin | 精准的自动化大小选择,适合需要严格控制片段大小的实验 |
磁珠比例速记(AMPure XP): - 0.6× 比例:回收 >500bp 片段(去掉小片段和接头二聚体) - 0.8× 比例:回收 >300bp 片段(最常用) - 1.0× 比例:回收 >200bp 片段 - 双面选择(double-sided):先用低比例去大片段,再用高比例回收目标范围(如先 0.6× 去大的,再 0.8× 收中间的)
白话解释:磁珠纯化像用不同目数的筛子筛沙——大颗粒(长片段)先被筛掉,小颗粒(接头二聚体)从最细的筛子漏掉,留下中间合适大小的"砂粒"。
第6步:文库质检(Library QC)¶
建好的文库上机之前必须检查三件事:浓度、片段大小分布、有效文库浓度。
| 质检项目 | 检测工具 | 测什么 | 合格标准 |
|---|---|---|---|
| 浓度 | Qubit 荧光计 | dsDNA 精确浓度(ng/μL) | 具体值取决于建库试剂盒要求,通常 >1 ng/μL |
| 片段大小分布 | Agilent Bioanalyzer / TapeStation | 文库片段的大小分布图(电泳图谱) | 应出现单一主峰,峰值在目标范围(如 300-500bp),无接头二聚体峰(~120-170bp 处不应有峰) |
| 有效文库浓度 | qPCR 定量(KAPA qPCR Kit) | 只测带有完整接头的文库分子浓度 | 这是最准确的定量方法,直接决定上机 loading 浓度 |
为什么不只用 Qubit:
Qubit 测的是所有 dsDNA 的总浓度,包括:
✓ 正常的文库分子(带接头、有插入片段)
✗ 接头二聚体(没用的废物)
✗ 没有接头的 DNA 片段(上不了机)
qPCR 定量只测带有 P5+P7 接头的分子 → 才是真正能被测序的"有效分子"
所以最佳实践是:Qubit 粗测 → Bioanalyzer 看片段分布 → qPCR 精确定量
白话解释:Qubit 像称体重(不管肌肉还是脂肪),Bioanalyzer 像照 X 光片(看骨架结构),qPCR 像体检量肌肉量(只算有用的部分)。
RNA 建库的特殊步骤¶
RNA 建库和 DNA 建库的核心区别:RNA 不能直接建库上机,必须先处理成 cDNA。
RNA 建库 vs DNA 建库的关键差异¶
DNA 建库: 提取 DNA → 打断 → 末端修复 → 接头连接 → PCR → 质检
RNA 建库: 提取 RNA → ★rRNA去除/polyA富集 → ★RNA片段化 → ★逆转录(cDNA) → 二链合成 → 末端修复 → 接头连接 → PCR → 质检
↑ 这三步是 RNA 建库独有的 ↑
rRNA 去除 vs polyA 富集(二选一)¶
这是 RNA-seq 建库的第一个关键决策:
| 方法 | 原理(白话) | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| polyA 富集(Oligo-dT 磁珠) | 用一串 TTTT... 磁珠去"钓"带 polyA 尾巴的 mRNA(真核生物 mRNA 几乎都有 polyA 尾) | 富集效率高,数据干净,mRNA 占比 >90% | 只能测 mRNA,丢失 lncRNA、miRNA 等非编码 RNA;降解样本效果差(断裂的 mRNA 可能没了 polyA 尾) | 真核生物转录组、基因表达定量 |
| rRNA 去除(RiboZero / RiboCop) | 用探针捕获 rRNA(占 RNA 总量 80-90%)并去掉,剩下的就是你要的 | 能保留所有非 rRNA 的 RNA(mRNA + 非编码 RNA);对降解样本也适用 | 成本更高,试剂贵;数据中仍含部分残余 rRNA | 原核生物、降解样本(FFPE)、需要分析非编码 RNA 的研究 |
白话解释: - polyA 富集 → 像在鱼塘里专门用"mRNA 鱼钩"钓 mRNA 这种鱼,其他鱼不管 - rRNA 去除 → 像把鱼塘里数量最多的"rRNA 杂鱼"全捞走,剩下的各种鱼都要
逆转录(Reverse Transcription)¶
RNA → cDNA 的关键步骤:
逆转录酶(Reverse Transcriptase)
mRNA ───────────────────────────────→ cDNA第一链
↓ 用随机引物(Random Hexamers)或 Oligo-dT 引物启动
cDNA第一链 ───→ DNA 聚合酶 ───→ 双链 cDNA
↓
后续步骤和 DNA 建库一样
链特异性建库(Strand-specific / Directional RNA-seq): - 现在主流的 RNA-seq 建库都是链特异性的(如 Illumina TruSeq Stranded) - 方法:在合成 cDNA 第二链时掺入 dUTP 代替 dTTP,后续用 UDG 酶消化含 dU 的链 → 只保留第一链方向的信息 - 为什么重要:知道 RNA 来自基因组的正义链还是反义链,能准确判断转录方向,区分正义/反义转录本、重叠基因 - 白话说:不保留链信息就像只知道"这条路上有车"但不知道车往哪个方向开
宏基因组建库的特殊注意事项¶
宏基因组样本(如粪便、土壤、水体)和普通单物种基因组的建库有几个关键不同:
1. DNA 提取是最大的偏差来源¶
| 问题 | 说明 | 应对措施 |
|---|---|---|
| 细胞裂解偏差 | 不同微生物的细胞壁硬度差异巨大(革兰氏阳性菌/芽孢杆菌壁厚,难裂解) | 采用物理裂解(bead-beating,珠磨法)+ 化学裂解联合方案 |
| 人源 DNA 污染 | 粪便样本中人源 DNA 可占 10%-90% | 提取后用 Bowtie2/BWA 去宿主;或用 NEBNext Microbiome DNA Enrichment Kit 等在提取阶段就去除宿主 DNA |
| DNA 降解 | 环境样本中 DNA 可能已部分降解 | 使用适合降解样本的建库试剂盒(如 Nextera XT,起始量低至 1ng) |
| 抑制物干扰 | 粪便中的胆盐、腐殖酸等抑制 PCR 和建库酶活性 | 使用含抑制物去除步骤的提取试剂盒(如 QIAamp PowerFecal Pro) |
2. 建库方案选择¶
| 方案 | 说明 | 适用场景 |
|---|---|---|
| 标准 WGS 建库(TruSeq DNA) | 超声打断 + 末端修复 + 接头连接 + PCR | DNA 量充足(>100ng),标准项目 |
| Nextera / Tagmentation 建库 | Tn5 转座酶同时打断和加接头,极快 | DNA 量少(1-50ng),快速建库 |
| PCR-free 建库 | 不做 PCR 扩增 | 减少 GC 偏差,需要 DNA 量足(>100ng) |
3. 宏基因组建库实操要点¶
宏基因组建库 Checklist:
☐ DNA 提取方法包含 bead-beating 步骤(确保难裂解菌也能破壁)
☐ 用 Qubit 精确定量(NanoDrop 对宏基因组样本不够准,容易被蛋白/盐干扰)
☐ 检查 DNA 完整性(跑凝胶或用 TapeStation 看是否降解)
☐ 如果起始量 <100ng,选择低起始量方案(Nextera XT / Flex)
☐ PCR 循环数尽量少(减少偏差,宏基因组需要真实反映群落组成)
☐ 片段大小建议 300-500bp(配合 PE150 测序,插入片段 ~200-350bp)
☐ 质检时注意:接头二聚体峰(~120-170bp)在宏基因组中更容易出现
不同应用的建库方案选择¶
| 应用 | 建库试剂盒(Illumina 系) | 起始核酸 | 特殊步骤 | 推荐测序方案 | 典型测序深度 |
|---|---|---|---|---|---|
| WGS(全基因组) | TruSeq DNA PCR-Free / Illumina DNA Prep | DNA 100ng-1μg | 无 | PE150 | 人:30×;细菌:50-100× |
| WES(全外显子组) | Twist / IDT xGen / Agilent SureSelect | DNA 50-200ng | 杂交捕获(用探针钓出外显子区域) | PE150 | 100-200× |
| RNA-seq(转录组) | TruSeq Stranded mRNA / Total RNA | RNA 100ng-1μg | polyA 富集或 rRNA 去除 + 逆转录 | PE150 | 20-30M reads/样本 |
| ChIP-seq | ThruPLEX / NEBNext Ultra II | ChIP-DNA 1-10ng | 免疫沉淀(IP)在建库之前完成 | SE50 或 PE75 | 20-40M reads/样本 |
| 16S 扩增子 | 自定义引物 + Nextera XT Index Kit | DNA 5-50ng | PCR 扩增特定 V 区(V3-V4 / V4) | PE300(MiSeq) | 10K-100K reads/样本 |
| 宏基因组(Shotgun) | Illumina DNA Prep / Nextera XT / Flex | DNA 1ng-200ng | 无特殊步骤(直接建全基因组库) | PE150 | 5-10 Gb/样本(人肠道) |
| ATAC-seq | Nextera XT / Illumina Tagment DNA | 处理后的核 50K cells | Tn5 转座酶处理开放染色质 | PE75 或 PE150 | 50-100M reads/样本 |
WES 杂交捕获白话:WES 不是测全基因组,只测占基因组 ~1.5% 的外显子。方法是:先把全基因组打碎建库,然后用和外显子序列互补的 RNA 探针去"钓鱼"——只有和探针配对的 DNA 片段被留下(捕获),其余丢弃。这样用更少的数据量就能测到更高的外显子深度。
Index / Barcode 多样本混合测序(白话版)¶
为什么需要混样¶
一台测序仪(如 NovaSeq)一次能产出几 Tb 数据,但一个宏基因组样本可能只需要 10 Gb。如果一次只跑一个样本,就像包一辆大巴只坐一个人——太浪费了。
解决方案:多个样本混在一起上机(Pooling / Multiplexing),用"编号"来区分。
Index 是什么¶
每个样本的文库片段都带有独特的 Index 序列(也叫 Barcode):
样本A的文库: P5---[i5-A]---Rd1SP---DNA片段---Rd2SP---[i7-A]---P7
样本B的文库: P5---[i5-B]---Rd1SP---DNA片段---Rd2SP---[i7-B]---P7
样本C的文库: P5---[i5-C]---Rd1SP---DNA片段---Rd2SP---[i7-C]---P7
混合上机后,测序仪先读 Index 序列 → 知道这条 read 属于哪个样本 → 数据拆分(Demultiplexing)
白话解释:Index 就是"快递单号"。你的快递和别人的快递放在同一辆卡车里运(混合测序),到了快递站,工作人员根据快递单号(Index)把每个人的快递分开。
单 Index vs 双 Index¶
| 方案 | Index 数 | 区分能力 | 说明 |
|---|---|---|---|
| 单 Index(i7 only) | 1个(6-8bp) | 最多 ~96 个样本 | 简单,但样本多时容易出现 Index 跳跃(index hopping)导致错误分配 |
| 双 Index(i7 + i5) | 2个(各 8-10bp) | 理论上可区分上万个样本 | 现在的标准方案。双保险,大幅降低 index 跳跃的误分率 |
| UDI(Unique Dual Index) | 2个,每个组合唯一 | 最严格 | i7 和 i5 的组合是唯一的(不是排列组合),进一步消除 index 跳跃问题 |
Index 跳跃(Index Hopping / Index Switching)¶
正常: 样本A的片段 → 带 Index-A → 拆分给样本A ✓
异常: 样本A的片段 → 在 Flow Cell 上意外获得了 Index-B → 被误分给样本B ✗
发生原因:游离的 Index 接头在 Flow Cell 上和错误的片段重组
发生率:Illumina 排列式 Flow Cell(如 NovaSeq 6000 的 ExAmp)上约 0.1-2%
解决方案:
1. 使用 UDI(Unique Dual Index)
2. 建库后彻底纯化去除游离接头
3. 数据分析时过滤非预期的 Index 组合
混合比例计算¶
Pooling 计算公式:
等量混合(Equimolar Pooling):
每个样本的 loading 体积 = 目标总量 / 样本数 / 该样本浓度
示例:
目标混合池浓度:4 nM,总体积 20 μL
样本A 文库浓度:10 nM → 加 (4 × 20) / (10 × 6) = 1.33 μL
样本B 文库浓度:8 nM → 加 (4 × 20) / (8 × 6) = 1.67 μL
... 补水至 20 μL
白话解释:混样就像多个房间共用一条网线——你得按每个房间的带宽需求分配流量。测序深度需求大的样本多放点,需求小的少放点。
测序方案设计¶
PE vs SE(双端 vs 单端测序)¶
单端测序(SE, Single-End):
──→ 只从片段一端开始读
双端测序(PE, Paired-End):
──→ ←── 从片段两端分别读
Read 1 Read 2
两条 Read 之间的距离 = Insert Size(插入片段大小)
| 对比 | SE(单端) | PE(双端) |
|---|---|---|
| 信息量 | 只有一端序列 | 两端序列 + 两端的相对位置(insert size) |
| 比对准确性 | 较低(重复区域难定位) | 高(两端锚定,跨重复区域能力强) |
| 结构变异检测 | 弱 | 强(能检测插入、缺失、倒位等) |
| 成本 | ~60% PE 的价格 | 更贵(读两端 = 两倍的测序反应) |
| 适合 | ChIP-seq、miRNA-seq、简单表达定量 | WGS、WES、RNA-seq、宏基因组 |
选择建议: - 如果不确定,默认选 PE——多花 30-40% 的钱,信息量翻倍 - 只有在明确不需要配对信息时(如只做基因表达定量的 RNA-seq、ChIP-seq 峰检测)才选 SE
读长选择(Read Length)¶
| 读长 | 典型应用 | 说明 |
|---|---|---|
| SE50 / SE75 | ChIP-seq、miRNA-seq、ATAC-seq | 只需定位到基因组位置,不需要长读长 |
| PE75 | RNA-seq(基因表达定量)、ChIP-seq | 对于大多数表达分析足够 |
| PE150 | WGS、WES、宏基因组、RNA-seq | 最通用的选择,绝大多数项目用这个 |
| PE250 / PE300 | 16S 扩增子(V3-V4 区 ~460bp,需要 PE300 双端拼接覆盖) | 只有 MiSeq 支持 PE300 |
读长怎么影响分析: - 读长太短 → 比对到基因组的唯一性(mappability)下降,重复区域分不清 - 读长太长 → 3' 端质量下降(Illumina 测序到后面质量越来越差) - PE150 是性价比最优的:150bp 足够在大多数基因组中实现高唯一比对率,又不会因为太长导致 3' 端质量暴跌
测序深度的计算与选择¶
核心公式:
测序深度(Coverage, ×) = (读长 × 读数 × 2[PE]) / 基因组大小
或者反过来算需要多少数据:
所需数据量(bp)= 目标深度 × 基因组大小
示例1:人全基因组 WGS,30× 覆盖
所需数据量 = 30 × 3,000,000,000 = 90 Gb
如果 PE150,需要 reads 数 = 90G / (150×2) = 3 亿对 reads
示例2:大肠杆菌基因组(~5 Mb),100× 覆盖
所需数据量 = 100 × 5,000,000 = 500 Mb = 0.5 Gb
示例3:宏基因组(肠道菌群),目标 10 Gb/样本
如果 PE150,需要 reads 数 = 10G / (150×2) = ~3333 万对 reads
各应用的推荐测序深度:
| 应用 | 推荐深度/数据量 | 说明 |
|---|---|---|
| 人 WGS | 30× | 变异检测的标准深度 |
| 人 WES | 100-200× | 外显子只占 ~1.5%,需要更高深度 |
| RNA-seq(差异表达) | 20-30M reads/样本 | 做差异基因分析足够 |
| RNA-seq(罕见转录本/可变剪接) | 50-100M reads/样本 | 需要更深的测序 |
| ChIP-seq | 20-40M reads | 取决于结合位点数量 |
| 16S 扩增子 | 10K-100K reads/样本 | 通常 50K reads 就可以描述群落组成 |
| 宏基因组(肠道菌群) | 5-10 Gb/样本 | 浅层分析 1-3 Gb 也行,深度分析需 10+ Gb |
| 宏基因组(土壤/环境) | 10-20+ Gb/样本 | 物种多样性更高,需要更多数据 |
宏基因组示例项目(肠道宏基因组):使用 PE150 测序方案,每样本约 5-10 Gb 数据量。选择 PE 是因为宏基因组组装和比对都需要配对信息来提高准确性。
建库与测序的完整工作流速查¶
实验设计阶段
├─ 确定科学问题 → 选择测序类型(WGS/WES/RNA-seq/宏基因组/16S...)
├─ 确定样本数量 → 计算所需总数据量 → 选择测序平台和流动槽
├─ 确定 PE vs SE → 选择读长 → 计算测序深度
└─ 设计 Index 方案(几个样本混一个 Lane)
样本处理阶段
├─ 核酸提取 → Qubit 定量 + 完整性检查
├─ RNA 样本额外:polyA 富集 / rRNA 去除
└─ 宏基因组额外:bead-beating 裂解 + 抑制物去除
建库阶段
├─ 片段化(超声/酶切)
├─ 末端修复 + A-tailing
├─ 接头连接(含 Index)
├─ PCR 扩增(尽量少循环)/ PCR-free
├─ 纯化 + 大小选择(磁珠/凝胶)
└─ 文库质检(Qubit + Bioanalyzer + qPCR)
上机测序阶段
├─ 等量混合(Equimolar Pooling)
├─ 变性 + 稀释至 loading 浓度
├─ 加载到 Flow Cell → 上机运行
└─ 数据输出:BCL → bcl2fastq 拆分 → FASTQ 文件
面试怎么答¶
Q1: 请简述 NGS 建库的基本流程¶
建库的核心目的是把样本 DNA 加工成测序仪能识别的标准格式。标准流程是六步:第一步把长 DNA 打碎成 300-500bp 的片段,可以用超声波打断或转座酶酶切;第二步末端修复加 A 尾,把断口磨平并加上一个 A 碱基方便后续连接;第三步接头连接,在片段两端接上包含测序引物位点和 Index 标签的 Adapter;第四步 PCR 扩增,把文库分子复制多份增加总量;第五步磁珠纯化和大小选择,去掉接头二聚体等杂质;第六步质检,用 Qubit 测浓度、Bioanalyzer 看片段分布、qPCR 测有效文库浓度。整个过程最关键的是接头连接和质检两步。
Q2: RNA-seq 建库和 DNA 建库有什么区别?¶
主要有三个区别。第一,RNA-seq 建库之前需要先做 rRNA 去除或 polyA 富集——因为 rRNA 占了总 RNA 的 80-90%,不去掉的话测出来都是 rRNA 浪费测序资源。如果研究的是真核 mRNA,通常用 Oligo-dT 磁珠富集带 polyA 尾的 mRNA;如果是原核生物或者需要看非编码 RNA,就用 RiboZero 等试剂去除 rRNA。第二,RNA 需要逆转录成 cDNA 才能建库——现在主流用的是链特异性建库方法,在合成第二链时掺入 dUTP,后续消化掉第二链,这样可以保留转录方向信息。第三,RNA 是单链且容易降解,操作上比 DNA 建库更需要注意 RNase 污染防护和低温操作。
Q3: 什么是 Index / Barcode?为什么需要双 Index?¶
Index 也叫 Barcode,是建库时加在每个样本文库片段上的短序列标签,通常 8-10 个碱基长。目的是让多个样本可以混在一起上机测序,测完后根据 Index 序列把数据拆分回各自样本,这个过程叫 Demultiplexing。之所以需要双 Index,也就是 i7 加 i5 两端都加标签,主要是为了解决 Index 跳跃问题——在某些 Flow Cell 上(如 NovaSeq 使用的排列式 Flow Cell),游离的接头可能和错误的片段重组,导致样本被错误分配。双 Index 大幅降低了这种误分率,现在更推荐使用 UDI(每个 i7+i5 组合都唯一)来进一步消除这个问题。
Q4: 宏基因组建库有哪些特殊注意事项?¶
宏基因组建库比单物种基因组建库复杂,主要有四个注意点。第一是 DNA 提取要采用 bead-beating 物理裂解加化学裂解的联合方案,因为不同微生物细胞壁硬度差异很大,只用化学法容易漏掉革兰氏阳性菌和芽孢杆菌。第二是要注意宿主 DNA 污染,人粪便样本中人源 DNA 可占到 10%-90%,建库后需要用 Bowtie2 等工具比对去宿主。第三是 PCR 循环数要尽量少,因为宏基因组需要真实反映群落组成比例,PCR 偏差会扭曲物种丰度。该 T2D 项目用的 Illumina PE150 方案,每样本约 5-10 Gb 数据量,能够覆盖大部分肠道微生物。第四是用 Qubit 而不是 NanoDrop 定量,因为粪便提取的 DNA 中常含蛋白和盐类杂质,NanoDrop 容易高估浓度。
Q5: PE150 是什么意思?怎么计算需要多少测序数据量?¶
PE150 指 Paired-End 150bp,就是从 DNA 片段两端各读 150 个碱基。PE 相比 SE(单端)的优势是信息量更大——两端的序列加上它们之间的距离关系,可以提高比对准确性和结构变异检测能力。计算数据量的公式是:所需数据量等于目标深度乘以基因组大小。比如人类全基因组 WGS 要 30 倍覆盖,基因组 3Gb,就需要 90Gb 数据。换算成 reads 数就是 90Gb 除以(150bp 乘以 2),等于 3 亿对 reads。对于宏基因组,因为不是单一基因组,通常按总数据量来规划,人肠道菌群一般 5-10 Gb 每样本就够做物种分类和功能分析了。
速查表¶
建库方法速查¶
| 决策点 | 选项 A | 选项 B | 怎么选 |
|---|---|---|---|
| DNA 打断方式 | 超声波(Covaris) | 酶切(Tn5 转座酶) | DNA 量足 + 要求均匀 → 超声;DNA 量少 + 求快 → 酶切 |
| RNA 处理方式 | polyA 富集 | rRNA 去除 | 真核 mRNA → polyA;原核/降解样本/需要 ncRNA → rRNA 去除 |
| PCR 扩增 | 做 PCR | PCR-free | DNA 量 >100ng 且要求低偏差 → PCR-free;量少必须做 PCR |
| 纯化方式 | 磁珠(AMPure XP) | 凝胶回收 | 高通量/常规 → 磁珠;需要精准切割大小 → 凝胶 |
| Index 方案 | 单 Index | 双 Index(UDI) | 现在一律推荐双 Index / UDI |
测序方案速查¶
| 测序类型 | 推荐方案 | 读长 | 深度/数据量 |
|---|---|---|---|
| 人 WGS | PE150 | 150bp×2 | 30× (~90 Gb) |
| 人 WES | PE150 | 150bp×2 | 100-200× (~6-12 Gb) |
| RNA-seq | PE150 或 PE75 | 75-150bp×2 | 20-30M reads |
| 宏基因组 | PE150 | 150bp×2 | 5-10 Gb/样本 |
| 16S 扩增子 | PE300(MiSeq) | 300bp×2 | 50K-100K reads |
| ChIP-seq | SE50 或 PE75 | 50-75bp | 20-40M reads |
| ATAC-seq | PE75 或 PE150 | 75-150bp×2 | 50-100M reads |
文库质检三件套¶
| 工具 | 测什么 | 白话比方 |
|---|---|---|
| Qubit | dsDNA 总浓度 | 称体重 |
| Bioanalyzer / TapeStation | 片段大小分布 | 照 X 光看骨架 |
| qPCR | 有效文库分子浓度 | 体检量肌肉 |
关键数字速记¶
| 数字 | 含义 |
|---|---|
| 300-500 bp | WGS / 宏基因组建库常用片段大小 |
| 120-170 bp | 接头二聚体的大小(质检时不应出现此峰) |
| 0.8× | AMPure XP 磁珠最常用比例(回收 >300bp) |
| 4-6 cycles | DNA 量充足时推荐的 PCR 循环数 |
| 80-90% | rRNA 在总 RNA 中的占比 |
| 0.1-2% | NovaSeq Flow Cell 上 Index 跳跃的发生率 |
延伸资源¶
Illumina Library Prep 官方指南:Illumina 官网提供各建库试剂盒的详细实验方案(Protocol)
→ 搜索 "Illumina Library Prep Protocols" 或访问 Illumina Support 页面KAPA Library Quantification Kit 技术手册:qPCR 定量文库的标准方案
→ Roche / KAPA Biosystems 官网Illumina Experiment Design 工具:在线计算测序深度和数据量需求
→ 搜索 "Illumina Sequencing Coverage Calculator"Nature Protocols:Metagenomics library preparation:宏基因组建库的标准化方案
→ Quince et al. (2017) Nature Biotechnology "Shotgun metagenomics, from sampling to analysis"视频推荐:iBiology "Next Generation Sequencing - Library Preparation" 系列
→ YouTube 搜索 "iBiology NGS library preparation"
最后更新:2026-05-03 | 编写说明:本文档专为面试准备编写,聚焦"建库方法 + 测序方案设计",与第13篇(测序平台原理)互补。建库六步流程、RNA 特殊步骤、Index 混样、深度计算是面试高频考点。