跳转至

建库与测序实验设计(Library Preparation & Sequencing Design)


一句话说明

建库(Library Preparation)是把样本 DNA/RNA "改造"成测序仪能认识的标准格式的过程,而测序实验设计决定了用什么读长、多大深度、怎么混样——选错了方案,要么浪费钱,要么数据不够用。本篇讲的是"怎么建库、怎么设计测序方案",和第13篇(测序平台原理)互补但不重复。


建库(Library Preparation)是什么(白话版)

一句话:建库就是把你提取出来的 DNA/RNA 加工成测序仪能"吃"的标准食物。

白话类比:

  • 你的 DNA 原液好比一整头生猪 —— 测序仪不能直接吃
  • 建库就是把猪切成标准大小的肉块(打断)→ 给每块肉串上签子(接头连接)→ 给每串肉贴上桌号标签(Index)→ 检查合不合格(质检)
  • 最后把加工好的"标准烤串"送上测序仪这台"烤炉"

技术定义:建库是将核酸样本经过片段化、末端修复、接头连接、扩增和纯化等步骤,制备成带有平台特异性接头(Adapter)的 DNA 片段集合(Library),使其能被测序仪识别、扩增并测序的过程。

和第13篇的分工:第13篇讲的是测序仪内部怎么读碱基(SBS、SMRT、纳米孔电信号),本篇讲的是上机之前样本怎么处理、怎么设计测序方案。


DNA 建库流程详解(六步走)

以最常用的 Illumina DNA 建库(如 TruSeq DNA / Nextera Flex)为例:

第1步:DNA 片段化(Fragmentation)

目的:把长 DNA 分子打碎成测序仪能处理的短片段(通常 200-800 bp)。

方法原理优点缺点典型工具/试剂
超声波打断用高频声波的剪切力随机打断 DNA打断均匀,偏差小,是 WGS 的金标准需要专用设备,耗时Covaris 超声仪
酶切打断用转座酶(Transposase)同时切割并插入接头极快(<15分钟),起始量低至 1ng有序列偏好性(对某些区域切得多、某些切得少),GC 偏差稍大Illumina Nextera / Tn5 转座酶
超声+机械针式超声(如 Bioruptor)或液压剪切适合小体积样本需要优化参数Bioruptor、Hydroshear

白话解释: - 超声波打断 → 像用碎石机把大石头均匀砸碎,碎得比较随机,大小均匀 - 酶切打断(Tn5 转座酶)→ 像用一把有偏好的剪刀,剪得快但某些花纹的地方更容易下刀

片段大小选择: - WGS(全基因组测序):300-500 bp(常见) - 宏基因组:300-500 bp - PCR-free 建库:350-450 bp(更窄,要求更严格)

第2步:末端修复 + 加 A 尾(End Repair + A-tailing)

为什么需要:DNA 打碎后断口是参差不齐的(有的是平头、有的是突出头),而接头连接需要整齐的末端。

打断后的 DNA 片段(断口不整齐):

  5'---ATCGGA        ← 突出
     TAGCC---5'

         ↓ 末端修复(End Repair)

  5'---ATCGGA---3'   ← 补平(平末端,Blunt End)
  3'---TAGCCT---5'

         ↓ 加 A 尾(A-tailing)

  5'---ATCGGAA---3'  ← 3' 端多加一个 A
  3'---TAGCCT ---5'

白话解释: - 末端修复 → 把参差不齐的断口用砂纸磨平 - 加 A 尾 → 在磨平的一端涂上胶水(A 碱基),和接头上的 T 碱基配对黏合,像魔术贴的公母扣

关键酶:T4 DNA 聚合酶(补平)+ Klenow 片段(加 A)+ T4 PNK(磷酸化 5' 端)。现在很多试剂盒把这几步合成一管酶,一步完成。

第3步:接头连接(Adapter Ligation)

这是建库最核心的一步——给 DNA 片段两端接上"通用插头",让测序仪能识别。

接头结构(以 Illumina Y 型接头为例):

     P5 Adapter                    P7 Adapter
  ┌────────────┐               ┌────────────┐
  │ P5 序列    │               │ Index (i7) │
  │ Rd1 SP     │               │ Rd2 SP     │
  │     T 悬挂 │───DNA片段───│ T 悬挂     │
  └────────────┘               │ P7 序列    │
                                └────────────┘

各部分功能:
- P5 / P7 序列:和 Flow Cell 表面的互补寡核苷酸结合,让片段"粘"在芯片上
- Rd1 SP / Rd2 SP:测序引物结合位点(Read 1 / Read 2 的测序从这里起始)
- Index (i7 / i5):样本标签序列(用于多样本混合后拆分数据,详见后文)
- T 悬挂:和 DNA 片段的 A 尾配对,实现定向连接

白话解释:接头就像 USB 接口——不管你内部存了什么数据(不同样本的 DNA),外面的插头形状是标准的,测序仪这台电脑才能识别。

连接效率的影响因素: - 接头与 DNA 片段的摩尔比(通常接头过量 10-100 倍) - 连接酶活性(T4 DNA Ligase) - 温度和时间(通常 20°C、15-30 分钟)

第4步:PCR 扩增(Library Amplification)

目的:把连接好接头的文库分子复制多份,增加文库总量(尤其是起始 DNA 量少的时候)。

PCR 循环数选择:
- 起始量充足(>100ng):4-6 个循环,甚至 PCR-free(零循环)
- 起始量中等(10-100ng):6-8 个循环
- 起始量低(<10ng):8-12 个循环
- 超低量(单细胞、FFPE):12-15 个循环

循环数越多 → 扩增偏差越大(GC 偏差加重、PCR duplicates 增多)

为什么 PCR-free 是趋势: - PCR 扩增会引入偏差:高 GC / 低 GC 区域扩增效率不同 - PCR 会产生 duplicates(完全一样的片段不是独立取样,而是同一分子的拷贝),会浪费测序资源 - Illumina 的 PCR-free 试剂盒(如 Illumina DNA Prep, PCR-free)跳过这步,但需要较多起始 DNA(>100ng)

白话解释:PCR 扩增像用复印机复印考卷——复印几份还行,复印太多次字迹就模糊了(偏差增大),而且复印出来的卷子不算独立答题(PCR duplicates)。

第5步:纯化与片段大小选择(Purification & Size Selection)

目的:去除接头二聚体(adapter dimer,两个接头自己连在一起没有 DNA 插入片段)、引物残留、酶等杂质,并选择目标大小范围的片段。

方法原理说明
磁珠纯化(AMPure XP / SPRI beads)固相可逆化固定法,DNA 在特定盐浓度下吸附到磁珠表面最常用。通过调节磁珠与样本的体积比(如 0.8×)来选择大于特定长度的片段
凝胶回收电泳分离后切胶回收目标大小片段精度高但费时,现在较少用于高通量建库
自动化仪器Pippin Prep / BluePippin精准的自动化大小选择,适合需要严格控制片段大小的实验

磁珠比例速记(AMPure XP): - 0.6× 比例:回收 >500bp 片段(去掉小片段和接头二聚体) - 0.8× 比例:回收 >300bp 片段(最常用) - 1.0× 比例:回收 >200bp 片段 - 双面选择(double-sided):先用低比例去大片段,再用高比例回收目标范围(如先 0.6× 去大的,再 0.8× 收中间的)

白话解释:磁珠纯化像用不同目数的筛子筛沙——大颗粒(长片段)先被筛掉,小颗粒(接头二聚体)从最细的筛子漏掉,留下中间合适大小的"砂粒"。

第6步:文库质检(Library QC)

建好的文库上机之前必须检查三件事:浓度、片段大小分布、有效文库浓度。

质检项目检测工具测什么合格标准
浓度Qubit 荧光计dsDNA 精确浓度(ng/μL)具体值取决于建库试剂盒要求,通常 >1 ng/μL
片段大小分布Agilent Bioanalyzer / TapeStation文库片段的大小分布图(电泳图谱)应出现单一主峰,峰值在目标范围(如 300-500bp),无接头二聚体峰(~120-170bp 处不应有峰)
有效文库浓度qPCR 定量(KAPA qPCR Kit)只测带有完整接头的文库分子浓度这是最准确的定量方法,直接决定上机 loading 浓度

为什么不只用 Qubit

Qubit 测的是所有 dsDNA 的总浓度,包括:
  ✓ 正常的文库分子(带接头、有插入片段)
  ✗ 接头二聚体(没用的废物)
  ✗ 没有接头的 DNA 片段(上不了机)

qPCR 定量只测带有 P5+P7 接头的分子 → 才是真正能被测序的"有效分子"

所以最佳实践是:Qubit 粗测 → Bioanalyzer 看片段分布 → qPCR 精确定量

白话解释:Qubit 像称体重(不管肌肉还是脂肪),Bioanalyzer 像照 X 光片(看骨架结构),qPCR 像体检量肌肉量(只算有用的部分)。


RNA 建库的特殊步骤

RNA 建库和 DNA 建库的核心区别:RNA 不能直接建库上机,必须先处理成 cDNA。

RNA 建库 vs DNA 建库的关键差异

DNA 建库:  提取 DNA → 打断 → 末端修复 → 接头连接 → PCR → 质检
RNA 建库:  提取 RNA → ★rRNA去除/polyA富集 → ★RNA片段化 → ★逆转录(cDNA) → 二链合成 → 末端修复 → 接头连接 → PCR → 质检
                       ↑ 这三步是 RNA 建库独有的 ↑

rRNA 去除 vs polyA 富集(二选一)

这是 RNA-seq 建库的第一个关键决策

方法原理(白话)优点缺点适用场景
polyA 富集(Oligo-dT 磁珠)用一串 TTTT... 磁珠去"钓"带 polyA 尾巴的 mRNA(真核生物 mRNA 几乎都有 polyA 尾)富集效率高,数据干净,mRNA 占比 >90%只能测 mRNA,丢失 lncRNA、miRNA 等非编码 RNA;降解样本效果差(断裂的 mRNA 可能没了 polyA 尾)真核生物转录组、基因表达定量
rRNA 去除(RiboZero / RiboCop)用探针捕获 rRNA(占 RNA 总量 80-90%)并去掉,剩下的就是你要的能保留所有非 rRNA 的 RNA(mRNA + 非编码 RNA);对降解样本也适用成本更高,试剂贵;数据中仍含部分残余 rRNA原核生物、降解样本(FFPE)、需要分析非编码 RNA 的研究

白话解释: - polyA 富集 → 像在鱼塘里专门用"mRNA 鱼钩"钓 mRNA 这种鱼,其他鱼不管 - rRNA 去除 → 像把鱼塘里数量最多的"rRNA 杂鱼"全捞走,剩下的各种鱼都要

逆转录(Reverse Transcription)

RNA → cDNA 的关键步骤:

        逆转录酶(Reverse Transcriptase)
mRNA  ───────────────────────────────→  cDNA第一链
        ↓ 用随机引物(Random Hexamers)或 Oligo-dT 引物启动

cDNA第一链  ───→  DNA 聚合酶  ───→  双链 cDNA
                                后续步骤和 DNA 建库一样

链特异性建库(Strand-specific / Directional RNA-seq): - 现在主流的 RNA-seq 建库都是链特异性的(如 Illumina TruSeq Stranded) - 方法:在合成 cDNA 第二链时掺入 dUTP 代替 dTTP,后续用 UDG 酶消化含 dU 的链 → 只保留第一链方向的信息 - 为什么重要:知道 RNA 来自基因组的正义链还是反义链,能准确判断转录方向,区分正义/反义转录本、重叠基因 - 白话说:不保留链信息就像只知道"这条路上有车"但不知道车往哪个方向开


宏基因组建库的特殊注意事项

宏基因组样本(如粪便、土壤、水体)和普通单物种基因组的建库有几个关键不同:

1. DNA 提取是最大的偏差来源

问题说明应对措施
细胞裂解偏差不同微生物的细胞壁硬度差异巨大(革兰氏阳性菌/芽孢杆菌壁厚,难裂解)采用物理裂解(bead-beating,珠磨法)+ 化学裂解联合方案
人源 DNA 污染粪便样本中人源 DNA 可占 10%-90%提取后用 Bowtie2/BWA 去宿主;或用 NEBNext Microbiome DNA Enrichment Kit 等在提取阶段就去除宿主 DNA
DNA 降解环境样本中 DNA 可能已部分降解使用适合降解样本的建库试剂盒(如 Nextera XT,起始量低至 1ng)
抑制物干扰粪便中的胆盐、腐殖酸等抑制 PCR 和建库酶活性使用含抑制物去除步骤的提取试剂盒(如 QIAamp PowerFecal Pro)

2. 建库方案选择

方案说明适用场景
标准 WGS 建库(TruSeq DNA)超声打断 + 末端修复 + 接头连接 + PCRDNA 量充足(>100ng),标准项目
Nextera / Tagmentation 建库Tn5 转座酶同时打断和加接头,极快DNA 量少(1-50ng),快速建库
PCR-free 建库不做 PCR 扩增减少 GC 偏差,需要 DNA 量足(>100ng)

3. 宏基因组建库实操要点

宏基因组建库 Checklist:
☐ DNA 提取方法包含 bead-beating 步骤(确保难裂解菌也能破壁)
☐ 用 Qubit 精确定量(NanoDrop 对宏基因组样本不够准,容易被蛋白/盐干扰)
☐ 检查 DNA 完整性(跑凝胶或用 TapeStation 看是否降解)
☐ 如果起始量 <100ng,选择低起始量方案(Nextera XT / Flex)
☐ PCR 循环数尽量少(减少偏差,宏基因组需要真实反映群落组成)
☐ 片段大小建议 300-500bp(配合 PE150 测序,插入片段 ~200-350bp)
☐ 质检时注意:接头二聚体峰(~120-170bp)在宏基因组中更容易出现

不同应用的建库方案选择

应用建库试剂盒(Illumina 系)起始核酸特殊步骤推荐测序方案典型测序深度
WGS(全基因组)TruSeq DNA PCR-Free / Illumina DNA PrepDNA 100ng-1μgPE150人:30×;细菌:50-100×
WES(全外显子组)Twist / IDT xGen / Agilent SureSelectDNA 50-200ng杂交捕获(用探针钓出外显子区域)PE150100-200×
RNA-seq(转录组)TruSeq Stranded mRNA / Total RNARNA 100ng-1μgpolyA 富集或 rRNA 去除 + 逆转录PE15020-30M reads/样本
ChIP-seqThruPLEX / NEBNext Ultra IIChIP-DNA 1-10ng免疫沉淀(IP)在建库之前完成SE50 或 PE7520-40M reads/样本
16S 扩增子自定义引物 + Nextera XT Index KitDNA 5-50ngPCR 扩增特定 V 区(V3-V4 / V4)PE300(MiSeq)10K-100K reads/样本
宏基因组(Shotgun)Illumina DNA Prep / Nextera XT / FlexDNA 1ng-200ng无特殊步骤(直接建全基因组库)PE1505-10 Gb/样本(人肠道)
ATAC-seqNextera XT / Illumina Tagment DNA处理后的核 50K cellsTn5 转座酶处理开放染色质PE75 或 PE15050-100M reads/样本

WES 杂交捕获白话:WES 不是测全基因组,只测占基因组 ~1.5% 的外显子。方法是:先把全基因组打碎建库,然后用和外显子序列互补的 RNA 探针去"钓鱼"——只有和探针配对的 DNA 片段被留下(捕获),其余丢弃。这样用更少的数据量就能测到更高的外显子深度。


Index / Barcode 多样本混合测序(白话版)

为什么需要混样

一台测序仪(如 NovaSeq)一次能产出几 Tb 数据,但一个宏基因组样本可能只需要 10 Gb。如果一次只跑一个样本,就像包一辆大巴只坐一个人——太浪费了。

解决方案:多个样本混在一起上机(Pooling / Multiplexing),用"编号"来区分

Index 是什么

每个样本的文库片段都带有独特的 Index 序列(也叫 Barcode):

样本A的文库:  P5---[i5-A]---Rd1SP---DNA片段---Rd2SP---[i7-A]---P7
样本B的文库:  P5---[i5-B]---Rd1SP---DNA片段---Rd2SP---[i7-B]---P7
样本C的文库:  P5---[i5-C]---Rd1SP---DNA片段---Rd2SP---[i7-C]---P7

混合上机后,测序仪先读 Index 序列 → 知道这条 read 属于哪个样本 → 数据拆分(Demultiplexing)

白话解释:Index 就是"快递单号"。你的快递和别人的快递放在同一辆卡车里运(混合测序),到了快递站,工作人员根据快递单号(Index)把每个人的快递分开。

单 Index vs 双 Index

方案Index 数区分能力说明
单 Index(i7 only)1个(6-8bp)最多 ~96 个样本简单,但样本多时容易出现 Index 跳跃(index hopping)导致错误分配
双 Index(i7 + i5)2个(各 8-10bp)理论上可区分上万个样本现在的标准方案。双保险,大幅降低 index 跳跃的误分率
UDI(Unique Dual Index)2个,每个组合唯一最严格i7 和 i5 的组合是唯一的(不是排列组合),进一步消除 index 跳跃问题

Index 跳跃(Index Hopping / Index Switching)

正常:  样本A的片段 → 带 Index-A → 拆分给样本A     ✓
异常:  样本A的片段 → 在 Flow Cell 上意外获得了 Index-B → 被误分给样本B  ✗

发生原因:游离的 Index 接头在 Flow Cell 上和错误的片段重组
发生率:Illumina 排列式 Flow Cell(如 NovaSeq 6000 的 ExAmp)上约 0.1-2%
解决方案:
  1. 使用 UDI(Unique Dual Index)
  2. 建库后彻底纯化去除游离接头
  3. 数据分析时过滤非预期的 Index 组合

混合比例计算

Pooling 计算公式:

等量混合(Equimolar Pooling):
  每个样本的 loading 体积 = 目标总量 / 样本数 / 该样本浓度

示例:
  目标混合池浓度:4 nM,总体积 20 μL
  样本A 文库浓度:10 nM → 加 (4 × 20) / (10 × 6) = 1.33 μL
  样本B 文库浓度:8 nM  → 加 (4 × 20) / (8 × 6) = 1.67 μL
  ... 补水至 20 μL

白话解释:混样就像多个房间共用一条网线——你得按每个房间的带宽需求分配流量。测序深度需求大的样本多放点,需求小的少放点。


测序方案设计

PE vs SE(双端 vs 单端测序)

单端测序(SE, Single-End):
  ──→                只从片段一端开始读

双端测序(PE, Paired-End):
  ──→        ←──     从片段两端分别读
  Read 1     Read 2

  两条 Read 之间的距离 = Insert Size(插入片段大小)
对比SE(单端)PE(双端)
信息量只有一端序列两端序列 + 两端的相对位置(insert size)
比对准确性较低(重复区域难定位)高(两端锚定,跨重复区域能力强)
结构变异检测强(能检测插入、缺失、倒位等)
成本~60% PE 的价格更贵(读两端 = 两倍的测序反应)
适合ChIP-seq、miRNA-seq、简单表达定量WGS、WES、RNA-seq、宏基因组

选择建议: - 如果不确定,默认选 PE——多花 30-40% 的钱,信息量翻倍 - 只有在明确不需要配对信息时(如只做基因表达定量的 RNA-seq、ChIP-seq 峰检测)才选 SE

读长选择(Read Length)

读长典型应用说明
SE50 / SE75ChIP-seq、miRNA-seq、ATAC-seq只需定位到基因组位置,不需要长读长
PE75RNA-seq(基因表达定量)、ChIP-seq对于大多数表达分析足够
PE150WGS、WES、宏基因组、RNA-seq最通用的选择,绝大多数项目用这个
PE250 / PE30016S 扩增子(V3-V4 区 ~460bp,需要 PE300 双端拼接覆盖)只有 MiSeq 支持 PE300

读长怎么影响分析: - 读长太短 → 比对到基因组的唯一性(mappability)下降,重复区域分不清 - 读长太长 → 3' 端质量下降(Illumina 测序到后面质量越来越差) - PE150 是性价比最优的:150bp 足够在大多数基因组中实现高唯一比对率,又不会因为太长导致 3' 端质量暴跌

测序深度的计算与选择

核心公式

测序深度(Coverage, ×) = (读长 × 读数 × 2[PE]) / 基因组大小

或者反过来算需要多少数据:
所需数据量(bp)= 目标深度 × 基因组大小

示例1:人全基因组 WGS,30× 覆盖
  所需数据量 = 30 × 3,000,000,000 = 90 Gb
  如果 PE150,需要 reads 数 = 90G / (150×2) = 3 亿对 reads

示例2:大肠杆菌基因组(~5 Mb),100× 覆盖
  所需数据量 = 100 × 5,000,000 = 500 Mb = 0.5 Gb

示例3:宏基因组(肠道菌群),目标 10 Gb/样本
  如果 PE150,需要 reads 数 = 10G / (150×2) = ~3333 万对 reads

各应用的推荐测序深度

应用推荐深度/数据量说明
人 WGS30×变异检测的标准深度
人 WES100-200×外显子只占 ~1.5%,需要更高深度
RNA-seq(差异表达)20-30M reads/样本做差异基因分析足够
RNA-seq(罕见转录本/可变剪接)50-100M reads/样本需要更深的测序
ChIP-seq20-40M reads取决于结合位点数量
16S 扩增子10K-100K reads/样本通常 50K reads 就可以描述群落组成
宏基因组(肠道菌群)5-10 Gb/样本浅层分析 1-3 Gb 也行,深度分析需 10+ Gb
宏基因组(土壤/环境)10-20+ Gb/样本物种多样性更高,需要更多数据

宏基因组示例项目(肠道宏基因组):使用 PE150 测序方案,每样本约 5-10 Gb 数据量。选择 PE 是因为宏基因组组装和比对都需要配对信息来提高准确性。


建库与测序的完整工作流速查

实验设计阶段
  ├─ 确定科学问题 → 选择测序类型(WGS/WES/RNA-seq/宏基因组/16S...)
  ├─ 确定样本数量 → 计算所需总数据量 → 选择测序平台和流动槽
  ├─ 确定 PE vs SE → 选择读长 → 计算测序深度
  └─ 设计 Index 方案(几个样本混一个 Lane)

样本处理阶段
  ├─ 核酸提取 → Qubit 定量 + 完整性检查
  ├─ RNA 样本额外:polyA 富集 / rRNA 去除
  └─ 宏基因组额外:bead-beating 裂解 + 抑制物去除

建库阶段
  ├─ 片段化(超声/酶切)
  ├─ 末端修复 + A-tailing
  ├─ 接头连接(含 Index)
  ├─ PCR 扩增(尽量少循环)/ PCR-free
  ├─ 纯化 + 大小选择(磁珠/凝胶)
  └─ 文库质检(Qubit + Bioanalyzer + qPCR)

上机测序阶段
  ├─ 等量混合(Equimolar Pooling)
  ├─ 变性 + 稀释至 loading 浓度
  ├─ 加载到 Flow Cell → 上机运行
  └─ 数据输出:BCL → bcl2fastq 拆分 → FASTQ 文件

面试怎么答

Q1: 请简述 NGS 建库的基本流程

建库的核心目的是把样本 DNA 加工成测序仪能识别的标准格式。标准流程是六步:第一步把长 DNA 打碎成 300-500bp 的片段,可以用超声波打断或转座酶酶切;第二步末端修复加 A 尾,把断口磨平并加上一个 A 碱基方便后续连接;第三步接头连接,在片段两端接上包含测序引物位点和 Index 标签的 Adapter;第四步 PCR 扩增,把文库分子复制多份增加总量;第五步磁珠纯化和大小选择,去掉接头二聚体等杂质;第六步质检,用 Qubit 测浓度、Bioanalyzer 看片段分布、qPCR 测有效文库浓度。整个过程最关键的是接头连接和质检两步。

Q2: RNA-seq 建库和 DNA 建库有什么区别?

主要有三个区别。第一,RNA-seq 建库之前需要先做 rRNA 去除或 polyA 富集——因为 rRNA 占了总 RNA 的 80-90%,不去掉的话测出来都是 rRNA 浪费测序资源。如果研究的是真核 mRNA,通常用 Oligo-dT 磁珠富集带 polyA 尾的 mRNA;如果是原核生物或者需要看非编码 RNA,就用 RiboZero 等试剂去除 rRNA。第二,RNA 需要逆转录成 cDNA 才能建库——现在主流用的是链特异性建库方法,在合成第二链时掺入 dUTP,后续消化掉第二链,这样可以保留转录方向信息。第三,RNA 是单链且容易降解,操作上比 DNA 建库更需要注意 RNase 污染防护和低温操作。

Q3: 什么是 Index / Barcode?为什么需要双 Index?

Index 也叫 Barcode,是建库时加在每个样本文库片段上的短序列标签,通常 8-10 个碱基长。目的是让多个样本可以混在一起上机测序,测完后根据 Index 序列把数据拆分回各自样本,这个过程叫 Demultiplexing。之所以需要双 Index,也就是 i7 加 i5 两端都加标签,主要是为了解决 Index 跳跃问题——在某些 Flow Cell 上(如 NovaSeq 使用的排列式 Flow Cell),游离的接头可能和错误的片段重组,导致样本被错误分配。双 Index 大幅降低了这种误分率,现在更推荐使用 UDI(每个 i7+i5 组合都唯一)来进一步消除这个问题。

Q4: 宏基因组建库有哪些特殊注意事项?

宏基因组建库比单物种基因组建库复杂,主要有四个注意点。第一是 DNA 提取要采用 bead-beating 物理裂解加化学裂解的联合方案,因为不同微生物细胞壁硬度差异很大,只用化学法容易漏掉革兰氏阳性菌和芽孢杆菌。第二是要注意宿主 DNA 污染,人粪便样本中人源 DNA 可占到 10%-90%,建库后需要用 Bowtie2 等工具比对去宿主。第三是 PCR 循环数要尽量少,因为宏基因组需要真实反映群落组成比例,PCR 偏差会扭曲物种丰度。该 T2D 项目用的 Illumina PE150 方案,每样本约 5-10 Gb 数据量,能够覆盖大部分肠道微生物。第四是用 Qubit 而不是 NanoDrop 定量,因为粪便提取的 DNA 中常含蛋白和盐类杂质,NanoDrop 容易高估浓度。

Q5: PE150 是什么意思?怎么计算需要多少测序数据量?

PE150 指 Paired-End 150bp,就是从 DNA 片段两端各读 150 个碱基。PE 相比 SE(单端)的优势是信息量更大——两端的序列加上它们之间的距离关系,可以提高比对准确性和结构变异检测能力。计算数据量的公式是:所需数据量等于目标深度乘以基因组大小。比如人类全基因组 WGS 要 30 倍覆盖,基因组 3Gb,就需要 90Gb 数据。换算成 reads 数就是 90Gb 除以(150bp 乘以 2),等于 3 亿对 reads。对于宏基因组,因为不是单一基因组,通常按总数据量来规划,人肠道菌群一般 5-10 Gb 每样本就够做物种分类和功能分析了。


速查表

建库方法速查

决策点选项 A选项 B怎么选
DNA 打断方式超声波(Covaris)酶切(Tn5 转座酶)DNA 量足 + 要求均匀 → 超声;DNA 量少 + 求快 → 酶切
RNA 处理方式polyA 富集rRNA 去除真核 mRNA → polyA;原核/降解样本/需要 ncRNA → rRNA 去除
PCR 扩增做 PCRPCR-freeDNA 量 >100ng 且要求低偏差 → PCR-free;量少必须做 PCR
纯化方式磁珠(AMPure XP)凝胶回收高通量/常规 → 磁珠;需要精准切割大小 → 凝胶
Index 方案单 Index双 Index(UDI)现在一律推荐双 Index / UDI

测序方案速查

测序类型推荐方案读长深度/数据量
人 WGSPE150150bp×230× (~90 Gb)
人 WESPE150150bp×2100-200× (~6-12 Gb)
RNA-seqPE150 或 PE7575-150bp×220-30M reads
宏基因组PE150150bp×25-10 Gb/样本
16S 扩增子PE300(MiSeq)300bp×250K-100K reads
ChIP-seqSE50 或 PE7550-75bp20-40M reads
ATAC-seqPE75 或 PE15075-150bp×250-100M reads

文库质检三件套

工具测什么白话比方
QubitdsDNA 总浓度称体重
Bioanalyzer / TapeStation片段大小分布照 X 光看骨架
qPCR有效文库分子浓度体检量肌肉

关键数字速记

数字含义
300-500 bpWGS / 宏基因组建库常用片段大小
120-170 bp接头二聚体的大小(质检时不应出现此峰)
0.8×AMPure XP 磁珠最常用比例(回收 >300bp)
4-6 cyclesDNA 量充足时推荐的 PCR 循环数
80-90%rRNA 在总 RNA 中的占比
0.1-2%NovaSeq Flow Cell 上 Index 跳跃的发生率

延伸资源

  1. Illumina Library Prep 官方指南:Illumina 官网提供各建库试剂盒的详细实验方案(Protocol)
    → 搜索 "Illumina Library Prep Protocols" 或访问 Illumina Support 页面

  2. KAPA Library Quantification Kit 技术手册:qPCR 定量文库的标准方案
    → Roche / KAPA Biosystems 官网

  3. Illumina Experiment Design 工具:在线计算测序深度和数据量需求
    → 搜索 "Illumina Sequencing Coverage Calculator"

  4. Nature Protocols:Metagenomics library preparation:宏基因组建库的标准化方案
    → Quince et al. (2017) Nature Biotechnology "Shotgun metagenomics, from sampling to analysis"

  5. 视频推荐:iBiology "Next Generation Sequencing - Library Preparation" 系列
    → YouTube 搜索 "iBiology NGS library preparation"


最后更新:2026-05-03 | 编写说明:本文档专为面试准备编写,聚焦"建库方法 + 测序方案设计",与第13篇(测序平台原理)互补。建库六步流程、RNA 特殊步骤、Index 混样、深度计算是面试高频考点。