建库与测序实验设计（Library Preparation & Sequencing Design）¶

一句话说明¶

建库（Library Preparation）是把样本 DNA/RNA "改造"成测序仪能认识的标准格式的过程，而测序实验设计决定了用什么读长、多大深度、怎么混样——选错了方案，要么浪费钱，要么数据不够用。本篇讲的是"怎么建库、怎么设计测序方案"，和第13篇（测序平台原理）互补但不重复。

建库（Library Preparation）是什么（白话版）¶

一句话：建库就是把你提取出来的 DNA/RNA 加工成测序仪能"吃"的标准食物。

白话类比：

你的 DNA 原液好比一整头生猪 —— 测序仪不能直接吃
建库就是把猪切成标准大小的肉块（打断）→ 给每块肉串上签子（接头连接）→ 给每串肉贴上桌号标签（Index）→ 检查合不合格（质检）
最后把加工好的"标准烤串"送上测序仪这台"烤炉"

技术定义：建库是将核酸样本经过片段化、末端修复、接头连接、扩增和纯化等步骤，制备成带有平台特异性接头（Adapter）的 DNA 片段集合（Library），使其能被测序仪识别、扩增并测序的过程。

和第13篇的分工：第13篇讲的是测序仪内部怎么读碱基（SBS、SMRT、纳米孔电信号），本篇讲的是上机之前样本怎么处理、怎么设计测序方案。

DNA 建库流程详解（六步走）¶

以最常用的 Illumina DNA 建库（如 TruSeq DNA / Nextera Flex）为例：

第1步：DNA 片段化（Fragmentation）¶

目的：把长 DNA 分子打碎成测序仪能处理的短片段（通常 200-800 bp）。

方法	原理	优点	缺点	典型工具/试剂
超声波打断	用高频声波的剪切力随机打断 DNA	打断均匀，偏差小，是 WGS 的金标准	需要专用设备，耗时	Covaris 超声仪
酶切打断	用转座酶（Transposase）同时切割并插入接头	极快（<15分钟），起始量低至 1ng	有序列偏好性（对某些区域切得多、某些切得少），GC 偏差稍大	Illumina Nextera / Tn5 转座酶
超声+机械	针式超声（如 Bioruptor）或液压剪切	适合小体积样本	需要优化参数	Bioruptor、Hydroshear

白话解释： - 超声波打断 → 像用碎石机把大石头均匀砸碎，碎得比较随机，大小均匀 - 酶切打断（Tn5 转座酶）→ 像用一把有偏好的剪刀，剪得快但某些花纹的地方更容易下刀

片段大小选择： - WGS（全基因组测序）：300-500 bp（常见） - 宏基因组：300-500 bp - PCR-free 建库：350-450 bp（更窄，要求更严格）

第2步：末端修复 + 加 A 尾（End Repair + A-tailing）¶

为什么需要：DNA 打碎后断口是参差不齐的（有的是平头、有的是突出头），而接头连接需要整齐的末端。

打断后的 DNA 片段（断口不整齐）：

  5'---ATCGGA        ← 突出
     TAGCC---5'

         ↓ 末端修复（End Repair）

  5'---ATCGGA---3'   ← 补平（平末端，Blunt End）
  3'---TAGCCT---5'

         ↓ 加 A 尾（A-tailing）

  5'---ATCGGAA---3'  ← 3' 端多加一个 A
  3'---TAGCCT ---5'

白话解释： - 末端修复 → 把参差不齐的断口用砂纸磨平 - 加 A 尾 → 在磨平的一端涂上胶水（A 碱基），和接头上的 T 碱基配对黏合，像魔术贴的公母扣

关键酶：T4 DNA 聚合酶（补平）+ Klenow 片段（加 A）+ T4 PNK（磷酸化 5' 端）。现在很多试剂盒把这几步合成一管酶，一步完成。

第3步：接头连接（Adapter Ligation）¶

这是建库最核心的一步——给 DNA 片段两端接上"通用插头"，让测序仪能识别。

接头结构（以 Illumina Y 型接头为例）：

     P5 Adapter                    P7 Adapter
  ┌────────────┐               ┌────────────┐
  │ P5 序列    │               │ Index (i7) │
  │ Rd1 SP     │               │ Rd2 SP     │
  │     T 悬挂 │───DNA片段───│ T 悬挂     │
  └────────────┘               │ P7 序列    │
                                └────────────┘

各部分功能：
- P5 / P7 序列：和 Flow Cell 表面的互补寡核苷酸结合，让片段"粘"在芯片上
- Rd1 SP / Rd2 SP：测序引物结合位点（Read 1 / Read 2 的测序从这里起始）
- Index (i7 / i5)：样本标签序列（用于多样本混合后拆分数据，详见后文）
- T 悬挂：和 DNA 片段的 A 尾配对，实现定向连接

白话解释：接头就像 USB 接口——不管你内部存了什么数据（不同样本的 DNA），外面的插头形状是标准的，测序仪这台电脑才能识别。

连接效率的影响因素： - 接头与 DNA 片段的摩尔比（通常接头过量 10-100 倍） - 连接酶活性（T4 DNA Ligase） - 温度和时间（通常 20°C、15-30 分钟）

第4步：PCR 扩增（Library Amplification）¶

目的：把连接好接头的文库分子复制多份，增加文库总量（尤其是起始 DNA 量少的时候）。

PCR 循环数选择：
- 起始量充足（>100ng）：4-6 个循环，甚至 PCR-free（零循环）
- 起始量中等（10-100ng）：6-8 个循环
- 起始量低（<10ng）：8-12 个循环
- 超低量（单细胞、FFPE）：12-15 个循环

循环数越多 → 扩增偏差越大（GC 偏差加重、PCR duplicates 增多）

为什么 PCR-free 是趋势： - PCR 扩增会引入偏差：高 GC / 低 GC 区域扩增效率不同 - PCR 会产生 duplicates（完全一样的片段不是独立取样，而是同一分子的拷贝），会浪费测序资源 - Illumina 的 PCR-free 试剂盒（如 Illumina DNA Prep, PCR-free）跳过这步，但需要较多起始 DNA（>100ng）

白话解释：PCR 扩增像用复印机复印考卷——复印几份还行，复印太多次字迹就模糊了（偏差增大），而且复印出来的卷子不算独立答题（PCR duplicates）。

第5步：纯化与片段大小选择（Purification & Size Selection）¶

目的：去除接头二聚体（adapter dimer，两个接头自己连在一起没有 DNA 插入片段）、引物残留、酶等杂质，并选择目标大小范围的片段。

方法	原理	说明
磁珠纯化（AMPure XP / SPRI beads）	固相可逆化固定法，DNA 在特定盐浓度下吸附到磁珠表面	最常用。通过调节磁珠与样本的体积比（如 0.8×）来选择大于特定长度的片段
凝胶回收	电泳分离后切胶回收目标大小片段	精度高但费时，现在较少用于高通量建库
自动化仪器	Pippin Prep / BluePippin	精准的自动化大小选择，适合需要严格控制片段大小的实验

磁珠比例速记（AMPure XP）： - 0.6× 比例：回收 >500bp 片段（去掉小片段和接头二聚体） - 0.8× 比例：回收 >300bp 片段（最常用） - 1.0× 比例：回收 >200bp 片段 - 双面选择（double-sided）：先用低比例去大片段，再用高比例回收目标范围（如先 0.6× 去大的，再 0.8× 收中间的）

白话解释：磁珠纯化像用不同目数的筛子筛沙——大颗粒（长片段）先被筛掉，小颗粒（接头二聚体）从最细的筛子漏掉，留下中间合适大小的"砂粒"。

第6步：文库质检（Library QC）¶

建好的文库上机之前必须检查三件事：浓度、片段大小分布、有效文库浓度。

质检项目	检测工具	测什么	合格标准
浓度	Qubit 荧光计	dsDNA 精确浓度（ng/μL）	具体值取决于建库试剂盒要求，通常 >1 ng/μL
片段大小分布	Agilent Bioanalyzer / TapeStation	文库片段的大小分布图（电泳图谱）	应出现单一主峰，峰值在目标范围（如 300-500bp），无接头二聚体峰（~120-170bp 处不应有峰）
有效文库浓度	qPCR 定量（KAPA qPCR Kit）	只测带有完整接头的文库分子浓度	这是最准确的定量方法，直接决定上机 loading 浓度

为什么不只用 Qubit：

Qubit 测的是所有 dsDNA 的总浓度，包括：
  ✓ 正常的文库分子（带接头、有插入片段）
  ✗ 接头二聚体（没用的废物）
  ✗ 没有接头的 DNA 片段（上不了机）

qPCR 定量只测带有 P5+P7 接头的分子 → 才是真正能被测序的"有效分子"

所以最佳实践是：Qubit 粗测 → Bioanalyzer 看片段分布 → qPCR 精确定量

白话解释：Qubit 像称体重（不管肌肉还是脂肪），Bioanalyzer 像照 X 光片（看骨架结构），qPCR 像体检量肌肉量（只算有用的部分）。

RNA 建库的特殊步骤¶

RNA 建库和 DNA 建库的核心区别：RNA 不能直接建库上机，必须先处理成 cDNA。

RNA 建库 vs DNA 建库的关键差异¶

DNA 建库：  提取 DNA → 打断 → 末端修复 → 接头连接 → PCR → 质检
RNA 建库：  提取 RNA → ★rRNA去除/polyA富集 → ★RNA片段化 → ★逆转录(cDNA) → 二链合成 → 末端修复 → 接头连接 → PCR → 质检
                       ↑ 这三步是 RNA 建库独有的 ↑

rRNA 去除 vs polyA 富集（二选一）¶

这是 RNA-seq 建库的第一个关键决策：

方法	原理（白话）	优点	缺点	适用场景
polyA 富集（Oligo-dT 磁珠）	用一串 TTTT... 磁珠去"钓"带 polyA 尾巴的 mRNA（真核生物 mRNA 几乎都有 polyA 尾）	富集效率高，数据干净，mRNA 占比 >90%	只能测 mRNA，丢失 lncRNA、miRNA 等非编码 RNA；降解样本效果差（断裂的 mRNA 可能没了 polyA 尾）	真核生物转录组、基因表达定量
rRNA 去除（RiboZero / RiboCop）	用探针捕获 rRNA（占 RNA 总量 80-90%）并去掉，剩下的就是你要的	能保留所有非 rRNA 的 RNA（mRNA + 非编码 RNA）；对降解样本也适用	成本更高，试剂贵；数据中仍含部分残余 rRNA	原核生物、降解样本（FFPE）、需要分析非编码 RNA 的研究

白话解释： - polyA 富集 → 像在鱼塘里专门用"mRNA 鱼钩"钓 mRNA 这种鱼，其他鱼不管 - rRNA 去除 → 像把鱼塘里数量最多的"rRNA 杂鱼"全捞走，剩下的各种鱼都要

逆转录（Reverse Transcription）¶

RNA → cDNA 的关键步骤：

        逆转录酶（Reverse Transcriptase）
mRNA  ───────────────────────────────→  cDNA第一链
        ↓ 用随机引物（Random Hexamers）或 Oligo-dT 引物启动

cDNA第一链  ───→  DNA 聚合酶  ───→  双链 cDNA
                                      ↓
                                后续步骤和 DNA 建库一样

链特异性建库（Strand-specific / Directional RNA-seq）： - 现在主流的 RNA-seq 建库都是链特异性的（如 Illumina TruSeq Stranded） - 方法：在合成 cDNA 第二链时掺入 dUTP 代替 dTTP，后续用 UDG 酶消化含 dU 的链 → 只保留第一链方向的信息 - 为什么重要：知道 RNA 来自基因组的正义链还是反义链，能准确判断转录方向，区分正义/反义转录本、重叠基因 - 白话说：不保留链信息就像只知道"这条路上有车"但不知道车往哪个方向开

宏基因组建库的特殊注意事项¶

宏基因组样本（如粪便、土壤、水体）和普通单物种基因组的建库有几个关键不同：

1. DNA 提取是最大的偏差来源¶

问题	说明	应对措施
细胞裂解偏差	不同微生物的细胞壁硬度差异巨大（革兰氏阳性菌/芽孢杆菌壁厚，难裂解）	采用物理裂解（bead-beating，珠磨法）+ 化学裂解联合方案
人源 DNA 污染	粪便样本中人源 DNA 可占 10%-90%	提取后用 Bowtie2/BWA 去宿主；或用 NEBNext Microbiome DNA Enrichment Kit 等在提取阶段就去除宿主 DNA
DNA 降解	环境样本中 DNA 可能已部分降解	使用适合降解样本的建库试剂盒（如 Nextera XT，起始量低至 1ng）
抑制物干扰	粪便中的胆盐、腐殖酸等抑制 PCR 和建库酶活性	使用含抑制物去除步骤的提取试剂盒（如 QIAamp PowerFecal Pro）

2. 建库方案选择¶

方案	说明	适用场景
标准 WGS 建库（TruSeq DNA）	超声打断 + 末端修复 + 接头连接 + PCR	DNA 量充足（>100ng），标准项目
Nextera / Tagmentation 建库	Tn5 转座酶同时打断和加接头，极快	DNA 量少（1-50ng），快速建库
PCR-free 建库	不做 PCR 扩增	减少 GC 偏差，需要 DNA 量足（>100ng）

3. 宏基因组建库实操要点¶

宏基因组建库 Checklist：
☐ DNA 提取方法包含 bead-beating 步骤（确保难裂解菌也能破壁）
☐ 用 Qubit 精确定量（NanoDrop 对宏基因组样本不够准，容易被蛋白/盐干扰）
☐ 检查 DNA 完整性（跑凝胶或用 TapeStation 看是否降解）
☐ 如果起始量 <100ng，选择低起始量方案（Nextera XT / Flex）
☐ PCR 循环数尽量少（减少偏差，宏基因组需要真实反映群落组成）
☐ 片段大小建议 300-500bp（配合 PE150 测序，插入片段 ~200-350bp）
☐ 质检时注意：接头二聚体峰（~120-170bp）在宏基因组中更容易出现

不同应用的建库方案选择¶

应用	建库试剂盒（Illumina 系）	起始核酸	特殊步骤	推荐测序方案	典型测序深度
WGS（全基因组）	TruSeq DNA PCR-Free / Illumina DNA Prep	DNA 100ng-1μg	无	PE150	人：30×；细菌：50-100×
WES（全外显子组）	Twist / IDT xGen / Agilent SureSelect	DNA 50-200ng	杂交捕获（用探针钓出外显子区域）	PE150	100-200×
RNA-seq（转录组）	TruSeq Stranded mRNA / Total RNA	RNA 100ng-1μg	polyA 富集或 rRNA 去除 + 逆转录	PE150	20-30M reads/样本
ChIP-seq	ThruPLEX / NEBNext Ultra II	ChIP-DNA 1-10ng	免疫沉淀（IP）在建库之前完成	SE50 或 PE75	20-40M reads/样本
16S 扩增子	自定义引物 + Nextera XT Index Kit	DNA 5-50ng	PCR 扩增特定 V 区（V3-V4 / V4）	PE300（MiSeq）	10K-100K reads/样本
宏基因组（Shotgun）	Illumina DNA Prep / Nextera XT / Flex	DNA 1ng-200ng	无特殊步骤（直接建全基因组库）	PE150	5-10 Gb/样本（人肠道）
ATAC-seq	Nextera XT / Illumina Tagment DNA	处理后的核 50K cells	Tn5 转座酶处理开放染色质	PE75 或 PE150	50-100M reads/样本

WES 杂交捕获白话：WES 不是测全基因组，只测占基因组 ~1.5% 的外显子。方法是：先把全基因组打碎建库，然后用和外显子序列互补的 RNA 探针去"钓鱼"——只有和探针配对的 DNA 片段被留下（捕获），其余丢弃。这样用更少的数据量就能测到更高的外显子深度。

Index / Barcode 多样本混合测序（白话版）¶

为什么需要混样¶

一台测序仪（如 NovaSeq）一次能产出几 Tb 数据，但一个宏基因组样本可能只需要 10 Gb。如果一次只跑一个样本，就像包一辆大巴只坐一个人——太浪费了。

解决方案：多个样本混在一起上机（Pooling / Multiplexing），用"编号"来区分。

Index 是什么¶

每个样本的文库片段都带有独特的 Index 序列（也叫 Barcode）：

样本A的文库：  P5---[i5-A]---Rd1SP---DNA片段---Rd2SP---[i7-A]---P7
样本B的文库：  P5---[i5-B]---Rd1SP---DNA片段---Rd2SP---[i7-B]---P7
样本C的文库：  P5---[i5-C]---Rd1SP---DNA片段---Rd2SP---[i7-C]---P7

混合上机后，测序仪先读 Index 序列 → 知道这条 read 属于哪个样本 → 数据拆分（Demultiplexing）

白话解释：Index 就是"快递单号"。你的快递和别人的快递放在同一辆卡车里运（混合测序），到了快递站，工作人员根据快递单号（Index）把每个人的快递分开。

单 Index vs 双 Index¶

方案	Index 数	区分能力	说明
单 Index（i7 only）	1个（6-8bp）	最多 ~96 个样本	简单，但样本多时容易出现 Index 跳跃（index hopping）导致错误分配
双 Index（i7 + i5）	2个（各 8-10bp）	理论上可区分上万个样本	现在的标准方案。双保险，大幅降低 index 跳跃的误分率
UDI（Unique Dual Index）	2个，每个组合唯一	最严格	i7 和 i5 的组合是唯一的（不是排列组合），进一步消除 index 跳跃问题

Index 跳跃（Index Hopping / Index Switching）¶

正常：  样本A的片段 → 带 Index-A → 拆分给样本A     ✓
异常：  样本A的片段 → 在 Flow Cell 上意外获得了 Index-B → 被误分给样本B  ✗

发生原因：游离的 Index 接头在 Flow Cell 上和错误的片段重组
发生率：Illumina 排列式 Flow Cell（如 NovaSeq 6000 的 ExAmp）上约 0.1-2%
解决方案：
  1. 使用 UDI（Unique Dual Index）
  2. 建库后彻底纯化去除游离接头
  3. 数据分析时过滤非预期的 Index 组合

混合比例计算¶

Pooling 计算公式：

等量混合（Equimolar Pooling）：
  每个样本的 loading 体积 = 目标总量 / 样本数 / 该样本浓度

示例：
  目标混合池浓度：4 nM，总体积 20 μL
  样本A 文库浓度：10 nM → 加 (4 × 20) / (10 × 6) = 1.33 μL
  样本B 文库浓度：8 nM  → 加 (4 × 20) / (8 × 6) = 1.67 μL
  ... 补水至 20 μL

白话解释：混样就像多个房间共用一条网线——你得按每个房间的带宽需求分配流量。测序深度需求大的样本多放点，需求小的少放点。

测序方案设计¶

PE vs SE（双端 vs 单端测序）¶

单端测序（SE, Single-End）：
  ──→                只从片段一端开始读

双端测序（PE, Paired-End）：
  ──→        ←──     从片段两端分别读
  Read 1     Read 2

  两条 Read 之间的距离 = Insert Size（插入片段大小）

对比	SE（单端）	PE（双端）
信息量	只有一端序列	两端序列 + 两端的相对位置（insert size）
比对准确性	较低（重复区域难定位）	高（两端锚定，跨重复区域能力强）
结构变异检测	弱	强（能检测插入、缺失、倒位等）
成本	~60% PE 的价格	更贵（读两端 = 两倍的测序反应）
适合	ChIP-seq、miRNA-seq、简单表达定量	WGS、WES、RNA-seq、宏基因组

选择建议： - 如果不确定，默认选 PE——多花 30-40% 的钱，信息量翻倍 - 只有在明确不需要配对信息时（如只做基因表达定量的 RNA-seq、ChIP-seq 峰检测）才选 SE

读长选择（Read Length）¶

读长	典型应用	说明
SE50 / SE75	ChIP-seq、miRNA-seq、ATAC-seq	只需定位到基因组位置，不需要长读长
PE75	RNA-seq（基因表达定量）、ChIP-seq	对于大多数表达分析足够
PE150	WGS、WES、宏基因组、RNA-seq	最通用的选择，绝大多数项目用这个
PE250 / PE300	16S 扩增子（V3-V4 区 ~460bp，需要 PE300 双端拼接覆盖）	只有 MiSeq 支持 PE300

读长怎么影响分析： - 读长太短 → 比对到基因组的唯一性（mappability）下降，重复区域分不清 - 读长太长 → 3' 端质量下降（Illumina 测序到后面质量越来越差） - PE150 是性价比最优的：150bp 足够在大多数基因组中实现高唯一比对率，又不会因为太长导致 3' 端质量暴跌

测序深度的计算与选择¶

核心公式：

测序深度（Coverage, ×） = (读长 × 读数 × 2[PE]) / 基因组大小

或者反过来算需要多少数据：
所需数据量（bp）= 目标深度 × 基因组大小

示例1：人全基因组 WGS，30× 覆盖
  所需数据量 = 30 × 3,000,000,000 = 90 Gb
  如果 PE150，需要 reads 数 = 90G / (150×2) = 3 亿对 reads

示例2：大肠杆菌基因组（~5 Mb），100× 覆盖
  所需数据量 = 100 × 5,000,000 = 500 Mb = 0.5 Gb

示例3：宏基因组（肠道菌群），目标 10 Gb/样本
  如果 PE150，需要 reads 数 = 10G / (150×2) = ~3333 万对 reads

各应用的推荐测序深度：

应用	推荐深度/数据量	说明
人 WGS	30×	变异检测的标准深度
人 WES	100-200×	外显子只占 ~1.5%，需要更高深度
RNA-seq（差异表达）	20-30M reads/样本	做差异基因分析足够
RNA-seq（罕见转录本/可变剪接）	50-100M reads/样本	需要更深的测序
ChIP-seq	20-40M reads	取决于结合位点数量
16S 扩增子	10K-100K reads/样本	通常 50K reads 就可以描述群落组成
宏基因组（肠道菌群）	5-10 Gb/样本	浅层分析 1-3 Gb 也行，深度分析需 10+ Gb
宏基因组（土壤/环境）	10-20+ Gb/样本	物种多样性更高，需要更多数据

宏基因组示例项目（肠道宏基因组）：使用 PE150 测序方案，每样本约 5-10 Gb 数据量。选择 PE 是因为宏基因组组装和比对都需要配对信息来提高准确性。

建库与测序的完整工作流速查¶

实验设计阶段
  ├─ 确定科学问题 → 选择测序类型（WGS/WES/RNA-seq/宏基因组/16S...）
  ├─ 确定样本数量 → 计算所需总数据量 → 选择测序平台和流动槽
  ├─ 确定 PE vs SE → 选择读长 → 计算测序深度
  └─ 设计 Index 方案（几个样本混一个 Lane）

样本处理阶段
  ├─ 核酸提取 → Qubit 定量 + 完整性检查
  ├─ RNA 样本额外：polyA 富集 / rRNA 去除
  └─ 宏基因组额外：bead-beating 裂解 + 抑制物去除

建库阶段
  ├─ 片段化（超声/酶切）
  ├─ 末端修复 + A-tailing
  ├─ 接头连接（含 Index）
  ├─ PCR 扩增（尽量少循环）/ PCR-free
  ├─ 纯化 + 大小选择（磁珠/凝胶）
  └─ 文库质检（Qubit + Bioanalyzer + qPCR）

上机测序阶段
  ├─ 等量混合（Equimolar Pooling）
  ├─ 变性 + 稀释至 loading 浓度
  ├─ 加载到 Flow Cell → 上机运行
  └─ 数据输出：BCL → bcl2fastq 拆分 → FASTQ 文件

面试怎么答¶

Q1: 请简述 NGS 建库的基本流程¶

建库的核心目的是把样本 DNA 加工成测序仪能识别的标准格式。标准流程是六步：第一步把长 DNA 打碎成 300-500bp 的片段，可以用超声波打断或转座酶酶切；第二步末端修复加 A 尾，把断口磨平并加上一个 A 碱基方便后续连接；第三步接头连接，在片段两端接上包含测序引物位点和 Index 标签的 Adapter；第四步 PCR 扩增，把文库分子复制多份增加总量；第五步磁珠纯化和大小选择，去掉接头二聚体等杂质；第六步质检，用 Qubit 测浓度、Bioanalyzer 看片段分布、qPCR 测有效文库浓度。整个过程最关键的是接头连接和质检两步。

Q2: RNA-seq 建库和 DNA 建库有什么区别？¶

主要有三个区别。第一，RNA-seq 建库之前需要先做 rRNA 去除或 polyA 富集——因为 rRNA 占了总 RNA 的 80-90%，不去掉的话测出来都是 rRNA 浪费测序资源。如果研究的是真核 mRNA，通常用 Oligo-dT 磁珠富集带 polyA 尾的 mRNA；如果是原核生物或者需要看非编码 RNA，就用 RiboZero 等试剂去除 rRNA。第二，RNA 需要逆转录成 cDNA 才能建库——现在主流用的是链特异性建库方法，在合成第二链时掺入 dUTP，后续消化掉第二链，这样可以保留转录方向信息。第三，RNA 是单链且容易降解，操作上比 DNA 建库更需要注意 RNase 污染防护和低温操作。

Q3: 什么是 Index / Barcode？为什么需要双 Index？¶

Index 也叫 Barcode，是建库时加在每个样本文库片段上的短序列标签，通常 8-10 个碱基长。目的是让多个样本可以混在一起上机测序，测完后根据 Index 序列把数据拆分回各自样本，这个过程叫 Demultiplexing。之所以需要双 Index，也就是 i7 加 i5 两端都加标签，主要是为了解决 Index 跳跃问题——在某些 Flow Cell 上（如 NovaSeq 使用的排列式 Flow Cell），游离的接头可能和错误的片段重组，导致样本被错误分配。双 Index 大幅降低了这种误分率，现在更推荐使用 UDI（每个 i7+i5 组合都唯一）来进一步消除这个问题。

Q4: 宏基因组建库有哪些特殊注意事项？¶

宏基因组建库比单物种基因组建库复杂，主要有四个注意点。第一是 DNA 提取要采用 bead-beating 物理裂解加化学裂解的联合方案，因为不同微生物细胞壁硬度差异很大，只用化学法容易漏掉革兰氏阳性菌和芽孢杆菌。第二是要注意宿主 DNA 污染，人粪便样本中人源 DNA 可占到 10%-90%，建库后需要用 Bowtie2 等工具比对去宿主。第三是 PCR 循环数要尽量少，因为宏基因组需要真实反映群落组成比例，PCR 偏差会扭曲物种丰度。该 T2D 项目用的 Illumina PE150 方案，每样本约 5-10 Gb 数据量，能够覆盖大部分肠道微生物。第四是用 Qubit 而不是 NanoDrop 定量，因为粪便提取的 DNA 中常含蛋白和盐类杂质，NanoDrop 容易高估浓度。

Q5: PE150 是什么意思？怎么计算需要多少测序数据量？¶

PE150 指 Paired-End 150bp，就是从 DNA 片段两端各读 150 个碱基。PE 相比 SE（单端）的优势是信息量更大——两端的序列加上它们之间的距离关系，可以提高比对准确性和结构变异检测能力。计算数据量的公式是：所需数据量等于目标深度乘以基因组大小。比如人类全基因组 WGS 要 30 倍覆盖，基因组 3Gb，就需要 90Gb 数据。换算成 reads 数就是 90Gb 除以（150bp 乘以 2），等于 3 亿对 reads。对于宏基因组，因为不是单一基因组，通常按总数据量来规划，人肠道菌群一般 5-10 Gb 每样本就够做物种分类和功能分析了。

速查表¶

建库方法速查¶

决策点	选项 A	选项 B	怎么选
DNA 打断方式	超声波（Covaris）	酶切（Tn5 转座酶）	DNA 量足 + 要求均匀 → 超声；DNA 量少 + 求快 → 酶切
RNA 处理方式	polyA 富集	rRNA 去除	真核 mRNA → polyA；原核/降解样本/需要 ncRNA → rRNA 去除
PCR 扩增	做 PCR	PCR-free	DNA 量 >100ng 且要求低偏差 → PCR-free；量少必须做 PCR
纯化方式	磁珠（AMPure XP）	凝胶回收	高通量/常规 → 磁珠；需要精准切割大小 → 凝胶
Index 方案	单 Index	双 Index（UDI）	现在一律推荐双 Index / UDI

测序方案速查¶

测序类型	推荐方案	读长	深度/数据量
人 WGS	PE150	150bp×2	30× (~90 Gb)
人 WES	PE150	150bp×2	100-200× (~6-12 Gb)
RNA-seq	PE150 或 PE75	75-150bp×2	20-30M reads
宏基因组	PE150	150bp×2	5-10 Gb/样本
16S 扩增子	PE300（MiSeq）	300bp×2	50K-100K reads
ChIP-seq	SE50 或 PE75	50-75bp	20-40M reads
ATAC-seq	PE75 或 PE150	75-150bp×2	50-100M reads

文库质检三件套¶

工具	测什么	白话比方
Qubit	dsDNA 总浓度	称体重
Bioanalyzer / TapeStation	片段大小分布	照 X 光看骨架
qPCR	有效文库分子浓度	体检量肌肉

关键数字速记¶

数字	含义
300-500 bp	WGS / 宏基因组建库常用片段大小
120-170 bp	接头二聚体的大小（质检时不应出现此峰）
0.8×	AMPure XP 磁珠最常用比例（回收 >300bp）
4-6 cycles	DNA 量充足时推荐的 PCR 循环数
80-90%	rRNA 在总 RNA 中的占比
0.1-2%	NovaSeq Flow Cell 上 Index 跳跃的发生率

延伸资源¶

Illumina Library Prep 官方指南：Illumina 官网提供各建库试剂盒的详细实验方案（Protocol）
→ 搜索 "Illumina Library Prep Protocols" 或访问 Illumina Support 页面
KAPA Library Quantification Kit 技术手册：qPCR 定量文库的标准方案
→ Roche / KAPA Biosystems 官网
Illumina Experiment Design 工具：在线计算测序深度和数据量需求
→ 搜索 "Illumina Sequencing Coverage Calculator"
Nature Protocols：Metagenomics library preparation：宏基因组建库的标准化方案
→ Quince et al. (2017) Nature Biotechnology "Shotgun metagenomics, from sampling to analysis"
视频推荐：iBiology "Next Generation Sequencing - Library Preparation" 系列
→ YouTube 搜索 "iBiology NGS library preparation"

最后更新：2026-05-03 | 编写说明：本文档专为面试准备编写，聚焦"建库方法 + 测序方案设计"，与第13篇（测序平台原理）互补。建库六步流程、RNA 特殊步骤、Index 混样、深度计算是面试高频考点。