测序技术原理(Sequencing Technology)¶
一句话说明¶
测序技术是把 DNA/RNA 的碱基序列"读"出来的方法,是所有基因组学和宏基因组学分析的数据源头——你项目里所有的 FASTQ 文件,都是测序仪产出来的。搞清楚测序原理,才能理解数据的优缺点,才知道后续分析该怎么做。
核心概念(白话版)¶
1. 测序是什么¶
- 定义:测序(Sequencing)就是确定一段 DNA 或 RNA 分子上碱基(A、T/U、G、C)的排列顺序的过程。
- 白话比方:把 DNA 想象成一本用 4 个字母(A、T、G、C)写的超长密码本,测序就是一个字一个字地把密码本的内容抄下来。
- 为什么需要测序:
- 想知道一个微生物是什么物种 → 需要读它的基因序列
- 想找疾病相关的基因突变 → 需要读病人的基因组
- 想分析肠道菌群组成 → 需要把粪便样本里所有微生物的 DNA 都读出来(这就是宏基因组测序)
2. 一代测序(Sanger 测序)¶
- 原理:
- 1977 年 Frederick Sanger 发明,也叫"链终止法"
- 白话解释:往 DNA 复制反应里掺入一种特殊的"终止碱基"(ddNTP,双脱氧核苷酸——简单说就是一种"坏零件",装上去 DNA 链就没法继续延伸了),这种碱基一旦被掺进去,DNA 链就停止延伸了
- 因为终止碱基是随机掺入的,所以会产生各种长度的 DNA 片段
- 这些片段按长度排列,就能一个个读出碱基的顺序
-
现代 Sanger 测序用 4 种不同颜色的荧光标记 4 种终止碱基,通过毛细管电泳(Capillary Electrophoresis——利用电场让 DNA 片段按大小排队跑,小的跑快大的跑慢)把片段按长度分开,激光检测荧光颜色 → 自动读出序列
-
优缺点:
- 优点:准确率极高(>99.99%),是测序的"金标准"
- 缺点:一次只能读一条序列(约 600-1000bp),通量极低,成本高
-
不适合大规模测序任务(比如一个人类基因组有 30 亿个碱基)
-
现在还用吗:
- 还在用!主要用于:
- 验证 NGS 发现的突变(比如临床检测发现一个致病突变,用 Sanger 测序再确认一遍)
- 小片段的测序验证(比如质粒构建后验证插入片段是否正确)
- 16S rRNA 基因的全长测序(部分研究)
3. 二代测序(NGS / Illumina)¶
NGS = Next-Generation Sequencing(下一代测序),也叫"高通量测序"(High-Throughput Sequencing)。目前市场占有率最高的是 Illumina 公司的平台。
原理:边合成边测序(Sequencing by Synthesis, SBS)¶
白话解释:
- 每次往 DNA 链上加入一个带荧光标记的碱基
- 加完后用激光照射,相机拍照记录荧光颜色 → 知道加的是 A/T/G/C 中的哪个
- 去掉荧光标记,再加下一个碱基
- 重复这个过程几百个循环 → 就读出了几百个碱基的序列
白话比方:就像一台自动打字机,每打一个字就拍一张照片记录下来,打了 150 个字就有了一篇 150 个字的文章。不过这台打字机牛的地方是——它同时有几亿台在一起打字,所以一次能产出海量数据。
关键步骤(建库 + 测序)¶
原始 DNA
↓ ① 打断(Fragmentation):把长 DNA 随机打碎成 200-500bp 的短片段
↓ ② 末端修复 + 加 A 尾(End Repair + A-tailing):修整断口,为接头连接做准备
↓ ③ 接头连接(Adapter Ligation):在片段两端接上特定序列(adapter),
| 就像给每个片段贴上"身份标签",让测序仪能识别
↓ ④ PCR 扩增(可选):把文库分子复制多份,增加信号强度
↓ ⑤ 上机测序:文库加载到 Flow Cell 上
↓ ⑥ 桥式 PCR(Bridge Amplification):
| 片段在 Flow Cell 表面"搭桥"弯曲并扩增,
| 每个片段形成一个 cluster(簇),一个簇就是同一条序列的上千份拷贝
↓ ⑦ SBS 测序:逐碱基加入荧光核苷酸,每轮拍照记录
↓ ⑧ 数据输出:BCL 格式 → 转换为 FASTQ 格式
优缺点¶
| 方面 | 说明 |
|---|---|
| 优点 | 通量极高(一次跑出几十 Gb 到几 Tb 数据);单碱基成本很低;准确率高(>99.9%,Q30>85%) |
| 缺点 | 读长短(通常 PE150,即每端 150bp);对 GC 含量极端区域有偏好性(GC bias);需要 PCR 扩增会引入偏差 |
常见平台对比¶
| 平台 | 定位 | 单次数据量 | 读长 | 典型应用 |
|---|---|---|---|---|
| MiSeq | 小型/快速 | 最高 ~15 Gb | 最长 2×300bp | 16S 扩增子测序、小基因组、临床快检 |
| NextSeq 2000 | 中型 | 最高 ~120 Gb(P3 flow cell) | 2×150bp | 转录组、外显子组、中等规模宏基因组 |
| NovaSeq X | 旗舰/大型 | 最高 ~16 Tb(双 25B flow cell) | 2×150bp | 大规模全基因组、大队列宏基因组 |
输出数据格式:FASTQ¶
FASTQ 文件是测序数据的标准格式,每条 read(一段测序读出的序列)占 4 行:
@DRR021375.1 1 length=100 ← 第1行:序列ID(@开头)
ATCGATCGATCGATCG... ← 第2行:碱基序列(ATCG组成)
+ ← 第3行:分隔符(固定是+号)
IIIIIIIIIIIIIIIII... ← 第4行:质量值(每个字符对应一个碱基的质量分数)
质量值用 ASCII 码表示,比如 I 对应 Q40(错误率 0.01%),5 对应 Q20(错误率 1%)。
4. 三代测序¶
三代测序的核心突破:能读很长的片段(几千到几百万碱基),而且不需要 PCR 扩增。
PacBio(SMRT 测序)¶
SMRT = Single Molecule, Real-Time(单分子实时测序)
- 原理:
- 白话解释:在一个极小的纳米孔洞(ZMW,Zero-Mode Waveguide,零模波导孔——你只需要知道它是一个极其微小的"观察孔",小到只有一个聚合酶能在里面干活)底部固定一个 DNA 聚合酶(Polymerase,就是负责复制 DNA 的"工人")
- 聚合酶一边合成 DNA,一边掺入带荧光的碱基
- 每掺入一个碱基就会闪一下特定颜色的荧光
- 底部的检测器实时记录荧光信号 → 直接读出序列
-
DNA 模板做成环形(SMRTbell——就是把 DNA 两端用接头连成环状,聚合酶可以绕圈反复读同一段 DNA),聚合酶可以绕环反复读,多次读取同一条序列取共识(consensus),大幅提高准确率
-
优缺点:
- 优点:
- 读长长(HiFi 模式平均 10-25 kb,最长可达 >100 kb)
- HiFi 模式准确率高(>99.9%,Q30+),已经接近 Illumina
- 能检测碱基修饰(如甲基化,不需要额外处理)
- 不需要 PCR,无扩增偏差
-
缺点:
- 通量相对 Illumina 低
- 设备和试剂成本高
- 对 DNA 样本质量要求高(需要高分子量 DNA)
-
适用场景:
- 基因组组装(assembly):长读长能跨越重复区域
- 全长转录组(Iso-Seq):直接读出完整 mRNA
- 表观遗传学:检测甲基化修饰
- 复杂基因组(高重复区域、多倍体植物基因组)
Oxford Nanopore(纳米孔测序)¶
- 原理:
- 白话解释:在一层膜上嵌入蛋白质纳米孔(直径约 1-2nm),膜两侧加电压产生电流
- DNA/RNA 单链在马达蛋白(Motor Protein)的驱动下,一个碱基一个碱基地穿过纳米孔
- 不同的碱基经过纳米孔时会产生不同的电流变化("电流波形")
- 算法根据电流变化模式反推出碱基序列
-
简单比方:就像不同形状的珠子穿过一个小洞,每种珠子堵住洞的程度不同,导致水流变化不同——通过测量水流变化就能判断是哪种珠子
-
优缺点:
- 优点:
- 读长理论上无上限(记录最长超过 4 Mb)
- 设备便携(MinION 只有 U 盘大小,几千元即可入门)
- 实时出数据,适合现场快速检测(如疫情监测、野外生态调查)
- 能直接测 RNA(不需要反转录)
- 能检测碱基修饰(甲基化等)
-
缺点:
- 原始读取准确率较低(最新 R10.4.1 芯片 + 最新 basecaller 可达 ~99% 单读准确率,但仍低于 Illumina 和 PacBio HiFi)
- 系统性错误(尤其是 homopolymer 连续相同碱基区域,如 AAAAAAA)
- 通量取决于设备型号差异较大
-
适用场景:
- 现场/便携式测序(传染病暴发、食品安全检测)
- 超长读长基因组组装
- 实时病原体鉴定
- 直接 RNA 测序
- 宏基因组中长读长辅助组装
5. 三种测序技术对比¶
| 特性 | Illumina(二代) | PacBio HiFi(三代) | Nanopore(三代) |
|---|---|---|---|
| 读长 | 短(75-300 bp) | 长(10-25 kb) | 超长(可达 Mb 级) |
| 单读准确率 | 高(>99.9%,Q30+) | 高(>99.9%,Q30+) | 中高(~99%,持续改进中) |
| 通量 | 极高(Tb 级) | 中等(几十 Gb) | 中(MinION ~10-50 Gb,PromethION ~100 Gb/flow cell,总通量可达 Tb 级) |
| 单碱基成本 | 最低 | 中等 | 低-中等 |
| 设备成本 | 高(几十万-几百万) | 高(几百万) | 低入门(MinION ~$1000) |
| PCR 扩增 | 需要 | 不需要 | 不需要 |
| 碱基修饰检测 | 不能(需额外实验) | 能(直接检测) | 能(直接检测) |
| 样本质量要求 | 中等 | 高(需高分子量 DNA) | 中-高 |
| 运行时间 | 1-3 天 | 小时-天 | 实时输出,分钟级开始 |
| 主要弱点 | 读长短,GC 偏差 | 成本高,通量受限 | 准确率较低,homopolymer 错误 |
| 最适合 | 大规模短读长项目:宏基因组、转录组、变异检测 | 高质量基因组组装、全长转录组 | 现场快检、超长读长组装、实时监测 |
面试要点:不要死记数字,重点理解"各有所长,互补使用"。现在很多大项目会 Illumina + PacBio/Nanopore 联合使用——用长读长搭骨架,用短读长纠错和补细节。
6. 建库流程(Library Preparation)¶
什么是建库¶
建库(Library Preparation,简称 lib prep)就是把生物样本中的 DNA/RNA 处理成测序仪能识别的形式。白话说:测序仪不能直接读你的 DNA 原液,你得按照测序仪的规矩把 DNA "包装"好才行,这个包装过程就是建库。
建库的基本步骤¶
- 提取核酸:从样本(血液、粪便、土壤等)中把 DNA/RNA 抽出来
- 打断(Fragmentation):把长 DNA 切成合适大小的片段
- 物理法:超声波打断(Covaris 仪器)
- 酶切法:转座酶切割(如 Illumina 的 Nextera 方法,快速但有偏好性)
- 末端修复 + 加 A 尾:把碎片的断口修整齐,在 3' 端加一个 A 碱基
- 接头连接(Adapter Ligation):在片段两端连上接头序列
- 接头包含:测序引物结合位点(让测序反应能启动)+ index 序列(样本标签,用于多样本混合测序后的数据拆分)
- PCR 扩增(可选):把文库分子复制多份,增加上机量
- 质控:检查文库浓度、片段大小分布
- 上机测序
不同实验目的的建库差异¶
| 实验类型 | DNA/RNA | 特殊步骤 | 说明 |
|---|---|---|---|
| 全基因组测序(WGS) | DNA | 无特殊步骤 | 直接打断建库,覆盖全基因组 |
| 转录组测序(RNA-Seq) | RNA→cDNA | mRNA 富集(polyA 选择)或 rRNA 去除 | 先提 RNA,反转录成 cDNA 再建库 |
| 宏基因组测序 | DNA | 注意不要引入人源 DNA 污染 | 提取样本中所有微生物的 DNA 混在一起建库 |
| 16S 扩增子 | DNA | PCR 扩增 16S rRNA 基因的特定区域(V3-V4等) | 只测一个标记基因,不是全基因组 |
| ChIP-Seq | DNA | 免疫沉淀富集特定蛋白结合的 DNA | 研究蛋白-DNA 互作 |
7. 测序数据质量¶
Q20、Q30 是什么意思¶
Q 值(Quality Score,质量分数)是衡量每个碱基测序准确率的指标,用 Phred 公式计算:
Q = -10 × log₁₀(P)
其中 P 是该碱基测错的概率
不需要记公式,只需记住:Q 值每增加 10,错误率就降低 10 倍。
| Q 值 | 错误率 | 准确率 | 白话说 |
|---|---|---|---|
| Q10 | 10%(1/10) | 90% | 每 10 个碱基测错 1 个,质量很差 |
| Q20 | 1%(1/100) | 99% | 每 100 个碱基测错 1 个,基本及格线 |
| Q30 | 0.1%(1/1000) | 99.9% | 每 1000 个碱基测错 1 个,高质量 |
| Q40 | 0.01%(1/10000) | 99.99% | 每 10000 个碱基测错 1 个,非常高质量 |
面试高频考点:
- Illumina 测序一般要求 Q30 > 80-85% 才算合格
- 你的项目里 fastp 清洗标准就是 --qualified_quality_phred 20,即低于 Q20 的碱基算不合格
测序深度(Coverage)和测序量的关系¶
- 测序深度(Coverage / Sequencing Depth)= 总测序碱基数 ÷ 基因组大小
- 比如:人类基因组 ~3 Gb,测了 90 Gb 数据 → 深度 = 90/3 = 30×
- 白话说:基因组上的每个位置平均被测了 30 次
- 为什么要有深度:
- 测序有随机性,不是所有区域都均匀覆盖
- 深度越高,覆盖越全面,变异检测越准确
- 一般全基因组测序需要 30× 以上,外显子组需要 100× 以上
- 宏基因组的特殊情况:
- 宏基因组样本里有很多物种,丰度差异巨大
- 高丰度物种可能有 100× 覆盖,低丰度物种可能只有 0.1×
- 所以宏基因组需要较大的总测序量(通常 5-10 Gb/样本以上)
GC 含量偏差(GC Bias)¶
- 什么是 GC bias:Illumina 测序在 PCR 扩增和桥式扩增过程中,对 GC 含量极高(>70%)或极低(<30%)的区域扩增效率低,导致这些区域的测序深度不足。原因是:GC 碱基对有 3 个氢键、AT 只有 2 个,GC 高的区域更紧,PCR 时不容易解开
- 影响:某些微生物物种(如高 GC 的放线菌 Actinobacteria)可能在宏基因组数据中被低估
- 怎么判断:FastQC 报告中的"Per sequence GC content"模块会显示 GC 分布——正常应该是单峰正态分布,如果出现多峰说明可能有 GC 偏差或污染
8. 宏基因组测序(重点!和你的项目直接相关)¶
和普通基因组测序有什么区别¶
| 对比项 | 普通基因组测序 | 宏基因组测序 |
|---|---|---|
| 测序对象 | 单一物种的基因组 | 环境样本中所有微生物的基因组混合物 |
| DNA 来源 | 单一生物体 | 可能包含几百到几千个物种的 DNA 混在一起 |
| 数据复杂度 | 低(一个参考基因组) | 高(成百上千个基因组混在一起) |
| 分析目标 | 组装一个完整基因组、找变异 | 物种组成是什么、功能有哪些、不同样本间的差异 |
| 数据量需求 | 相对固定(30× 覆盖) | 需要很大数据量来覆盖低丰度物种 |
| 去宿主 | 通常不需要 | 必须做(如人粪便样本中可能有相当比例(10%-60% 甚至更高)是人源 DNA) |
16S rRNA 测序 vs 鸟枪法宏基因组测序¶
这是面试超高频考点!
| 对比项 | 16S rRNA 测序 | 鸟枪法宏基因组测序(Shotgun Metagenomics) |
|---|---|---|
| 测什么 | 只测 16S rRNA 基因(~1500bp)的一段(V3-V4 等可变区) | 测样本中所有 DNA 的随机片段 |
| 原理 | PCR 扩增特定基因 → 测序 → 比对数据库判断物种 | 直接打断总 DNA → 建库测序 → 比对数据库 |
| 分辨率 | 通常到属(genus)级别,种(species)级别不够准 | 可以到种甚至株(strain)级别 |
| 功能信息 | 没有(只知道"谁在那里") | 有(知道"谁在那里"+"它们能干什么") |
| 成本 | 低(每个样本几十-几百元) | 高(每个样本几百-几千元) |
| 数据量 | 小(几万-几十万条 reads/样本) | 大(几百万-几千万条 reads/样本) |
| PCR 偏差 | 有(不同物种的 16S 基因扩增效率不同) | 无/少(不依赖 PCR 扩增特定基因) |
| 适合场景 | 快速了解群落组成、大样本量调查 | 深入研究群落功能、发现新基因、高分辨率分析 |
白话总结: - 16S 测序就像在人群中只看每个人的身份证号 → 知道有谁,但不知道他们会什么技能 - 鸟枪法宏基因组测序就像把所有人的简历都复印碎了读一遍 → 知道有谁,也知道他们会什么
你的 T2D 项目用的是哪种¶
根据你的项目情况:
- 测序方式:鸟枪法宏基因组测序(Shotgun Metagenomics)
- 测序平台:Illumina(双端测序,Paired-End)
- 数据格式:双端 FASTQ(R1 + R2),gzip 压缩
- 分析流程:
- md5 校验数据完整性
- FastQC + MultiQC 质量评估
- fastp 质量控制(去接头、去低质量碱基、去短 reads)
- Bowtie2 + samtools 去宿主(去除人源 DNA)
- Kraken2 物种分类注释
- 多样性分析(Alpha + Beta diversity)
- 测序参数设置:
--qualified_quality_phred 20:Q20 为碱基质量阈值--length_required 50:最短 read 长度 50bp--detect_adapter_for_pe:自动检测双端接头
常用工具/命令¶
| 工具 | 用途 | 说明 |
|---|---|---|
FastQC |
质量评估 | 生成 HTML 报告,查看每条 read 的质量分布、GC 含量、接头残留等 |
MultiQC |
多样本汇总 | 把多个 FastQC 报告汇总成一个交互式网页 |
fastp |
数据清洗 | 去接头、去低质量碱基、过滤短 reads,速度快,一步到位 |
Trimmomatic |
数据清洗 | 老牌清洗工具,功能类似 fastp,但命令更复杂 |
Bowtie2 |
序列比对 | 短读长比对器,宏基因组中用于去宿主 |
BWA |
序列比对 | 另一个主流比对工具,常用于全基因组重测序 |
samtools |
BAM 处理 | 排序、过滤、索引 BAM 文件,配合比对工具使用 |
Kraken2 |
物种分类 | 基于 k-mer 的快速物种分类,宏基因组核心工具 |
Bracken |
丰度估计 | 配合 Kraken2 使用,校正物种丰度 |
seqkit |
FASTQ/FASTA 处理 | 统计序列数、长度、转换格式等瑞士军刀工具 |
实操代码/命令¶
查看 FASTQ 文件¶
# 查看压缩 FASTQ 文件的前 8 行(即前 2 条 reads)
# zcat:解压 .gz 文件并输出内容(不改变原文件)
# head -n 8:只看前 8 行
zcat project/data/raw_fastq/S01_R1.fastq.gz | head -n 8
# 输出示例(每条 read 占 4 行):
# @DRR021375.1 1 length=100 ← 第1行:序列ID(@开头,包含 run 编号和 read 编号)
# ATCGATCGATCG... ← 第2行:碱基序列
# + ← 第3行:分隔符
# IIIIIIIIIII... ← 第4行:质量值(ASCII码,I=Q40,非常高质量)
统计 FASTQ 文件中的 reads 数量¶
# 方法1:数行数除以4(因为每条 read 占 4 行)
# zcat 解压 | wc -l 数行数
zcat project/data/raw_fastq/S01_R1.fastq.gz | wc -l
# 结果除以4就是reads数
# 方法2:用 seqkit 直接统计(更准确,推荐)
seqkit stats project/data/raw_fastq/S01_R1.fastq.gz
FastQC 质控¶
# 对原始 FASTQ 数据运行质量评估
# --outdir:指定输出目录
# 会生成 .html(人看的报告)和 .zip(程序读的数据包)
fastqc \
project/data/raw_fastq/S01_R1.fastq.gz \
project/data/raw_fastq/S01_R2.fastq.gz \
--outdir project/results/fastqc/
# 结果解读重点:
# 1. Per base sequence quality:每个位置的质量分布,绿色区域(>Q28)为好
# 2. Adapter Content:接头残留比例,应该接近 0%
# 3. Per sequence GC content:GC 分布应为单峰正态
fastp 数据清洗¶
# fastp 一步完成去接头 + 质量过滤 + 长度过滤
# --in1/--in2:双端输入文件(R1 和 R2)
# --out1/--out2:清洗后的输出文件
# --detect_adapter_for_pe:自动检测双端 adapter(不需要手动指定接头序列)
# --qualified_quality_phred 20:碱基质量低于 Q20(准确率 99%)标记为不合格
# --length_required 50:修剪后短于 50bp 的 read 整条丢弃
# --thread 4:使用 4 个线程加速
# --html/--json:生成可视化报告和可编程解析的 JSON 报告
fastp \
--in1 project/data/raw_fastq/S01_R1.fastq.gz \
--in2 project/data/raw_fastq/S01_R2.fastq.gz \
--out1 project/results/clean_fastq/S01_R1_clean.fastq.gz \
--out2 project/results/clean_fastq/S01_R2_clean.fastq.gz \
--detect_adapter_for_pe \
--qualified_quality_phred 20 \
--length_required 50 \
--thread 4 \
--html project/results/clean_fastq/S01_fastp_report.html \
--json project/results/clean_fastq/S01_fastp_report.json
# 判断清洗效果的三条标准:
# 1. Q30 > 90%(清洗后的数据高质量碱基占比要高)
# 2. Reads 损失 < 10%(不能丢太多数据)
# 3. 清洗后 FastQC 无新增 warning
MultiQC 汇总报告¶
# 把多个 FastQC 报告汇总成一个报告
# 指定 FastQC 结果目录,MultiQC 自动识别并汇总
multiqc project/results/fastqc/ \
-o project/results/multiqc/
和你项目的关联¶
你的 T2D(2型糖尿病)肠道菌群宏基因组项目中:
- 测序平台:Illumina 二代测序,双端测序(Paired-End)
- 数据来源:从 ENA 数据库下载的公开数据(study: PRJDB2953,run: DRR021375)
- 数据格式:双端 FASTQ(S01_R1.fastq.gz + S01_R2.fastq.gz)
- 质控步骤:
- md5 校验确认下载完整性(
md5sum -c) - FastQC 评估原始数据质量 → 报告无严重问题
- fastp 清洗(Q20 过滤 + 去接头 + 去短 reads)
- 清洗后再跑 FastQC 确认质量提升
- 后续流程:清洗后数据 → Bowtie2 去宿主 → Kraken2 物种分类 → 多样性分析
- 为什么选 Illumina + 鸟枪法:
- 需要同时知道物种组成和功能信息
- Illumina 通量高、成本低,适合大样本量的宏基因组研究
- 大部分已发表的肠道菌群-T2D 研究都用的这个方案,结果有可比性
面试怎么答¶
Q1: 简单介绍一下二代测序的原理¶
二代测序主要是 Illumina 的边合成边测序技术。简单说就是:先把 DNA 打碎建库,加到 Flow Cell 上通过桥式 PCR 扩增形成 cluster,然后每个循环加入一种带荧光标记的碱基,加上去之后用激光照、相机拍照记录颜色,这样一个循环读一个碱基,重复 150 个循环就能读出 150bp 的序列。它的核心优势是通量极高,一次能产出几 Tb 的数据,单碱基成本很低。
Q2: 二代和三代测序有什么区别?¶
最大的区别是读长。二代测序(如 Illumina)读长短,一般 150bp,但通量极高、准确率高、成本低。三代测序(如 PacBio 和 Nanopore)读长很长,PacBio HiFi 能读到 10-25kb,Nanopore 理论上没有上限。另外三代测序不需要 PCR 扩增,可以直接检测碱基修饰。但三代测序通量相对低,成本更高。实际项目中经常两者结合——用长读长搭骨架做组装,用短读长纠错补深度。我们的宏基因组项目用的是 Illumina,因为宏基因组主要需要高通量来覆盖大量微生物物种,Illumina 最合适。
Q3: 什么是 Q30?你怎么评估测序数据质量?¶
Q30 是 Phred 质量分数,表示一个碱基被测错的概率是千分之一,也就是 99.9% 的准确率。计算公式是 Q = -10 × log₁₀(P),P 是错误概率。评估数据质量我主要看几个指标:第一是 Q30 占比,一般要求 85% 以上;第二是用 FastQC 看每个位置的碱基质量分布,看 3' 端有没有明显掉质量;第三是看接头残留比例;第四是 GC 含量分布是否正常。我在项目里用 fastp 做清洗,设置 Q20 作为过滤阈值,清洗后再跑 FastQC 确认 Q30 提升到 90% 以上。
Q4: 16S 测序和宏基因组测序有什么区别?¶
16S 测序是用特异性引物 PCR 扩增细菌 16S rRNA 基因的可变区(通常是 V3-V4 区),然后测序,通过和数据库比对来鉴定物种。它的优点是成本低、操作简单,缺点是分辨率通常只到属级别,而且没有功能信息,只知道"有谁"不知道"能干什么"。鸟枪法宏基因组测序是直接把样本中所有 DNA 随机打碎测序,不需要 PCR 扩增特定基因,分辨率可以到种甚至株级别,而且因为测的是全部基因,可以做功能注释,知道代谢通路信息。我的 T2D 项目用的是鸟枪法宏基因组,因为不仅要看菌群组成,还想分析和糖尿病相关的代谢功能。
Q5: 你的项目中测序数据是怎么处理的?¶
我的项目数据是从 ENA 数据库下载的 Illumina 双端宏基因组测序数据。拿到数据后先做 md5 校验确认下载完整。然后用 FastQC 评估原始数据质量,看碱基质量分布、接头残留、GC 含量这些指标。接着用 fastp 做数据清洗,设定 Q20 质量阈值、最短 50bp 长度过滤、自动去接头。清洗后再跑一次 FastQC 确认数据质量提升,Q30 要达到 90% 以上,reads 损失控制在 10% 以内。然后用 Bowtie2 比对人类参考基因组去除宿主 DNA,用 samtools 提取未比对的 reads 作为微生物 reads。最后用 Kraken2 做物种分类注释,生成分类报告和丰度表。整个流程用 Shell 脚本串起来,每一步都有日志记录和输出文件检查。
延伸阅读¶
-
Illumina 测序原理入门(官方中文):Illumina 官方提供的 NGS for Beginners 教程,有动画演示 SBS 过程
→ https://www.illumina.com/science/technology/next-generation-sequencing/beginners.html -
StatQuest 测序原理视频(YouTube,英文带字幕,讲解非常直观):Josh Starmer 的 Illumina/PacBio/Nanopore 原理动画讲解系列
→ 搜索 "StatQuest Illumina sequencing" 或 "StatQuest RNA-seq" -
《宏基因组学方法与应用》知乎专栏/微信公众号:中文社区总结的宏基因组分析教程和最新技术进展
→ 搜索"宏基因组"公众号或知乎专栏
最后更新:2026-05-02 | 编写说明:本文档专为彭文强面试准备编写,所有内容围绕宏基因组方向生信工程师岗位,命令参数与项目实际使用一致。