跳转至

测序技术原理(Sequencing Technology)


一句话说明

测序技术是把 DNA/RNA 的碱基序列"读"出来的方法,是所有基因组学和宏基因组学分析的数据源头——你项目里所有的 FASTQ 文件,都是测序仪产出来的。搞清楚测序原理,才能理解数据的优缺点,才知道后续分析该怎么做。


核心概念(白话版)

1. 测序是什么

  • 定义:测序(Sequencing)就是确定一段 DNA 或 RNA 分子上碱基(A、T/U、G、C)的排列顺序的过程。
  • 白话比方:把 DNA 想象成一本用 4 个字母(A、T、G、C)写的超长密码本,测序就是一个字一个字地把密码本的内容抄下来。
  • 为什么需要测序
  • 想知道一个微生物是什么物种 → 需要读它的基因序列
  • 想找疾病相关的基因突变 → 需要读病人的基因组
  • 想分析肠道菌群组成 → 需要把粪便样本里所有微生物的 DNA 都读出来(这就是宏基因组测序)

2. 一代测序(Sanger 测序)

  • 原理
  • 1977 年 Frederick Sanger 发明,也叫"链终止法"
  • 白话解释:往 DNA 复制反应里掺入一种特殊的"终止碱基"(ddNTP,双脱氧核苷酸——简单说就是一种"坏零件",装上去 DNA 链就没法继续延伸了),这种碱基一旦被掺进去,DNA 链就停止延伸了
  • 因为终止碱基是随机掺入的,所以会产生各种长度的 DNA 片段
  • 这些片段按长度排列,就能一个个读出碱基的顺序
  • 现代 Sanger 测序用 4 种不同颜色的荧光标记 4 种终止碱基,通过毛细管电泳(Capillary Electrophoresis——利用电场让 DNA 片段按大小排队跑,小的跑快大的跑慢)把片段按长度分开,激光检测荧光颜色 → 自动读出序列

  • 优缺点

  • 优点:准确率极高(>99.99%),是测序的"金标准"
  • 缺点:一次只能读一条序列(约 600-1000bp),通量极低,成本高
  • 不适合大规模测序任务(比如一个人类基因组有 30 亿个碱基)

  • 现在还用吗

  • 还在用!主要用于:
    • 验证 NGS 发现的突变(比如临床检测发现一个致病突变,用 Sanger 测序再确认一遍)
    • 小片段的测序验证(比如质粒构建后验证插入片段是否正确)
    • 16S rRNA 基因的全长测序(部分研究)

3. 二代测序(NGS / Illumina)

NGS = Next-Generation Sequencing(下一代测序),也叫"高通量测序"(High-Throughput Sequencing)。目前市场占有率最高的是 Illumina 公司的平台。

原理:边合成边测序(Sequencing by Synthesis, SBS)

白话解释:

  1. 每次往 DNA 链上加入一个带荧光标记的碱基
  2. 加完后用激光照射,相机拍照记录荧光颜色 → 知道加的是 A/T/G/C 中的哪个
  3. 去掉荧光标记,再加下一个碱基
  4. 重复这个过程几百个循环 → 就读出了几百个碱基的序列

白话比方:就像一台自动打字机,每打一个字就拍一张照片记录下来,打了 150 个字就有了一篇 150 个字的文章。不过这台打字机牛的地方是——它同时有几亿台在一起打字,所以一次能产出海量数据。

关键步骤(建库 + 测序)

原始 DNA
   ↓ ① 打断(Fragmentation):把长 DNA 随机打碎成 200-500bp 的短片段
   ↓ ② 末端修复 + 加 A 尾(End Repair + A-tailing):修整断口,为接头连接做准备
   ↓ ③ 接头连接(Adapter Ligation):在片段两端接上特定序列(adapter),
   |    就像给每个片段贴上"身份标签",让测序仪能识别
   ↓ ④ PCR 扩增(可选):把文库分子复制多份,增加信号强度
   ↓ ⑤ 上机测序:文库加载到 Flow Cell 上
   ↓ ⑥ 桥式 PCR(Bridge Amplification):
   |    片段在 Flow Cell 表面"搭桥"弯曲并扩增,
   |    每个片段形成一个 cluster(簇),一个簇就是同一条序列的上千份拷贝
   ↓ ⑦ SBS 测序:逐碱基加入荧光核苷酸,每轮拍照记录
   ↓ ⑧ 数据输出:BCL 格式 → 转换为 FASTQ 格式

优缺点

方面说明
优点通量极高(一次跑出几十 Gb 到几 Tb 数据);单碱基成本很低;单碱基准确率 >99.9%;run 质量指标:Q30 碱基占比 > 85%
缺点读长短(通常 PE150,即每端 150bp);对 GC 含量极端区域有偏好性(GC bias);需要 PCR 扩增会引入偏差

常见平台对比

平台定位单次数据量读长典型应用
MiSeq小型/快速最高 ~15 Gb最长 2×300bp16S 扩增子测序、小基因组、临床快检
NextSeq 2000中型最高 ~120 Gb(P3 flow cell)2×150bp转录组、外显子组、中等规模宏基因组
NovaSeq X旗舰/大型最高 ~16 Tb(双 25B flow cell)2×150bp大规模全基因组、大队列宏基因组

输出数据格式:FASTQ

FASTQ 文件是测序数据的标准格式,每条 read(一段测序读出的序列)占 4 行:

@DRR021375.1 1 length=100          ← 第1行:序列ID(@开头)
ATCGATCGATCGATCG...                ← 第2行:碱基序列(ATCG组成)
+                                   ← 第3行:分隔符(固定是+号)
IIIIIIIIIIIIIIIII...               ← 第4行:质量值(每个字符对应一个碱基的质量分数)

质量值用 ASCII 码表示,比如 I 对应 Q40(错误率 0.01%),5 对应 Q20(错误率 1%)。


4. 三代测序

三代测序的核心突破:能读很长的片段(几千到几百万碱基),而且不需要 PCR 扩增

PacBio(SMRT 测序)

SMRT = Single Molecule, Real-Time(单分子实时测序)

  • 原理
  • 白话解释:在一个极小的纳米孔洞(ZMW,Zero-Mode Waveguide,零模波导孔——你只需要知道它是一个极其微小的"观察孔",小到只有一个聚合酶能在里面干活)底部固定一个 DNA 聚合酶(Polymerase,就是负责复制 DNA 的"工人")
  • 聚合酶一边合成 DNA,一边掺入带荧光的碱基
  • 每掺入一个碱基就会闪一下特定颜色的荧光
  • 底部的检测器实时记录荧光信号 → 直接读出序列
  • DNA 模板做成环形(SMRTbell——就是把 DNA 两端用接头连成环状,聚合酶可以绕圈反复读同一段 DNA),聚合酶可以绕环反复读,多次读取同一条序列取共识(consensus),大幅提高准确率

  • 优缺点

  • 优点:
    • 读长长(HiFi 模式典型平均读长 15-20 kb,最长约 25 kb)
    • HiFi 模式准确率高(>99.9%,Q30+),已经接近 Illumina
    • 能检测碱基修饰(如甲基化,不需要额外处理)
    • 不需要 PCR,无扩增偏差
  • 缺点:

    • 通量相对 Illumina 低
    • 设备和试剂成本高
    • 对 DNA 样本质量要求高(需要高分子量 DNA)
  • 适用场景

  • 基因组组装(assembly):长读长能跨越重复区域
  • 全长转录组(Iso-Seq):直接读出完整 mRNA
  • 表观遗传学:检测甲基化修饰
  • 复杂基因组(高重复区域、多倍体植物基因组)

Oxford Nanopore(纳米孔测序)

  • 原理
  • 白话解释:在一层膜上嵌入蛋白质纳米孔(直径约 1-2nm),膜两侧加电压产生电流
  • DNA/RNA 单链在马达蛋白(Motor Protein)的驱动下,一个碱基一个碱基地穿过纳米孔
  • 不同的碱基经过纳米孔时会产生不同的电流变化("电流波形")
  • 算法根据电流变化模式反推出碱基序列
  • 简单比方:就像不同形状的珠子穿过一个小洞,每种珠子堵住洞的程度不同,导致水流变化不同——通过测量水流变化就能判断是哪种珠子

  • 优缺点

  • 优点:
    • 读长理论上无上限(记录最长超过 4 Mb)
    • 设备便携(MinION 只有 U 盘大小,几千元即可入门)
    • 实时出数据,适合现场快速检测(如疫情监测、野外生态调查)
    • 能直接测 RNA(不需要反转录)
    • 能检测碱基修饰(甲基化等)
  • 缺点:

    • 原始读取准确率较低(最新 R10.4.1 芯片 + 最新 basecaller 可达 ~99% 单读准确率,但仍低于 Illumina 和 PacBio HiFi)
    • 系统性错误(尤其是 homopolymer 连续相同碱基区域,如 AAAAAAA)
    • 通量取决于设备型号差异较大
  • 适用场景

  • 现场/便携式测序(传染病暴发、食品安全检测)
  • 超长读长基因组组装
  • 实时病原体鉴定
  • 直接 RNA 测序
  • 宏基因组中长读长辅助组装

5. 三种测序技术对比

特性Illumina(二代)PacBio HiFi(三代)Nanopore(三代)
读长短(75-300 bp)长(平均 15-20 kb)超长(可达 Mb 级)
单读准确率高(>99.9%,Q30+)高(>99.9%,Q30+)中高(~99%,持续改进中)
通量极高(Tb 级)中等(几十 Gb)中(MinION ~10-50 Gb,PromethION ~100 Gb/flow cell,总通量可达 Tb 级)
单碱基成本最低中等低-中等
设备成本高(几十万-几百万)高(几百万)低入门(MinION ~$1000)
PCR 扩增需要不需要不需要
碱基修饰检测不能(需额外实验)能(直接检测)能(直接检测)
样本质量要求中等高(需高分子量 DNA)中-高
运行时间1-3 天小时-天实时输出,分钟级开始
主要弱点读长短,GC 偏差成本高,通量受限准确率较低,homopolymer 错误
最适合大规模短读长项目:宏基因组、转录组、变异检测高质量基因组组装、全长转录组现场快检、超长读长组装、实时监测

面试要点:不要死记数字,重点理解"各有所长,互补使用"。现在很多大项目会 Illumina + PacBio/Nanopore 联合使用——用长读长搭骨架,用短读长纠错和补细节。


6. 建库流程(Library Preparation)

什么是建库

建库(Library Preparation,简称 lib prep)就是把生物样本中的 DNA/RNA 处理成测序仪能识别的形式。白话说:测序仪不能直接读你的 DNA 原液,你得按照测序仪的规矩把 DNA "包装"好才行,这个包装过程就是建库。

建库的基本步骤

  1. 提取核酸:从样本(血液、粪便、土壤等)中把 DNA/RNA 抽出来
  2. 打断(Fragmentation):把长 DNA 切成合适大小的片段
  3. 物理法:超声波打断(Covaris 仪器)
  4. 酶切法:转座酶切割(如 Illumina 的 Nextera 方法,快速但有偏好性)
  5. 末端修复 + 加 A 尾:把碎片的断口修整齐,在 3' 端加一个 A 碱基
  6. 接头连接(Adapter Ligation):在片段两端连上接头序列
  7. 接头包含:测序引物结合位点(让测序反应能启动)+ index 序列(样本标签,用于多样本混合测序后的数据拆分)
  8. PCR 扩增(可选):把文库分子复制多份,增加上机量
  9. 质控:检查文库浓度、片段大小分布
  10. 上机测序

不同实验目的的建库差异

实验类型DNA/RNA特殊步骤说明
全基因组测序(WGS)DNA无特殊步骤直接打断建库,覆盖全基因组
转录组测序(RNA-Seq)RNA→cDNAmRNA 富集(polyA 选择)或 rRNA 去除先提 RNA,反转录成 cDNA 再建库
宏基因组测序DNA注意不要引入人源 DNA 污染提取样本中所有微生物的 DNA 混在一起建库
16S 扩增子DNAPCR 扩增 16S rRNA 基因的特定区域(V3-V4等)只测一个标记基因,不是全基因组
ChIP-SeqDNA免疫沉淀富集特定蛋白结合的 DNA研究蛋白-DNA 互作

7. 测序数据质量

Q20、Q30 是什么意思

Q 值(Quality Score,质量分数)是衡量每个碱基测序准确率的指标,用 Phred 公式计算:

Q = -10 × log₁₀(P)

其中 P 是该碱基测错的概率

不需要记公式,只需记住:Q 值每增加 10,错误率就降低 10 倍。

Q 值错误率准确率白话说
Q1010%(1/10)90%每 10 个碱基测错 1 个,质量很差
Q201%(1/100)99%每 100 个碱基测错 1 个,基本及格线
Q300.1%(1/1000)99.9%每 1000 个碱基测错 1 个,高质量
Q400.01%(1/10000)99.99%每 10000 个碱基测错 1 个,非常高质量

面试高频考点: - Illumina 测序一般要求 Q30 > 80-85% 才算合格 - 该项目里 fastp 清洗标准就是 --qualified_quality_phred 20,即低于 Q20 的碱基算不合格

测序深度(Coverage)和测序量的关系

  • 测序深度(Coverage / Sequencing Depth)= 总测序碱基数 ÷ 基因组大小
  • 比如:人类基因组 ~3 Gb,测了 90 Gb 数据 → 深度 = 90/3 = 30×
  • 白话说:基因组上的每个位置平均被测了 30 次
  • 为什么要有深度
  • 测序有随机性,不是所有区域都均匀覆盖
  • 深度越高,覆盖越全面,变异检测越准确
  • 一般全基因组测序需要 30× 以上,外显子组需要 100× 以上
  • 宏基因组的特殊情况
  • 宏基因组样本里有很多物种,丰度差异巨大
  • 高丰度物种可能有 100× 覆盖,低丰度物种可能只有 0.1×
  • 所以宏基因组需要较大的总测序量(通常 5-10 Gb/样本以上)

GC 含量偏差(GC Bias)

  • 什么是 GC bias:Illumina 测序在 PCR 扩增和桥式扩增过程中,对 GC 含量极高(>70%)或极低(<30%)的区域扩增效率低,导致这些区域的测序深度不足。原因是:GC 碱基对有 3 个氢键、AT 只有 2 个,GC 高的区域更紧,PCR 时不容易解开
  • 影响:某些微生物物种(如高 GC 的放线菌 Actinobacteria)可能在宏基因组数据中被低估
  • 怎么判断:FastQC 报告中的"Per sequence GC content"模块会显示 GC 分布——正常应该是单峰正态分布,如果出现多峰说明可能有 GC 偏差或污染

8. 宏基因组测序(重点!和该项目直接相关)

和普通基因组测序有什么区别

对比项普通基因组测序宏基因组测序
测序对象单一物种的基因组环境样本中所有微生物的基因组混合物
DNA 来源单一生物体可能包含几百到几千个物种的 DNA 混在一起
数据复杂度低(一个参考基因组)高(成百上千个基因组混在一起)
分析目标组装一个完整基因组、找变异物种组成是什么、功能有哪些、不同样本间的差异
数据量需求相对固定(30× 覆盖)需要很大数据量来覆盖低丰度物种
去宿主通常不需要必须做(如人粪便样本中可能有相当比例(10%-60% 甚至更高)是人源 DNA)

16S rRNA 测序 vs 鸟枪法宏基因组测序

这是面试超高频考点

对比项16S rRNA 测序鸟枪法宏基因组测序(Shotgun Metagenomics)
测什么只测 16S rRNA 基因(~1500bp)的一段(V3-V4 等可变区)测样本中所有 DNA 的随机片段
原理PCR 扩增特定基因 → 测序 → 比对数据库判断物种直接打断总 DNA → 建库测序 → 比对数据库
分辨率通常到属(genus)级别,种(species)级别不够准可以到种甚至株(strain)级别
功能信息没有(只知道"谁在那里")(知道"谁在那里"+"它们能干什么")
成本低(每个样本几十-几百元)高(每个样本几百-几千元)
数据量小(几万-几十万条 reads/样本)大(几百万-几千万条 reads/样本)
PCR 偏差有(不同物种的 16S 基因扩增效率不同)无/少(不依赖 PCR 扩增特定基因)
适合场景快速了解群落组成、大样本量调查深入研究群落功能、发现新基因、高分辨率分析

白话总结: - 16S 测序就像在人群中只看每个人的身份证号 → 知道有谁,但不知道他们会什么技能 - 鸟枪法宏基因组测序就像把所有人的简历都复印碎了读一遍 → 知道有谁,也知道他们会什么

该 T2D 项目用的是哪种

根据该项目情况:

  • 测序方式:鸟枪法宏基因组测序(Shotgun Metagenomics)
  • 测序平台:Illumina(双端测序,Paired-End)
  • 数据格式:双端 FASTQ(R1 + R2),gzip 压缩
  • 分析流程
  • md5 校验数据完整性
  • FastQC + MultiQC 质量评估
  • fastp 质量控制(去接头、去低质量碱基、去短 reads)
  • Bowtie2 + samtools 去宿主(去除人源 DNA)
  • Kraken2 物种分类注释
  • 多样性分析(Alpha + Beta diversity)
  • 测序参数设置
  • --qualified_quality_phred 20:Q20 为碱基质量阈值
  • --length_required 50:最短 read 长度 50bp
  • --detect_adapter_for_pe:自动检测双端接头

常用工具/命令

工具用途说明
FastQC质量评估生成 HTML 报告,查看每条 read 的质量分布、GC 含量、接头残留等
MultiQC多样本汇总把多个 FastQC 报告汇总成一个交互式网页
fastp数据清洗去接头、去低质量碱基、过滤短 reads,速度快,一步到位
Trimmomatic数据清洗老牌清洗工具,功能类似 fastp,但命令更复杂
Bowtie2序列比对短读长比对器,宏基因组中用于去宿主
BWA序列比对另一个主流比对工具,常用于全基因组重测序
samtoolsBAM 处理排序、过滤、索引 BAM 文件,配合比对工具使用
Kraken2物种分类基于 k-mer 的快速物种分类,宏基因组核心工具
Bracken丰度估计配合 Kraken2 使用,校正物种丰度
seqkitFASTQ/FASTA 处理统计序列数、长度、转换格式等瑞士军刀工具

实操代码/命令

查看 FASTQ 文件

# 查看压缩 FASTQ 文件的前 8 行(即前 2 条 reads)
# zcat:解压 .gz 文件并输出内容(不改变原文件)
# head -n 8:只看前 8 行
zcat project/data/raw_fastq/S01_R1.fastq.gz | head -n 8

# 输出示例(每条 read 占 4 行):
# @DRR021375.1 1 length=100       ← 第1行:序列ID(@开头,包含 run 编号和 read 编号)
# ATCGATCGATCG...                  ← 第2行:碱基序列
# +                                 ← 第3行:分隔符
# IIIIIIIIIII...                   ← 第4行:质量值(ASCII码,I=Q40,非常高质量)

统计 FASTQ 文件中的 reads 数量

# 方法1:数行数除以4(因为每条 read 占 4 行)
# zcat 解压 | wc -l 数行数
zcat project/data/raw_fastq/S01_R1.fastq.gz | wc -l
# 结果除以4就是reads数

# 方法2:用 seqkit 直接统计(更准确,推荐)
seqkit stats project/data/raw_fastq/S01_R1.fastq.gz

FastQC 质控

# 对原始 FASTQ 数据运行质量评估
# --outdir:指定输出目录
# 会生成 .html(人看的报告)和 .zip(程序读的数据包)
fastqc \
  project/data/raw_fastq/S01_R1.fastq.gz \
  project/data/raw_fastq/S01_R2.fastq.gz \
  --outdir project/results/fastqc/

# 结果解读重点:
# 1. Per base sequence quality:每个位置的质量分布,绿色区域(>Q28)为好
# 2. Adapter Content:接头残留比例,应该接近 0%
# 3. Per sequence GC content:GC 分布应为单峰正态

fastp 数据清洗

# fastp 一步完成去接头 + 质量过滤 + 长度过滤
# --in1/--in2:双端输入文件(R1 和 R2)
# --out1/--out2:清洗后的输出文件
# --detect_adapter_for_pe:自动检测双端 adapter(不需要手动指定接头序列)
# --qualified_quality_phred 20:碱基质量低于 Q20(准确率 99%)标记为不合格
# --length_required 50:修剪后短于 50bp 的 read 整条丢弃
# --thread 4:使用 4 个线程加速
# --html/--json:生成可视化报告和可编程解析的 JSON 报告
fastp \
  --in1  project/data/raw_fastq/S01_R1.fastq.gz \
  --in2  project/data/raw_fastq/S01_R2.fastq.gz \
  --out1 project/results/clean_fastq/S01_R1_clean.fastq.gz \
  --out2 project/results/clean_fastq/S01_R2_clean.fastq.gz \
  --detect_adapter_for_pe \
  --qualified_quality_phred 20 \
  --length_required 50 \
  --thread 4 \
  --html  project/results/clean_fastq/S01_fastp_report.html \
  --json  project/results/clean_fastq/S01_fastp_report.json

# 判断清洗效果的三条标准:
# 1. Q30 > 90%(清洗后的数据高质量碱基占比要高)
# 2. Reads 损失 < 10%(不能丢太多数据)
# 3. 清洗后 FastQC 无新增 warning

MultiQC 汇总报告

# 把多个 FastQC 报告汇总成一个报告
# 指定 FastQC 结果目录,MultiQC 自动识别并汇总
multiqc project/results/fastqc/ \
  -o project/results/multiqc/

实际应用场景

T2D(2型糖尿病)肠道菌群宏基因组项目中:

  1. 测序平台:Illumina 二代测序,双端测序(Paired-End)
  2. 数据来源:从 ENA 数据库下载的公开数据(study: PRJDB2953,run: DRR021375)
  3. 数据格式:双端 FASTQ(S01_R1.fastq.gz + S01_R2.fastq.gz)
  4. 质控步骤
  5. md5 校验确认下载完整性(md5sum -c
  6. FastQC 评估原始数据质量 → 报告无严重问题
  7. fastp 清洗(Q20 过滤 + 去接头 + 去短 reads)
  8. 清洗后再跑 FastQC 确认质量提升
  9. 后续流程:清洗后数据 → Bowtie2 去宿主 → Kraken2 物种分类 → 多样性分析
  10. 为什么选 Illumina + 鸟枪法
  11. 需要同时知道物种组成和功能信息
  12. Illumina 通量高、成本低,适合大样本量的宏基因组研究
  13. 大部分已发表的肠道菌群-T2D 研究都用的这个方案,结果有可比性

面试怎么答

Q1: 简单介绍一下二代测序的原理

二代测序主要是 Illumina 的边合成边测序技术。简单说就是:先把 DNA 打碎建库,加到 Flow Cell 上通过桥式 PCR 扩增形成 cluster,然后每个循环加入一种带荧光标记的碱基,加上去之后用激光照、相机拍照记录颜色,这样一个循环读一个碱基,重复 150 个循环就能读出 150bp 的序列。它的核心优势是通量极高,一次能产出几 Tb 的数据,单碱基成本很低。

Q2: 二代和三代测序有什么区别?

最大的区别是读长。二代测序(如 Illumina)读长短,一般 150bp,但通量极高、准确率高、成本低。三代测序(如 PacBio 和 Nanopore)读长很长,PacBio HiFi 能读到 10-25kb,Nanopore 理论上没有上限。另外三代测序不需要 PCR 扩增,可以直接检测碱基修饰。但三代测序通量相对低,成本更高。实际项目中经常两者结合——用长读长搭骨架做组装,用短读长纠错补深度。我们的宏基因组项目用的是 Illumina,因为宏基因组主要需要高通量来覆盖大量微生物物种,Illumina 最合适。

Q3: 什么是 Q30?你怎么评估测序数据质量?

Q30 是 Phred 质量分数,表示一个碱基被测错的概率是千分之一,也就是 99.9% 的准确率。计算公式是 Q = -10 × log₁₀(P),P 是错误概率。评估数据质量我主要看几个指标:第一是 Q30 占比,一般要求 85% 以上;第二是用 FastQC 看每个位置的碱基质量分布,看 3' 端有没有明显掉质量;第三是看接头残留比例;第四是 GC 含量分布是否正常。我在项目里用 fastp 做清洗,设置 Q20 作为过滤阈值,清洗后再跑 FastQC 确认 Q30 提升到 90% 以上。

Q4: 16S 测序和宏基因组测序有什么区别?

16S 测序是用特异性引物 PCR 扩增细菌 16S rRNA 基因的可变区(通常是 V3-V4 区),然后测序,通过和数据库比对来鉴定物种。它的优点是成本低、操作简单,缺点是分辨率通常只到属级别,而且没有功能信息,只知道"有谁"不知道"能干什么"。鸟枪法宏基因组测序是直接把样本中所有 DNA 随机打碎测序,不需要 PCR 扩增特定基因,分辨率可以到种甚至株级别,而且因为测的是全部基因,可以做功能注释,知道代谢通路信息。该 T2D 项目用的是鸟枪法宏基因组,因为不仅要看菌群组成,还想分析和糖尿病相关的代谢功能。

Q5: 该项目中测序数据是怎么处理的?

该项目数据是从 ENA 数据库下载的 Illumina 双端宏基因组测序数据。拿到数据后先做 md5 校验确认下载完整。然后用 FastQC 评估原始数据质量,看碱基质量分布、接头残留、GC 含量这些指标。接着用 fastp 做数据清洗,设定 Q20 质量阈值、最短 50bp 长度过滤、自动去接头。清洗后再跑一次 FastQC 确认数据质量提升,Q30 要达到 90% 以上,reads 损失控制在 10% 以内。然后用 Bowtie2 比对人类参考基因组去除宿主 DNA,用 samtools 提取未比对的 reads 作为微生物 reads。最后用 Kraken2 做物种分类注释,生成分类报告和丰度表。整个流程用 Shell 脚本串起来,每一步都有日志记录和输出文件检查。


延伸阅读

  1. Illumina 测序原理入门(官方中文):Illumina 官方提供的 NGS for Beginners 教程,有动画演示 SBS 过程
    → https://www.illumina.com/science/technology/next-generation-sequencing/beginners.html

  2. StatQuest 测序原理视频(YouTube,英文带字幕,讲解非常直观):Josh Starmer 的 Illumina/PacBio/Nanopore 原理动画讲解系列
    → 搜索 "StatQuest Illumina sequencing" 或 "StatQuest RNA-seq"

  3. 《宏基因组学方法与应用》知乎专栏/微信公众号:中文社区总结的宏基因组分析教程和最新技术进展
    → 搜索"宏基因组"公众号或知乎专栏


最后更新:2026-05-02 | 编写说明:本文档专为面试准备编写,所有内容围绕宏基因组方向生信工程师岗位,命令参数与项目实际使用一致。