测序技术原理（Sequencing Technology）¶

一句话说明¶

测序技术是把 DNA/RNA 的碱基序列"读"出来的方法，是所有基因组学和宏基因组学分析的数据源头——你项目里所有的 FASTQ 文件，都是测序仪产出来的。搞清楚测序原理，才能理解数据的优缺点，才知道后续分析该怎么做。

核心概念（白话版）¶

1. 测序是什么¶

定义：测序（Sequencing）就是确定一段 DNA 或 RNA 分子上碱基（A、T/U、G、C）的排列顺序的过程。
白话比方：把 DNA 想象成一本用 4 个字母（A、T、G、C）写的超长密码本，测序就是一个字一个字地把密码本的内容抄下来。
为什么需要测序：
想知道一个微生物是什么物种 → 需要读它的基因序列
想找疾病相关的基因突变 → 需要读病人的基因组
想分析肠道菌群组成 → 需要把粪便样本里所有微生物的 DNA 都读出来（这就是宏基因组测序）

2. 一代测序（Sanger 测序）¶

原理：
1977 年 Frederick Sanger 发明，也叫"链终止法"
白话解释：往 DNA 复制反应里掺入一种特殊的"终止碱基"（ddNTP，双脱氧核苷酸——简单说就是一种"坏零件"，装上去 DNA 链就没法继续延伸了），这种碱基一旦被掺进去，DNA 链就停止延伸了
因为终止碱基是随机掺入的，所以会产生各种长度的 DNA 片段
这些片段按长度排列，就能一个个读出碱基的顺序
现代 Sanger 测序用 4 种不同颜色的荧光标记 4 种终止碱基，通过毛细管电泳（Capillary Electrophoresis——利用电场让 DNA 片段按大小排队跑，小的跑快大的跑慢）把片段按长度分开，激光检测荧光颜色 → 自动读出序列
优缺点：
优点：准确率极高（>99.99%），是测序的"金标准"
缺点：一次只能读一条序列（约 600-1000bp），通量极低，成本高
不适合大规模测序任务（比如一个人类基因组有 30 亿个碱基）
现在还用吗：
还在用！主要用于：
- 验证 NGS 发现的突变（比如临床检测发现一个致病突变，用 Sanger 测序再确认一遍）
- 小片段的测序验证（比如质粒构建后验证插入片段是否正确）
- 16S rRNA 基因的全长测序（部分研究）

3. 二代测序（NGS / Illumina）¶

NGS = Next-Generation Sequencing（下一代测序），也叫"高通量测序"（High-Throughput Sequencing）。目前市场占有率最高的是 Illumina 公司的平台。

原理：边合成边测序（Sequencing by Synthesis, SBS）¶

白话解释：

每次往 DNA 链上加入一个带荧光标记的碱基
加完后用激光照射，相机拍照记录荧光颜色 → 知道加的是 A/T/G/C 中的哪个
去掉荧光标记，再加下一个碱基
重复这个过程几百个循环 → 就读出了几百个碱基的序列

白话比方：就像一台自动打字机，每打一个字就拍一张照片记录下来，打了 150 个字就有了一篇 150 个字的文章。不过这台打字机牛的地方是——它同时有几亿台在一起打字，所以一次能产出海量数据。

关键步骤（建库 + 测序）¶

原始 DNA
   ↓ ① 打断（Fragmentation）：把长 DNA 随机打碎成 200-500bp 的短片段
   ↓ ② 末端修复 + 加 A 尾（End Repair + A-tailing）：修整断口，为接头连接做准备
   ↓ ③ 接头连接（Adapter Ligation）：在片段两端接上特定序列（adapter），
   |    就像给每个片段贴上"身份标签"，让测序仪能识别
   ↓ ④ PCR 扩增（可选）：把文库分子复制多份，增加信号强度
   ↓ ⑤ 上机测序：文库加载到 Flow Cell 上
   ↓ ⑥ 桥式 PCR（Bridge Amplification）：
   |    片段在 Flow Cell 表面"搭桥"弯曲并扩增，
   |    每个片段形成一个 cluster（簇），一个簇就是同一条序列的上千份拷贝
   ↓ ⑦ SBS 测序：逐碱基加入荧光核苷酸，每轮拍照记录
   ↓ ⑧ 数据输出：BCL 格式 → 转换为 FASTQ 格式

优缺点¶

方面	说明
优点	通量极高（一次跑出几十 Gb 到几 Tb 数据）；单碱基成本很低；单碱基准确率 >99.9%；run 质量指标：Q30 碱基占比 > 85%
缺点	读长短（通常 PE150，即每端 150bp）；对 GC 含量极端区域有偏好性（GC bias）；需要 PCR 扩增会引入偏差

常见平台对比¶

平台	定位	单次数据量	读长	典型应用
MiSeq	小型/快速	最高 ~15 Gb	最长 2×300bp	16S 扩增子测序、小基因组、临床快检
NextSeq 2000	中型	最高 ~120 Gb（P3 flow cell）	2×150bp	转录组、外显子组、中等规模宏基因组
NovaSeq X	旗舰/大型	最高 ~16 Tb（双 25B flow cell）	2×150bp	大规模全基因组、大队列宏基因组

输出数据格式：FASTQ¶

FASTQ 文件是测序数据的标准格式，每条 read（一段测序读出的序列）占 4 行：

@DRR021375.1 1 length=100          ← 第1行：序列ID（@开头）
ATCGATCGATCGATCG...                ← 第2行：碱基序列（ATCG组成）
+                                   ← 第3行：分隔符（固定是+号）
IIIIIIIIIIIIIIIII...               ← 第4行：质量值（每个字符对应一个碱基的质量分数）

质量值用 ASCII 码表示，比如 I 对应 Q40（错误率 0.01%），5 对应 Q20（错误率 1%）。

4. 三代测序¶

三代测序的核心突破：能读很长的片段（几千到几百万碱基），而且不需要 PCR 扩增。

PacBio（SMRT 测序）¶

SMRT = Single Molecule, Real-Time（单分子实时测序）

原理：
白话解释：在一个极小的纳米孔洞（ZMW，Zero-Mode Waveguide，零模波导孔——你只需要知道它是一个极其微小的"观察孔"，小到只有一个聚合酶能在里面干活）底部固定一个 DNA 聚合酶（Polymerase，就是负责复制 DNA 的"工人"）
聚合酶一边合成 DNA，一边掺入带荧光的碱基
每掺入一个碱基就会闪一下特定颜色的荧光
底部的检测器实时记录荧光信号 → 直接读出序列
DNA 模板做成环形（SMRTbell——就是把 DNA 两端用接头连成环状，聚合酶可以绕圈反复读同一段 DNA），聚合酶可以绕环反复读，多次读取同一条序列取共识（consensus），大幅提高准确率
优缺点：
优点：
- 读长长（HiFi 模式典型平均读长 15-20 kb，最长约 25 kb）
- HiFi 模式准确率高（>99.9%，Q30+），已经接近 Illumina
- 能检测碱基修饰（如甲基化，不需要额外处理）
- 不需要 PCR，无扩增偏差
缺点：
- 通量相对 Illumina 低
- 设备和试剂成本高
- 对 DNA 样本质量要求高（需要高分子量 DNA）
适用场景：
基因组组装（assembly）：长读长能跨越重复区域
全长转录组（Iso-Seq）：直接读出完整 mRNA
表观遗传学：检测甲基化修饰
复杂基因组（高重复区域、多倍体植物基因组）

Oxford Nanopore（纳米孔测序）¶

原理：
白话解释：在一层膜上嵌入蛋白质纳米孔（直径约 1-2nm），膜两侧加电压产生电流
DNA/RNA 单链在马达蛋白（Motor Protein）的驱动下，一个碱基一个碱基地穿过纳米孔
不同的碱基经过纳米孔时会产生不同的电流变化（"电流波形"）
算法根据电流变化模式反推出碱基序列
简单比方：就像不同形状的珠子穿过一个小洞，每种珠子堵住洞的程度不同，导致水流变化不同——通过测量水流变化就能判断是哪种珠子
优缺点：
优点：
- 读长理论上无上限（记录最长超过 4 Mb）
- 设备便携（MinION 只有 U 盘大小，几千元即可入门）
- 实时出数据，适合现场快速检测（如疫情监测、野外生态调查）
- 能直接测 RNA（不需要反转录）
- 能检测碱基修饰（甲基化等）
缺点：
- 原始读取准确率较低（最新 R10.4.1 芯片 + 最新 basecaller 可达 ~99% 单读准确率，但仍低于 Illumina 和 PacBio HiFi）
- 系统性错误（尤其是 homopolymer 连续相同碱基区域，如 AAAAAAA）
- 通量取决于设备型号差异较大
适用场景：
现场/便携式测序（传染病暴发、食品安全检测）
超长读长基因组组装
实时病原体鉴定
直接 RNA 测序
宏基因组中长读长辅助组装

5. 三种测序技术对比¶

特性	Illumina（二代）	PacBio HiFi（三代）	Nanopore（三代）
读长	短（75-300 bp）	长（平均 15-20 kb）	超长（可达 Mb 级）
单读准确率	高（>99.9%，Q30+）	高（>99.9%，Q30+）	中高（~99%，持续改进中）
通量	极高（Tb 级）	中等（几十 Gb）	中（MinION ~10-50 Gb，PromethION ~100 Gb/flow cell，总通量可达 Tb 级）
单碱基成本	最低	中等	低-中等
设备成本	高（几十万-几百万）	高（几百万）	低入门（MinION ~$1000）
PCR 扩增	需要	不需要	不需要
碱基修饰检测	不能（需额外实验）	能（直接检测）	能（直接检测）
样本质量要求	中等	高（需高分子量 DNA）	中-高
运行时间	1-3 天	小时-天	实时输出，分钟级开始
主要弱点	读长短，GC 偏差	成本高，通量受限	准确率较低，homopolymer 错误
最适合	大规模短读长项目：宏基因组、转录组、变异检测	高质量基因组组装、全长转录组	现场快检、超长读长组装、实时监测

面试要点：不要死记数字，重点理解"各有所长，互补使用"。现在很多大项目会 Illumina + PacBio/Nanopore 联合使用——用长读长搭骨架，用短读长纠错和补细节。

6. 建库流程（Library Preparation）¶

什么是建库¶

建库（Library Preparation，简称 lib prep）就是把生物样本中的 DNA/RNA 处理成测序仪能识别的形式。白话说：测序仪不能直接读你的 DNA 原液，你得按照测序仪的规矩把 DNA "包装"好才行，这个包装过程就是建库。

建库的基本步骤¶

提取核酸：从样本（血液、粪便、土壤等）中把 DNA/RNA 抽出来
打断（Fragmentation）：把长 DNA 切成合适大小的片段
物理法：超声波打断（Covaris 仪器）
酶切法：转座酶切割（如 Illumina 的 Nextera 方法，快速但有偏好性）
末端修复 + 加 A 尾：把碎片的断口修整齐，在 3' 端加一个 A 碱基
接头连接（Adapter Ligation）：在片段两端连上接头序列
接头包含：测序引物结合位点（让测序反应能启动）+ index 序列（样本标签，用于多样本混合测序后的数据拆分）
PCR 扩增（可选）：把文库分子复制多份，增加上机量
质控：检查文库浓度、片段大小分布
上机测序

不同实验目的的建库差异¶

实验类型	DNA/RNA	特殊步骤	说明
全基因组测序（WGS）	DNA	无特殊步骤	直接打断建库，覆盖全基因组
转录组测序（RNA-Seq）	RNA→cDNA	mRNA 富集（polyA 选择）或 rRNA 去除	先提 RNA，反转录成 cDNA 再建库
宏基因组测序	DNA	注意不要引入人源 DNA 污染	提取样本中所有微生物的 DNA 混在一起建库
16S 扩增子	DNA	PCR 扩增 16S rRNA 基因的特定区域（V3-V4等）	只测一个标记基因，不是全基因组
ChIP-Seq	DNA	免疫沉淀富集特定蛋白结合的 DNA	研究蛋白-DNA 互作

7. 测序数据质量¶

Q20、Q30 是什么意思¶

Q 值（Quality Score，质量分数）是衡量每个碱基测序准确率的指标，用 Phred 公式计算：

Q = -10 × log₁₀(P)

其中 P 是该碱基测错的概率

不需要记公式，只需记住：Q 值每增加 10，错误率就降低 10 倍。

Q 值	错误率	准确率	白话说
Q10	10%（1/10）	90%	每 10 个碱基测错 1 个，质量很差
Q20	1%（1/100）	99%	每 100 个碱基测错 1 个，基本及格线
Q30	0.1%（1/1000）	99.9%	每 1000 个碱基测错 1 个，高质量
Q40	0.01%（1/10000）	99.99%	每 10000 个碱基测错 1 个，非常高质量

面试高频考点： - Illumina 测序一般要求 Q30 > 80-85% 才算合格 - 该项目里 fastp 清洗标准就是 --qualified_quality_phred 20，即低于 Q20 的碱基算不合格

测序深度（Coverage）和测序量的关系¶

测序深度（Coverage / Sequencing Depth）= 总测序碱基数 ÷ 基因组大小
比如：人类基因组 ~3 Gb，测了 90 Gb 数据 → 深度 = 90/3 = 30×
白话说：基因组上的每个位置平均被测了 30 次
为什么要有深度：
测序有随机性，不是所有区域都均匀覆盖
深度越高，覆盖越全面，变异检测越准确
一般全基因组测序需要 30× 以上，外显子组需要 100× 以上
宏基因组的特殊情况：
宏基因组样本里有很多物种，丰度差异巨大
高丰度物种可能有 100× 覆盖，低丰度物种可能只有 0.1×
所以宏基因组需要较大的总测序量（通常 5-10 Gb/样本以上）

GC 含量偏差（GC Bias）¶

什么是 GC bias：Illumina 测序在 PCR 扩增和桥式扩增过程中，对 GC 含量极高（>70%）或极低（<30%）的区域扩增效率低，导致这些区域的测序深度不足。原因是：GC 碱基对有 3 个氢键、AT 只有 2 个，GC 高的区域更紧，PCR 时不容易解开
影响：某些微生物物种（如高 GC 的放线菌 Actinobacteria）可能在宏基因组数据中被低估
怎么判断：FastQC 报告中的"Per sequence GC content"模块会显示 GC 分布——正常应该是单峰正态分布，如果出现多峰说明可能有 GC 偏差或污染

8. 宏基因组测序（重点！和该项目直接相关）¶

和普通基因组测序有什么区别¶

对比项	普通基因组测序	宏基因组测序
测序对象	单一物种的基因组	环境样本中所有微生物的基因组混合物
DNA 来源	单一生物体	可能包含几百到几千个物种的 DNA 混在一起
数据复杂度	低（一个参考基因组）	高（成百上千个基因组混在一起）
分析目标	组装一个完整基因组、找变异	物种组成是什么、功能有哪些、不同样本间的差异
数据量需求	相对固定（30× 覆盖）	需要很大数据量来覆盖低丰度物种
去宿主	通常不需要	必须做（如人粪便样本中可能有相当比例（10%-60% 甚至更高）是人源 DNA）

16S rRNA 测序 vs 鸟枪法宏基因组测序¶

这是面试超高频考点！

对比项	16S rRNA 测序	鸟枪法宏基因组测序（Shotgun Metagenomics）
测什么	只测 16S rRNA 基因（~1500bp）的一段（V3-V4 等可变区）	测样本中所有 DNA 的随机片段
原理	PCR 扩增特定基因 → 测序 → 比对数据库判断物种	直接打断总 DNA → 建库测序 → 比对数据库
分辨率	通常到属（genus）级别，种（species）级别不够准	可以到种甚至株（strain）级别
功能信息	没有（只知道"谁在那里"）	有（知道"谁在那里"+"它们能干什么"）
成本	低（每个样本几十-几百元）	高（每个样本几百-几千元）
数据量	小（几万-几十万条 reads/样本）	大（几百万-几千万条 reads/样本）
PCR 偏差	有（不同物种的 16S 基因扩增效率不同）	无/少（不依赖 PCR 扩增特定基因）
适合场景	快速了解群落组成、大样本量调查	深入研究群落功能、发现新基因、高分辨率分析

白话总结： - 16S 测序就像在人群中只看每个人的身份证号 → 知道有谁，但不知道他们会什么技能 - 鸟枪法宏基因组测序就像把所有人的简历都复印碎了读一遍 → 知道有谁，也知道他们会什么

该 T2D 项目用的是哪种¶

根据该项目情况：

测序方式：鸟枪法宏基因组测序（Shotgun Metagenomics）
测序平台：Illumina（双端测序，Paired-End）
数据格式：双端 FASTQ（R1 + R2），gzip 压缩
分析流程：
md5 校验数据完整性
FastQC + MultiQC 质量评估
fastp 质量控制（去接头、去低质量碱基、去短 reads）
Bowtie2 + samtools 去宿主（去除人源 DNA）
Kraken2 物种分类注释
多样性分析（Alpha + Beta diversity）
测序参数设置：
--qualified_quality_phred 20：Q20 为碱基质量阈值
--length_required 50：最短 read 长度 50bp
--detect_adapter_for_pe：自动检测双端接头

常用工具/命令¶

工具	用途	说明
`FastQC`	质量评估	生成 HTML 报告，查看每条 read 的质量分布、GC 含量、接头残留等
`MultiQC`	多样本汇总	把多个 FastQC 报告汇总成一个交互式网页
`fastp`	数据清洗	去接头、去低质量碱基、过滤短 reads，速度快，一步到位
`Trimmomatic`	数据清洗	老牌清洗工具，功能类似 fastp，但命令更复杂
`Bowtie2`	序列比对	短读长比对器，宏基因组中用于去宿主
`BWA`	序列比对	另一个主流比对工具，常用于全基因组重测序
`samtools`	BAM 处理	排序、过滤、索引 BAM 文件，配合比对工具使用
`Kraken2`	物种分类	基于 k-mer 的快速物种分类，宏基因组核心工具
`Bracken`	丰度估计	配合 Kraken2 使用，校正物种丰度
`seqkit`	FASTQ/FASTA 处理	统计序列数、长度、转换格式等瑞士军刀工具

实操代码/命令¶

查看 FASTQ 文件¶

# 查看压缩 FASTQ 文件的前 8 行（即前 2 条 reads）
# zcat：解压 .gz 文件并输出内容（不改变原文件）
# head -n 8：只看前 8 行
zcat project/data/raw_fastq/S01_R1.fastq.gz | head -n 8

# 输出示例（每条 read 占 4 行）：
# @DRR021375.1 1 length=100       ← 第1行：序列ID（@开头，包含 run 编号和 read 编号）
# ATCGATCGATCG...                  ← 第2行：碱基序列
# +                                 ← 第3行：分隔符
# IIIIIIIIIII...                   ← 第4行：质量值（ASCII码，I=Q40，非常高质量）

统计 FASTQ 文件中的 reads 数量¶

# 方法1：数行数除以4（因为每条 read 占 4 行）
# zcat 解压 | wc -l 数行数
zcat project/data/raw_fastq/S01_R1.fastq.gz | wc -l
# 结果除以4就是reads数

# 方法2：用 seqkit 直接统计（更准确，推荐）
seqkit stats project/data/raw_fastq/S01_R1.fastq.gz

FastQC 质控¶

# 对原始 FASTQ 数据运行质量评估
# --outdir：指定输出目录
# 会生成 .html（人看的报告）和 .zip（程序读的数据包）
fastqc \
  project/data/raw_fastq/S01_R1.fastq.gz \
  project/data/raw_fastq/S01_R2.fastq.gz \
  --outdir project/results/fastqc/

# 结果解读重点：
# 1. Per base sequence quality：每个位置的质量分布，绿色区域（>Q28）为好
# 2. Adapter Content：接头残留比例，应该接近 0%
# 3. Per sequence GC content：GC 分布应为单峰正态

fastp 数据清洗¶

# fastp 一步完成去接头 + 质量过滤 + 长度过滤
# --in1/--in2：双端输入文件（R1 和 R2）
# --out1/--out2：清洗后的输出文件
# --detect_adapter_for_pe：自动检测双端 adapter（不需要手动指定接头序列）
# --qualified_quality_phred 20：碱基质量低于 Q20（准确率 99%）标记为不合格
# --length_required 50：修剪后短于 50bp 的 read 整条丢弃
# --thread 4：使用 4 个线程加速
# --html/--json：生成可视化报告和可编程解析的 JSON 报告
fastp \
  --in1  project/data/raw_fastq/S01_R1.fastq.gz \
  --in2  project/data/raw_fastq/S01_R2.fastq.gz \
  --out1 project/results/clean_fastq/S01_R1_clean.fastq.gz \
  --out2 project/results/clean_fastq/S01_R2_clean.fastq.gz \
  --detect_adapter_for_pe \
  --qualified_quality_phred 20 \
  --length_required 50 \
  --thread 4 \
  --html  project/results/clean_fastq/S01_fastp_report.html \
  --json  project/results/clean_fastq/S01_fastp_report.json

# 判断清洗效果的三条标准：
# 1. Q30 > 90%（清洗后的数据高质量碱基占比要高）
# 2. Reads 损失 < 10%（不能丢太多数据）
# 3. 清洗后 FastQC 无新增 warning

MultiQC 汇总报告¶

# 把多个 FastQC 报告汇总成一个报告
# 指定 FastQC 结果目录，MultiQC 自动识别并汇总
multiqc project/results/fastqc/ \
  -o project/results/multiqc/

实际应用场景¶

T2D（2型糖尿病）肠道菌群宏基因组项目中：

测序平台：Illumina 二代测序，双端测序（Paired-End）
数据来源：从 ENA 数据库下载的公开数据（study: PRJDB2953，run: DRR021375）
数据格式：双端 FASTQ（S01_R1.fastq.gz + S01_R2.fastq.gz）
质控步骤：
md5 校验确认下载完整性（md5sum -c）
FastQC 评估原始数据质量 → 报告无严重问题
fastp 清洗（Q20 过滤 + 去接头 + 去短 reads）
清洗后再跑 FastQC 确认质量提升
后续流程：清洗后数据 → Bowtie2 去宿主 → Kraken2 物种分类 → 多样性分析
为什么选 Illumina + 鸟枪法：
需要同时知道物种组成和功能信息
Illumina 通量高、成本低，适合大样本量的宏基因组研究
大部分已发表的肠道菌群-T2D 研究都用的这个方案，结果有可比性

面试怎么答¶

Q1: 简单介绍一下二代测序的原理¶

二代测序主要是 Illumina 的边合成边测序技术。简单说就是：先把 DNA 打碎建库，加到 Flow Cell 上通过桥式 PCR 扩增形成 cluster，然后每个循环加入一种带荧光标记的碱基，加上去之后用激光照、相机拍照记录颜色，这样一个循环读一个碱基，重复 150 个循环就能读出 150bp 的序列。它的核心优势是通量极高，一次能产出几 Tb 的数据，单碱基成本很低。

Q2: 二代和三代测序有什么区别？¶

最大的区别是读长。二代测序（如 Illumina）读长短，一般 150bp，但通量极高、准确率高、成本低。三代测序（如 PacBio 和 Nanopore）读长很长，PacBio HiFi 能读到 10-25kb，Nanopore 理论上没有上限。另外三代测序不需要 PCR 扩增，可以直接检测碱基修饰。但三代测序通量相对低，成本更高。实际项目中经常两者结合——用长读长搭骨架做组装，用短读长纠错补深度。我们的宏基因组项目用的是 Illumina，因为宏基因组主要需要高通量来覆盖大量微生物物种，Illumina 最合适。

Q3: 什么是 Q30？你怎么评估测序数据质量？¶

Q30 是 Phred 质量分数，表示一个碱基被测错的概率是千分之一，也就是 99.9% 的准确率。计算公式是 Q = -10 × log₁₀(P)，P 是错误概率。评估数据质量我主要看几个指标：第一是 Q30 占比，一般要求 85% 以上；第二是用 FastQC 看每个位置的碱基质量分布，看 3' 端有没有明显掉质量；第三是看接头残留比例；第四是 GC 含量分布是否正常。我在项目里用 fastp 做清洗，设置 Q20 作为过滤阈值，清洗后再跑 FastQC 确认 Q30 提升到 90% 以上。

Q4: 16S 测序和宏基因组测序有什么区别？¶

16S 测序是用特异性引物 PCR 扩增细菌 16S rRNA 基因的可变区（通常是 V3-V4 区），然后测序，通过和数据库比对来鉴定物种。它的优点是成本低、操作简单，缺点是分辨率通常只到属级别，而且没有功能信息，只知道"有谁"不知道"能干什么"。鸟枪法宏基因组测序是直接把样本中所有 DNA 随机打碎测序，不需要 PCR 扩增特定基因，分辨率可以到种甚至株级别，而且因为测的是全部基因，可以做功能注释，知道代谢通路信息。该 T2D 项目用的是鸟枪法宏基因组，因为不仅要看菌群组成，还想分析和糖尿病相关的代谢功能。

Q5: 该项目中测序数据是怎么处理的？¶

该项目数据是从 ENA 数据库下载的 Illumina 双端宏基因组测序数据。拿到数据后先做 md5 校验确认下载完整。然后用 FastQC 评估原始数据质量，看碱基质量分布、接头残留、GC 含量这些指标。接着用 fastp 做数据清洗，设定 Q20 质量阈值、最短 50bp 长度过滤、自动去接头。清洗后再跑一次 FastQC 确认数据质量提升，Q30 要达到 90% 以上，reads 损失控制在 10% 以内。然后用 Bowtie2 比对人类参考基因组去除宿主 DNA，用 samtools 提取未比对的 reads 作为微生物 reads。最后用 Kraken2 做物种分类注释，生成分类报告和丰度表。整个流程用 Shell 脚本串起来，每一步都有日志记录和输出文件检查。

延伸阅读¶

Illumina 测序原理入门（官方中文）：Illumina 官方提供的 NGS for Beginners 教程，有动画演示 SBS 过程
→ https://www.illumina.com/science/technology/next-generation-sequencing/beginners.html
StatQuest 测序原理视频（YouTube，英文带字幕，讲解非常直观）：Josh Starmer 的 Illumina/PacBio/Nanopore 原理动画讲解系列
→ 搜索 "StatQuest Illumina sequencing" 或 "StatQuest RNA-seq"
《宏基因组学方法与应用》知乎专栏/微信公众号：中文社区总结的宏基因组分析教程和最新技术进展
→ 搜索"宏基因组"公众号或知乎专栏

最后更新：2026-05-02 | 编写说明：本文档专为面试准备编写，所有内容围绕宏基因组方向生信工程师岗位，命令参数与项目实际使用一致。