STAR¶

一句话概述：BWA-MEM2适合DNA短读长变异检测，Bowtie2适合ChIP-seq等短读长场景，HISAT2和STAR是RNA-seq剪接比对的两大主力，minimap2则是长读长的首选——选对工具比调参数重要10倍。

核心知识点速查表¶

概念	说明
BWA-MEM2	DNA短读长比对金标准（白话：把DNA片段放回参考基因组的正确位置）
Bowtie2	轻量级短读长比对（ChIP-seq、小基因组常用）
HISAT2	RNA-seq剪接感知比对（速度最快，内存小）
STAR	RNA-seq剪接感知比对（准确度高，内存大）
minimap2	长读长通用比对（PacBio/ONT首选）
剪接感知	能识别内含子跨越的比对方式（RNA-seq必须）

一、五大工具全面对比¶

1.1 适用场景对比¶

特性	BWA-MEM2	Bowtie2	HISAT2	STAR	minimap2
最佳场景	WGS/WES	ChIP-seq/小基因组	RNA-seq	RNA-seq	长读长
数据类型	DNA短读长	DNA短读长	RNA短读长	RNA短读长	长/短读长
剪接感知	否	否	是	是	可选
速度	快	中等	非常快	快	非常快
内存需求	~8GB	~4GB	~8GB	~30GB	~8GB
准确度	非常高	高	高	高	高
长读长支持	有限	有限	否	否	优秀

1.2 2025年基准测试结论¶

# 2025年5月bioRxiv预印本：比对工具可重复性评估
# - Bowtie2/HISAT2/minimap2: 100%完美可重复性
# - BWA-MEM2: 可重复性99%（极少数SV检测差异）
# - 结论：对大多数项目，选择合适类型的比对工具即可

# Strobealign（新工具）：
# - 150bp+读长：比minimap2快5-10倍，比BWA-MEM快4-6倍
# - 准确度与BWA-MEM相当
# - 但目前生态还不如BWA成熟

二、安装与建索引¶

# === 安装（conda推荐） ===
conda install -c bioconda bwa-mem2        # BWA-MEM2
conda install -c bioconda bowtie2         # Bowtie2
conda install -c bioconda hisat2          # HISAT2
conda install -c bioconda star            # STAR
conda install -c bioconda minimap2        # minimap2

# === 建索引 ===
# BWA-MEM2（DNA比对）
bwa-mem2 index ref.fa                     # 约5分钟（人类基因组）

# Bowtie2（DNA比对）
bowtie2-build ref.fa ref_index            # 约10分钟

# HISAT2（RNA-seq比对）
hisat2-build ref.fa ref_index             # 约20分钟
# 如果有已知剪接位点（推荐）：
hisat2_extract_splice_sites.py genes.gtf > splicesites.txt   # 提取剪接位点
hisat2_extract_exons.py genes.gtf > exons.txt                # 提取外显子
hisat2-build --ss splicesites.txt --exon exons.txt ref.fa ref_index  # 含注释的索引

# STAR（RNA-seq比对，需要大内存）
STAR --runMode genomeGenerate \
  --genomeDir star_index/ \               # 索引输出目录
  --genomeFastaFiles ref.fa \             # 参考基因组
  --sjdbGTFfile genes.gtf \               # 基因注释（推荐）
  --sjdbOverhang 149 \                    # 读长-1（150bp读长用149）
  --runThreadN 8                           # 线程数
# ★ STAR索引需要 ~30GB 内存！

# minimap2（长读长不需要预建索引，但可以预建加速）
minimap2 -d ref.mmi ref.fa                # 预建索引（可选）

三、比对实操¶

3.1 DNA比对（WGS/WES）¶

# === BWA-MEM2（DNA比对首选） ===
bwa-mem2 mem \
  -t 8 \                                  # 8个线程
  -R "@RG\tID:sample1\tSM:sample1\tPL:ILLUMINA" \  # 读组信息（GATK必需）
  ref.fa \                                # 参考基因组
  sample_R1.fq.gz sample_R2.fq.gz \      # 双端测序文件
  | samtools sort -@ 4 -o aligned.bam     # 排序并输出BAM

samtools index aligned.bam                 # 建BAM索引

# === Bowtie2（ChIP-seq/小基因组） ===
bowtie2 \
  -x ref_index \                          # 索引前缀
  -1 sample_R1.fq.gz \                   # 正向读段
  -2 sample_R2.fq.gz \                   # 反向读段
  --very-sensitive \                       # 高灵敏度模式
  -p 8 \                                  # 8个线程
  | samtools sort -@ 4 -o aligned.bam     # 排序输出

3.2 RNA-seq比对¶

# === HISAT2（RNA-seq，速度优先） ===
hisat2 \
  -x ref_index \                          # HISAT2索引
  -1 sample_R1.fq.gz \                   # 正向读段
  -2 sample_R2.fq.gz \                   # 反向读段
  --known-splicesite-infile splicesites.txt \  # 已知剪接位点
  --dta \                                  # 为StringTie下游分析优化
  -p 8 \                                  # 8个线程
  | samtools sort -@ 4 -o aligned.bam

# === STAR（RNA-seq，准确度优先） ===
STAR \
  --genomeDir star_index/ \               # 索引目录
  --readFilesIn R1.fq.gz R2.fq.gz \     # 输入文件
  --readFilesCommand zcat \               # 解压gz文件
  --outSAMtype BAM SortedByCoordinate \   # 输出排序BAM
  --quantMode GeneCounts \                 # 同时做基因计数
  --sjdbGTFfile genes.gtf \               # 基因注释
  --runThreadN 8 \                         # 线程数
  --outFileNamePrefix sample_             # 输出前缀
# 输出: sample_Aligned.sortedByCoord.out.bam
# 输出: sample_ReadsPerGene.out.tab（基因计数）

3.3 长读长比对¶

# === minimap2（PacBio HiFi） ===
minimap2 -ax map-hifi \                   # HiFi读长预设
  -t 8 \                                  # 线程数
  ref.fa \                                # 参考基因组
  hifi_reads.fq.gz \                     # HiFi读长
  | samtools sort -@ 4 -o aligned.bam

# === minimap2（ONT长读长） ===
minimap2 -ax map-ont \                    # ONT读长预设
  -t 8 ref.fa ont_reads.fq.gz \
  | samtools sort -@ 4 -o aligned.bam

# === minimap2（Illumina短读长） ===
minimap2 -ax sr \                         # 短读长预设
  -t 8 ref.fa R1.fq.gz R2.fq.gz \
  | samtools sort -@ 4 -o aligned.bam

四、比对质量评估¶

# === 通用评估（所有工具通用） ===
# 比对统计
samtools flagstat aligned.bam             # 比对率、配对率等
samtools stats aligned.bam | grep ^SN     # 详细统计

# 覆盖度统计
samtools depth aligned.bam | awk '{sum+=$3; n++} END {print "平均深度:", sum/n}'

# 关键指标判读：
# 比对率 >95%: 好 | 90-95%: 可接受 | <90%: 检查数据/参考基因组
# 配对比对率 >90%: 好
# 重复率 <30%: 好（PCR重复）

五、面试高频考点¶

Q1: DNA比对和RNA-seq比对有什么区别？¶

DNA比对是连续比对（读段完整匹配到基因组）
RNA-seq比对是剪接比对（读段可能跨越内含子，需要gap-aware）
白话：DNA像拼拼图直接放回去，RNA像拼跨了几个空洞的桥

Q2: 为什么STAR需要那么多内存？¶

STAR使用后缀数组（Suffix Array）建索引，人类基因组索引约30GB
HISAT2使用层次化FM索引，内存只需8GB
白话：STAR把整本字典都搬进内存查询（快但占地方），HISAT2用了压缩目录（省空间但多几步）

Q3: 什么时候用minimap2替代BWA？¶

长读长数据（PacBio/ONT）→ 必须用minimap2
Illumina 150bp+ → minimap2比BWA快3倍，准确度相当
变异检测（GATK） → 仍推荐BWA-MEM2（生态最成熟）
快速初筛 → minimap2（速度优势明显）

Q4: 选工具的决策树？¶

数据类型是什么？
├── DNA短读长 → BWA-MEM2（WGS/WES）或 Bowtie2（ChIP-seq）
├── RNA短读长 → STAR（准确度优先）或 HISAT2（内存有限）
├── 长读长 → minimap2
└── 不确定 → 先用minimap2试试（最通用）

六、常见报错¶

报错	原因	解决
`STAR: EXITING: FATAL INPUT ERROR`	内存不足	增加内存或用HISAT2
`bowtie2: Could not locate index`	索引路径错误	检查-x参数的路径
`bwa-mem2: fail to open file`	索引未建立	先运行bwa-mem2 index
`minimap2: failed to parse`	输入格式错误	检查是否fasta/fastq
比对率很低(<50%)	参考基因组不匹配	确认物种/版本是否正确

速查表¶

# === 比对工具速查 ===
# DNA: bwa-mem2 mem -t 8 ref.fa R1.fq.gz R2.fq.gz | samtools sort -o out.bam
# RNA: STAR --genomeDir idx/ --readFilesIn R1.fq.gz R2.fq.gz --readFilesCommand zcat --outSAMtype BAM SortedByCoordinate
# RNA(轻量): hisat2 -x idx -1 R1.fq.gz -2 R2.fq.gz --dta | samtools sort -o out.bam
# 长读长: minimap2 -ax map-hifi ref.fa reads.fq | samtools sort -o out.bam
# ChIP: bowtie2 -x idx -1 R1.fq.gz -2 R2.fq.gz --very-sensitive | samtools sort -o out.bam

# 评估: samtools flagstat out.bam
# 金标准: DNA用BWA-MEM2 | RNA用STAR | 长读长用minimap2

比对工具对比：BWA/Bowtie2/HISAT2/STAR¶

核心知识点速查表¶

一、五大工具全面对比¶

1.1 适用场景对比¶

1.2 2025年基准测试结论¶

二、安装与建索引¶

三、比对实操¶

3.1 DNA比对（WGS/WES）¶

3.2 RNA-seq比对¶

3.3 长读长比对¶

四、比对质量评估¶

五、面试高频考点¶

Q1: DNA比对和RNA-seq比对有什么区别？¶

Q2: 为什么STAR需要那么多内存？¶

Q3: 什么时候用minimap2替代BWA？¶

Q4: 选工具的决策树？¶

六、常见报错¶

速查表¶

📚 相关文章推荐