VSEARCH 工具指南¶

概述¶

VSEARCH 是一款高性能、开源免费的序列分析工具，旨在作为 USEARCH 的替代方案。它实现了大规模序列数据处理所需的几乎所有核心操作：嵌合体检测、聚类、去冗余、全局比对搜索、双端序列合并、格式转换与过滤等。VSEARCH 的设计从底层针对 64 位平台与大规模内存进行优化，同时利用 SIMD 向量化指令与多线程并行，在保证比对精度的同时提供极高的运行速度。

相比 USEARCH 默认使用的启发式 seed-and-extend 比对器，VSEARCH 默认采用完整的 Needleman-Wunsch 全局动态规划比对算法。这一设计使得 VSEARCH 在处理含有插入缺失（gaps）的序列时具有更高的灵敏度和准确性，尤其适用于需要精细比对的下游分析。

VSEARCH 完全开源，遵循适当的开源许可证，所有用户均可免费使用，无任何功能限制。它为 x86_64、ARMv8、POWER8、RISC-V 64 LE 及 MIPS64 LE 等多种处理器架构提供预编译二进制文件，覆盖 GNU/Linux、macOS 和 Windows 三大操作系统。此外，丰富的第三方插件与封装使得 VSEARCH 能轻松集成到 QIIME 2、mothur 等主流生物信息学流程中。

核心知识点¶

1. 核心功能全景¶

VSEARCH 支持的命令可大致分为以下几类，几乎涵盖了扩增子与宏基因组学中常用的所有序列操作：

预处理与质控 - 双端序列合并 (--fastq_mergepairs) - FASTQ/FASTA 格式转换与截断 (--fastq_filter, --fastx_truncate) - 序列质量过滤与长度过滤 - 条码（barcode）检测与拆分

去冗余与序列操作 - 全长与前缀去冗余 (--derep_fulllength, --derep_prefix) - 重新去冗余 (--rereplicate) - 反向互补 (--fastx_revcomp) - 序列掩码 (--maskfasta)

嵌合体检测 - 从头 (--uchime_denovo) 与有参考 (--uchime_ref) 嵌合体检测 - 基于 UCHIME 算法的实现，速度和精度俱佳

聚类与 OTU 生成 - 经典聚类：--cluster_fast、--cluster_size、--cluster_smallmem - 去噪后直接输出 ASV（与 UNOISE 类似）：--unoise3

搜索与比对 - 全局比对搜索 (--usearch_global) - 精确搜索（exact matching） - 所有序列对间的全局比对 (--allpairs_global)

抽样与排序 - 随机抽样 (--fastx_subsample) - 按长度或丰度排序 (--sortbylength， --sortbysize)

辅助功能 - 序列统计信息 (--stats) - FASTA/FASTQ 格式检查与修复

2. 核心优势：精度与速度的双重保障¶

VSEARCH 的速度和精度得益于两个关键技术选择：

SIMD 向量化（Single Instruction, Multiple Data）：VSEARCH 针对 x86_64 的 SSE2/SSSE3、POWER 的 AltiVec/VMX/VSX 以及 ARM 的 Neon 指令集编写了原生 SIMD 代码。对于其他小端架构（如 RISC-V 64、MIPS64 LE），则通过 SIMDe (SIMD Everywhere) 库实现兼容，虽然性能可能低于原生实现，但保证了广泛的可移植性。正是这种“向量化搜索”的理念赋予了 VSEARCH 其名称（Vectorized SEARCH）。
完整 Needleman-Wunsch 算法：与 USEARCH 默认使用启发式比对不同，VSEARCH 默认进行完整动态规划，确保找到数学意义上的最优全局比对。这一特性在处理多样性高、插入缺失较多的序列时，能够显著提高比对准确率，进而提升聚类和搜索的灵敏度（召回率）。虽然全局比对计算量更大，但借助 SIMD 和多线程，VSEARCH 仍然能达到甚至超越 USEARCH 的速度。

3. 算法与实现细节¶

排序与内存：VSEARCH 在处理大规模数据库时，会优先对序列进行排序和索引，以减小内存占用并提升缓存命中率。它支持远超 4 GB 地址空间的 64 位设计，理论上可处理十亿级序列。
聚类算法：--cluster_fast 以代表性序列为中心，按照长度降序处理序列，适合特大数据的快速聚类。--cluster_size 和 --cluster_smallmem 则在内存使用和时间效率之间提供不同的权衡，用户可根据硬件条件选择。
序列比对：搜索时优先使用精确匹配快速剔除完全相同的序列，随后对候选序列进行全局比对，通过向量化加速得分矩阵计算。

4. 平台与兼容性¶

下表总结了 VSEARCH 官方提供的预编译二进制文件所支持的操作系统与处理器架构组合：

CPU \ 操作系统	GNU/Linux	macOS	Windows
x86_64	✔	✔	✔
ARMv8 (aarch64)	✔	✔
POWER8 (ppc64le)	✔
RISC-V 64 LE	✔
MIPS 64 LE	(未充分测试)

GNU/Linux 二进制支持架构最全，涵盖 x86_64、POWER8、ARMv8、RISC-V 64 和 MIPS64 LE。
macOS 提供 Intel（x86_64）和 Apple Silicon（ARMv8）两种原生版本，要求 macOS 10.9 及以上。
Windows 仅提供 64 位 x86_64 版本，需要 Windows 7 或更高版本。

如果您的系统不在官方支持列表中，可以从源代码自行编译。VSEARCH 的源码兼容 gcc 4.8.5 – 14.0 以及 llvm-clang 3.8 – 19.0。编译时只需确保系统安装了 make 和合适的 C++ 编译器，并支持 POSIX 线程（pthreads）。

5. 生态系统与集成¶

VSEARCH 不仅仅是一个命令行工具，它还通过丰富的第三方封装融入了许多分析流程：

QIIME 2：通过 q2-vsearch 插件，用户可以在 QIIME 2 环境中直接调用 VSEARCH 进行去冗余、聚类和嵌合体检测。
mothur：mothur 的部分命令内部可能调用 VSEARCH 来提升性能。
Snakemake/Nextflow 工作流：常见扩增子分析流程（如 nf-core/ampliseq）常将 VSEARCH 作为核心步骤之一。
R/Bioconductor：有一些 R 包提供了对 VSEARCH 的封装，便于在 R 环境中操作。

代码实操¶

以下示例假设您已下载或编译了 VSEARCH 可执行文件，并将其添加到环境变量 PATH 中。示例数据使用常见的扩增子测序 FASTQ/FASTA 文件。

1. 双端序列合并¶

将 Illumina 双端测序数据合并为一条完整序列，同时进行基本质控。

# --fastq_mergepairs 合并双端序列
# --fastqout 指定合并后的 FASTQ 输出文件
# --fastq_allowmergestagger 允许重叠区错配，提升合并率
# --threads 4 使用4线程加速
vsearch \
  --fastq_mergepairs forward.fastq \
  --reverse reverse.fastq \
  --fastqout merged.fastq \
  --fastq_allowmergestagger \
  --threads 4

2. 质量过滤与长度筛选¶

对合并后的序列进行质量过滤，去除低质量序列和过短序列。

# --fastq_filter 过滤 FASTQ 文件
# --fastq_maxee 1.0  期望错误数 ≤ 1.0
# --fastq_trunclen 250 截断到250 bp，保持序列长度一致
# --fastq_minlen 200 丢弃长度小于200 bp的序列
# --fastaout 输出为 FASTA 格式
vsearch \
  --fastq_filter merged.fastq \
  --fastq_maxee 1.0 \
  --fastq_trunclen 250 \
  --fastq_minlen 200 \
  --fastaout filtered.fasta

3. 全长去冗余（Derelication）¶

将完全相同的序列合并为单一条目，同时记录丰度信息。

# --derep_fulllength 全长去冗余
# --sizeout 在FASTA头部追加 size= 信息，表示该序列的出现次数
# --relabel 重新标记序列名（例如 Uniq.1, Uniq.2 …）
# --output 去冗余后的 FASTA 文件
vsearch \
  --derep_fulllength filtered.fasta \
  --sizeout \
  --relabel Uniq \
  --output derep.fasta

4. 聚类生成 OTU（97% 相似度）¶

以 97% 的相似度阈值将序列聚类为操作分类单元（OTU），并生成 OTU 表。

# --cluster_fast 快速聚类
# --id 0.97 相似度阈值
# --centroids 输出代表性序列（OTU中心序列）
# --otutabout 输出 OTU 表（制表符分隔）
vsearch \
  --cluster_fast derep.fasta \
  --id 0.97 \
  --centroids otu_centers.fasta \
  --otutabout otu_table.txt

5. 嵌合体检测（从头预测）¶

基于丰度信息检测并去除嵌合体序列。

# --uchime_denovo 从头嵌合体检测
# --nonchimeras 输出非嵌合体序列
# --chimeras 输出嵌合体序列
vsearch \
  --uchime_denovo otu_centers.fasta \
  --nonchimeras otus_nochim.fasta \
  --chimeras chimeras.fasta

6. 有参考数据库搜索（全局比对）¶

将序列比对到参考数据库（如 SILVA、UNITE），获取分类信息。

# --usearch_global 全局比对搜索
# --db 参考数据库 FASTA
# --id 0.8 最小相似度
# --userout 自定义输出格式（查询名、目标名、相似度等）
# --userfields 指定输出字段
vsearch \
  --usearch_global query.fasta \
  --db reference.fasta \
  --id 0.8 \
  --userout hits.tsv \
  --userfields query+target+id+alnlen+mism+opens+qcov

常见问题¶

Q1: VSEARCH 与 USEARCH 的输出结果是否完全一致？¶

尽管 VSEARCH 在算法上追求高兼容性（例如实现了 UCHIME 算法、多种聚类模式），但由于默认比对器不同（全局动态规划 vs. 启发式），某些结果的细节可能会有轻微差异。通常 VSEARCH 的全局比对会提供更准确的对齐，因此可能导致聚类成员的微小变化。在要求与 USEARCH 完全一致的应用场景，可通过调整参数（如 --maxaccepts、--maxrejects）来逼近其行为，但更建议直接接受 VSEARCH 更准确的结果。

Q2: 处理大数据时内存不足怎么办？¶

VSEARCH 会尽可能在内存中完成所有计算，因此大数据集可能消耗大量内存。可以尝试以下策略：

使用 --cluster_smallmem 替代 --cluster_fast，该模式牺牲一部分速度以换取较低的内存占用。
将数据集拆分为多个子集，分别处理后合并结果。
增加物理内存或使用具有更多 RAM 的计算节点。VSEARCH 的 64 位设计允许它使用 TB 级内存（理论最大值仅受操作系统限制），因此硬件通常是唯一瓶颈。

Q3: 如何查看每个步骤的运行时间和资源消耗？¶

VSEARCH 默认会在终端输出详细的运行信息，包括耗时、内存峰值、处理的序列条数等。您也可以结合 time 命令获取更多系统资源统计：

/usr/bin/time -v vsearch --derep_fulllength ...

输出中的 “Elapsed (wall clock) time” 和 “Maximum resident set size” 即代表实际运行时间和最大物理内存占用。

Q4: 支持多线程的参数有哪些？如何合理设置？¶

大多数计算密集型命令都支持 --threads 参数，例如聚类、搜索、双端合并、重新去冗余等。线程数默认为 1，建议设置为物理 CPU 核心数。注意，设置过高可能因内存带宽饱和而不再提升性能。您可以使用 --log 参数将日志写入文件，方便监控。

Q5: 在 Apple Silicon (M1/M2/M3) Mac 上能否获得最佳性能？¶

可以。VSEARCH 提供了为 ARMv8 (aarch64) 编译的 macOS 二进制文件，其中包含针对 Apple Silicon 的 Neon SIMD 优化。直接下载官方 ARMv8 二进制即可充分利用 M 系列芯片的性能和能效，无需通过 Rosetta 2 转译运行 x86_64 版本。

Q6: 为什么我的序列没有正确去冗余？¶

请确认使用了正确的去冗余模式：--derep_fulllength 只合并完全相同的整条序列；而 --derep_prefix 会将较短序列作为较长序列的前缀进行合并（适用于一些特殊情况）。如果序列头信息有微小差异但序列本体相同，去冗余仍会生效，因为 VSEARCH 仅比较序列字符串本身。如果输出结果不符合预期，请检查输入序列中是否存在大写/小写差异，建议先用 --fastx_tolower 转换为小写。

速查表¶

常用命令参数速查¶

命令 / 参数	功能简述	示例用法
`--fastq_mergepairs`	合并双端序列	`--fastq_mergepairs R1.fq --reverse R2.fq --fastqout merged.fq`
`--fastq_filter`	质量过滤	`--fastq_filter input.fq --fastq_maxee 1.0 --fastaout clean.fa`
`--fastx_truncate`	截断序列到固定长度	`--fastx_truncate input.fa --trunclen 250 --output truncated.fa`
`--derep_fulllength`	全长去冗余	`--derep_fulllength seqs.fa --sizeout --output uniq.fa`
`--cluster_fast`	快速聚类（适合大文件）	`--cluster_fast uniq.fa --id 0.97 --centroids otu.fa`
`--cluster_size`	按丰度排序聚类	`--cluster_size uniq.fa --id 0.97 --uc clusters.uc`
`--unoise3`	降噪产生 ASV	`--unoise3 uniq.fa --zotus zotus.fa`
`--uchime_denovo`	从头嵌合体检测	`--uchime_denovo input.fa --nonchimeras good.fa`
`--uchime_ref`	有参考嵌合体检测	`--uchime_ref input.fa --db ref.fa --nonchimeras good.fa`
`--usearch_global`	全局比对搜索	`--usearch_global query.fa --db ref.fa --id 0.9 --alnout aln.txt`
`--maskfasta`	掩蔽硬编码区	`--maskfasta genome.fa --qmask soft --output masked.fa`
`--sortbysize`	按丰度（或长度）排序	`--sortbysize input.fa --output sorted.fa`
`--fastx_subsample`	随机抽样	`--fastx_subsample big.fa --sample_size 10000 --output sub.fa`
`--rereplicate`	恢复去冗余前的丰度	`--rereplicate uniq.fa --output replicated.fa`
`--allpairs_global`	所有序列两两全局比对	`--allpairs_global seqs.fa --acceptall --id 0.5`
`--fastx_revcomp`	反向互补	`--fastx_revcomp seqs.fq --label_suffix _rc --fastqout rc.fq`

输出选项速查¶

参数	说明
`--output` / `--centroids`	指定输出 FASTA/FASTQ 文件
`--fastaout` / `--fastqout`	输出 FASTA / FASTQ 格式
`--otutabout`	输出 QIIME 1 格式 OTU 表
`--biomout`	输出 BIOM 格式 OTU 表
`--uc`	输出 USEARCH 格式的聚类报告文件
`--userout`	自定义格式输出表格
`--alnout`	输出可读的比对文本
`--log`	将日志重定向到文件
`--threads`	设置并行线程数（常用值：4, 8, 16）

常用相似度阈值¶

应用场景	典型 `--id` 值
物种分类 (OTU)	0.97
属水平搜索	0.90 – 0.95
科/目水平粗分类	0.80 – 0.85
严格匹配 ASV	1.00 (结合其它去噪步骤)
排除假阳性	0.95 以上

通过本文，您应该已经对 VSEARCH 的核心概念、典型用法以及参数调优有了全面认识。在实际工作中，请善用 vsearch --help 查看所有可用命令，并通过 vsearch <command> --help 深入了解各个命令的详细选项。VSEARCH 凭借其开源、高性能和易集成的特性，必将成为您序列分析工具箱中值得信赖的一员。