跳转至

CUT&RUN 数据分析


一句话说明

CUT&RUN 是 CUT&Tag 的"前辈"——同样用抗体定位目标蛋白,但用 MNase 酶切割 DNA,把目标片段"释放"到溶液中再测序,比 ChIP-seq 更干净。


核心知识点

要点1:CUT&RUN 技术原理

  • CUT&RUN = Cleavage Under Targets and Release Using Nuclease
  • 核心思路:在细胞核内,用抗体定位目标蛋白 → pA-MNase(蛋白A-微球菌核酸酶)结合抗体 → Ca²⁺ 激活 MNase 切割 → 小片段 DNA 扩散到溶液中 → 回收测序
  • 白话类比:CUT&RUN 像"定点爆破"——先标记要拆的墙(抗体),再精准炸掉(MNase 切割),碎片自己飞出来回收

要点2:CUT&RUN vs CUT&Tag

特征CUT&RUNCUT&Tag
核酸酶pA-MNasepA-Tn5
激活离子Ca²⁺Mg²⁺
文库构建切割后单独建库切割同时加接头(tagmentation)
片段大小~150bp(核小体单位)较碎,分布更广
操作复杂度中等(需单独建库)简单(一步到位)
转录因子适用性较好一般

要点3:数据分析关键步骤

  1. 质控 + 去接头(与 ChIP-seq 类似)
  2. 比对(Bowtie2,参数与 CUT&Tag 类似)
  3. 去重 + 过滤(去 blacklist 区域)
  4. Peak calling(SEACR 或 MACS2)
  5. 差异分析(DiffBind)
  6. 可视化(deepTools / IGV)

要点4:Spike-in 标准化

  • CUT&RUN 推荐加入 spike-in(如大肠杆菌 DNA),用于样本间定量标准化
  • 原理:每个样本加入等量的外源 DNA,通过外源 DNA 的 reads 数计算标准化因子
  • 白话:就像做蛋糕时加一勺标准糖,通过这勺糖的甜度判断每个蛋糕的体量

实战代码

# ===== CUT&RUN 数据分析流程 =====

# 1. 质控
fastqc -t 8 -o qc_results/ sample_R1.fastq.gz sample_R2.fastq.gz

# 2. 去接头(Illumina 通用接头)
trim_galore --paired -o trimmed/ \
    sample_R1.fastq.gz sample_R2.fastq.gz

# 3. 比对到人类参考基因组
bowtie2 --very-sensitive --no-mixed --no-discordant \
    --maxins 700 -x hg38_index \
    -1 trimmed/sample_R1_val_1.fq.gz \
    -2 trimmed/sample_R2_val_2.fq.gz \
    -S sample_hg38.sam -p 8

# 4. 同时比对到 spike-in 基因组(大肠杆菌)
bowtie2 --very-sensitive --no-overlap --no-dovetail \
    --maxins 700 -x ecoli_index \
    -1 trimmed/sample_R1_val_1.fq.gz \
    -2 trimmed/sample_R2_val_2.fq.gz \
    -S sample_ecoli.sam -p 8

# 5. 计算 spike-in 标准化因子
# 统计比对到大肠杆菌的 reads 数
ecoli_reads=$(samtools view -c -F 4 sample_ecoli.sam)
# 标准化因子 = 参考样本的 ecoli reads / 当前样本的 ecoli reads
scale_factor=$(echo "scale=6; 10000 / $ecoli_reads" | bc)

# 6. 过滤、排序、去重
samtools view -bS -q 10 -F 4 sample_hg38.sam | \
    samtools sort -@ 8 -o sample.sorted.bam  # 质量>10 且已比对
samtools markdup -r sample.sorted.bam sample.dedup.bam  # 去 PCR 重复
samtools index sample.dedup.bam  # 建索引

# 7. 用 spike-in 因子生成标准化的 bigWig
# bamCoverage 来自 deepTools
bamCoverage -b sample.dedup.bam -o sample.bw \
    --scaleFactor $scale_factor \
    --binSize 10 --normalizeUsing None \
    --extendReads -p 8

# 8. Peak calling(SEACR)
bedtools genomecov -ibam sample.dedup.bam -bg \
    -scale $scale_factor > sample.bedgraph  # 标准化的 bedgraph
bash SEACR_1.3.sh sample.bedgraph IgG.bedgraph \
    non stringent sample_peaks

面试常问点

★ CUT&RUN 和 CUT&Tag 怎么选?

参考答案:如果是组蛋白修饰分析,CUT&Tag 更简单、成本更低,优先选择。如果是转录因子或需要精确的片段大小信息,CUT&RUN 更合适,因为 MNase 切割产生的片段更规整。另外 CUT&RUN 的 spike-in 标准化体系更成熟,适合做定量比较。

★ 为什么 CUT&RUN 需要 spike-in?

参考答案:CUT&RUN 释放的 DNA 片段量与目标蛋白的丰度成正比,不同样本之间总 DNA 量可能差异很大。如果不用 spike-in 标准化,直接用 reads 总数归一化会掩盖真实的信号差异。spike-in 提供了一个外部参考标准,类似于 qPCR 中的内参基因。


速查卡片

问题一句话答案
CUT&RUN 全称Cleavage Under Targets and Release Using Nuclease
核心酶pA-MNase(蛋白A-微球菌核酸酶)
激活离子Ca²⁺
Spike-in 用途样本间定量标准化
片段大小特征~150bp(核小体周期)
推荐 peak callerSEACR
与 CUT&Tag 最大区别用 MNase 切割而非 Tn5 tagmentation
适合目标组蛋白修饰 + 转录因子