CUT&RUN 数据分析¶
一句话说明¶
CUT&RUN 是 CUT&Tag 的"前辈"——同样用抗体定位目标蛋白,但用 MNase 酶切割 DNA,把目标片段"释放"到溶液中再测序,比 ChIP-seq 更干净。
核心知识点¶
要点1:CUT&RUN 技术原理¶
- CUT&RUN = Cleavage Under Targets and Release Using Nuclease
- 核心思路:在细胞核内,用抗体定位目标蛋白 → pA-MNase(蛋白A-微球菌核酸酶)结合抗体 → Ca²⁺ 激活 MNase 切割 → 小片段 DNA 扩散到溶液中 → 回收测序
- 白话类比:CUT&RUN 像"定点爆破"——先标记要拆的墙(抗体),再精准炸掉(MNase 切割),碎片自己飞出来回收
要点2:CUT&RUN vs CUT&Tag¶
| 特征 | CUT&RUN | CUT&Tag |
|---|---|---|
| 核酸酶 | pA-MNase | pA-Tn5 |
| 激活离子 | Ca²⁺ | Mg²⁺ |
| 文库构建 | 切割后单独建库 | 切割同时加接头(tagmentation) |
| 片段大小 | ~150bp(核小体单位) | 较碎,分布更广 |
| 操作复杂度 | 中等(需单独建库) | 简单(一步到位) |
| 转录因子适用性 | 较好 | 一般 |
要点3:数据分析关键步骤¶
- 质控 + 去接头(与 ChIP-seq 类似)
- 比对(Bowtie2,参数与 CUT&Tag 类似)
- 去重 + 过滤(去 blacklist 区域)
- Peak calling(SEACR 或 MACS2)
- 差异分析(DiffBind)
- 可视化(deepTools / IGV)
要点4:Spike-in 标准化¶
- CUT&RUN 推荐加入 spike-in(如大肠杆菌 DNA),用于样本间定量标准化
- 原理:每个样本加入等量的外源 DNA,通过外源 DNA 的 reads 数计算标准化因子
- 白话:就像做蛋糕时加一勺标准糖,通过这勺糖的甜度判断每个蛋糕的体量
实战代码¶
# ===== CUT&RUN 数据分析流程 =====
# 1. 质控
fastqc -t 8 -o qc_results/ sample_R1.fastq.gz sample_R2.fastq.gz
# 2. 去接头(Illumina 通用接头)
trim_galore --paired -o trimmed/ \
sample_R1.fastq.gz sample_R2.fastq.gz
# 3. 比对到人类参考基因组
bowtie2 --very-sensitive --no-mixed --no-discordant \
--maxins 700 -x hg38_index \
-1 trimmed/sample_R1_val_1.fq.gz \
-2 trimmed/sample_R2_val_2.fq.gz \
-S sample_hg38.sam -p 8
# 4. 同时比对到 spike-in 基因组(大肠杆菌)
bowtie2 --very-sensitive --no-overlap --no-dovetail \
--maxins 700 -x ecoli_index \
-1 trimmed/sample_R1_val_1.fq.gz \
-2 trimmed/sample_R2_val_2.fq.gz \
-S sample_ecoli.sam -p 8
# 5. 计算 spike-in 标准化因子
# 统计比对到大肠杆菌的 reads 数
ecoli_reads=$(samtools view -c -F 4 sample_ecoli.sam)
# 标准化因子 = 参考样本的 ecoli reads / 当前样本的 ecoli reads
scale_factor=$(echo "scale=6; 10000 / $ecoli_reads" | bc)
# 6. 过滤、排序、去重
samtools view -bS -q 10 -F 4 sample_hg38.sam | \
samtools sort -@ 8 -o sample.sorted.bam # 质量>10 且已比对
samtools markdup -r sample.sorted.bam sample.dedup.bam # 去 PCR 重复
samtools index sample.dedup.bam # 建索引
# 7. 用 spike-in 因子生成标准化的 bigWig
# bamCoverage 来自 deepTools
bamCoverage -b sample.dedup.bam -o sample.bw \
--scaleFactor $scale_factor \
--binSize 10 --normalizeUsing None \
--extendReads -p 8
# 8. Peak calling(SEACR)
bedtools genomecov -ibam sample.dedup.bam -bg \
-scale $scale_factor > sample.bedgraph # 标准化的 bedgraph
bash SEACR_1.3.sh sample.bedgraph IgG.bedgraph \
non stringent sample_peaks
面试常问点¶
★ CUT&RUN 和 CUT&Tag 怎么选?¶
参考答案:如果是组蛋白修饰分析,CUT&Tag 更简单、成本更低,优先选择。如果是转录因子或需要精确的片段大小信息,CUT&RUN 更合适,因为 MNase 切割产生的片段更规整。另外 CUT&RUN 的 spike-in 标准化体系更成熟,适合做定量比较。
★ 为什么 CUT&RUN 需要 spike-in?¶
参考答案:CUT&RUN 释放的 DNA 片段量与目标蛋白的丰度成正比,不同样本之间总 DNA 量可能差异很大。如果不用 spike-in 标准化,直接用 reads 总数归一化会掩盖真实的信号差异。spike-in 提供了一个外部参考标准,类似于 qPCR 中的内参基因。
速查卡片¶
| 问题 | 一句话答案 |
|---|---|
| CUT&RUN 全称 | Cleavage Under Targets and Release Using Nuclease |
| 核心酶 | pA-MNase(蛋白A-微球菌核酸酶) |
| 激活离子 | Ca²⁺ |
| Spike-in 用途 | 样本间定量标准化 |
| 片段大小特征 | ~150bp(核小体周期) |
| 推荐 peak caller | SEACR |
| 与 CUT&Tag 最大区别 | 用 MNase 切割而非 Tn5 tagmentation |
| 适合目标 | 组蛋白修饰 + 转录因子 |