CUT&RUN 数据分析¶

一句话说明¶

CUT&RUN 是 CUT&Tag 的"前辈"——同样用抗体定位目标蛋白，但用 MNase 酶切割 DNA，把目标片段"释放"到溶液中再测序，比 ChIP-seq 更干净。

核心知识点¶

要点1：CUT&RUN 技术原理¶

CUT&RUN = Cleavage Under Targets and Release Using Nuclease
核心思路：在细胞核内，用抗体定位目标蛋白 → pA-MNase（蛋白A-微球菌核酸酶）结合抗体 → Ca²⁺ 激活 MNase 切割 → 小片段 DNA 扩散到溶液中 → 回收测序
白话类比：CUT&RUN 像"定点爆破"——先标记要拆的墙（抗体），再精准炸掉（MNase 切割），碎片自己飞出来回收

要点2：CUT&RUN vs CUT&Tag¶

特征	CUT&RUN	CUT&Tag
核酸酶	pA-MNase	pA-Tn5
激活离子	Ca²⁺	Mg²⁺
文库构建	切割后单独建库	切割同时加接头（tagmentation）
片段大小	~150bp（核小体单位）	较碎，分布更广
操作复杂度	中等（需单独建库）	简单（一步到位）
转录因子适用性	较好	一般

要点3：数据分析关键步骤¶

质控 + 去接头（与 ChIP-seq 类似）
比对（Bowtie2，参数与 CUT&Tag 类似）
去重 + 过滤（去 blacklist 区域）
Peak calling（SEACR 或 MACS2）
差异分析（DiffBind）
可视化（deepTools / IGV）

要点4：Spike-in 标准化¶

CUT&RUN 推荐加入 spike-in（如大肠杆菌 DNA），用于样本间定量标准化
原理：每个样本加入等量的外源 DNA，通过外源 DNA 的 reads 数计算标准化因子
白话：就像做蛋糕时加一勺标准糖，通过这勺糖的甜度判断每个蛋糕的体量

实战代码¶

# ===== CUT&RUN 数据分析流程 =====

# 1. 质控
fastqc -t 8 -o qc_results/ sample_R1.fastq.gz sample_R2.fastq.gz

# 2. 去接头（Illumina 通用接头）
trim_galore --paired -o trimmed/ \
    sample_R1.fastq.gz sample_R2.fastq.gz

# 3. 比对到人类参考基因组
bowtie2 --very-sensitive --no-mixed --no-discordant \
    --maxins 700 -x hg38_index \
    -1 trimmed/sample_R1_val_1.fq.gz \
    -2 trimmed/sample_R2_val_2.fq.gz \
    -S sample_hg38.sam -p 8

# 4. 同时比对到 spike-in 基因组（大肠杆菌）
bowtie2 --very-sensitive --no-overlap --no-dovetail \
    --maxins 700 -x ecoli_index \
    -1 trimmed/sample_R1_val_1.fq.gz \
    -2 trimmed/sample_R2_val_2.fq.gz \
    -S sample_ecoli.sam -p 8

# 5. 计算 spike-in 标准化因子
# 统计比对到大肠杆菌的 reads 数
ecoli_reads=$(samtools view -c -F 4 sample_ecoli.sam)
# 标准化因子 = 参考样本的 ecoli reads / 当前样本的 ecoli reads
scale_factor=$(echo "scale=6; 10000 / $ecoli_reads" | bc)

# 6. 过滤、排序、去重
samtools view -bS -q 10 -F 4 sample_hg38.sam | \
    samtools sort -@ 8 -o sample.sorted.bam  # 质量>10 且已比对
samtools markdup -r sample.sorted.bam sample.dedup.bam  # 去 PCR 重复
samtools index sample.dedup.bam  # 建索引

# 7. 用 spike-in 因子生成标准化的 bigWig
# bamCoverage 来自 deepTools
bamCoverage -b sample.dedup.bam -o sample.bw \
    --scaleFactor $scale_factor \
    --binSize 10 --normalizeUsing None \
    --extendReads -p 8

# 8. Peak calling（SEACR）
bedtools genomecov -ibam sample.dedup.bam -bg \
    -scale $scale_factor > sample.bedgraph  # 标准化的 bedgraph
bash SEACR_1.3.sh sample.bedgraph IgG.bedgraph \
    non stringent sample_peaks

面试常问点¶

★ CUT&RUN 和 CUT&Tag 怎么选？¶

参考答案：如果是组蛋白修饰分析，CUT&Tag 更简单、成本更低，优先选择。如果是转录因子或需要精确的片段大小信息，CUT&RUN 更合适，因为 MNase 切割产生的片段更规整。另外 CUT&RUN 的 spike-in 标准化体系更成熟，适合做定量比较。

★ 为什么 CUT&RUN 需要 spike-in？¶

参考答案：CUT&RUN 释放的 DNA 片段量与目标蛋白的丰度成正比，不同样本之间总 DNA 量可能差异很大。如果不用 spike-in 标准化，直接用 reads 总数归一化会掩盖真实的信号差异。spike-in 提供了一个外部参考标准，类似于 qPCR 中的内参基因。

速查卡片¶

问题	一句话答案
CUT&RUN 全称	Cleavage Under Targets and Release Using Nuclease
核心酶	pA-MNase（蛋白A-微球菌核酸酶）
激活离子	Ca²⁺
Spike-in 用途	样本间定量标准化
片段大小特征	~150bp（核小体周期）
推荐 peak caller	SEACR
与 CUT&Tag 最大区别	用 MNase 切割而非 Tn5 tagmentation
适合目标	组蛋白修饰 + 转录因子