跳转至

CLIP-seq RNA结合蛋白分析

一句话概述

分析eCLIP/iCLIP/HITS-CLIP数据鉴定RNA结合蛋白(RBP)的基因组结合位点,利用CTK/PureCLIP等工具进行peak calling和结合motif发现,揭示转录后调控网络。


核心知识点总览

知识点关键内容重要程度
CLIP技术原理UV交联→IP→测序检测RBP-RNA互作⭐⭐⭐⭐⭐
eCLIP标准流程ENCODE标准eCLIP实验与分析⭐⭐⭐⭐⭐
Peak callingPureCLIP/CLIPper/Piranha⭐⭐⭐⭐
交联位点识别iCLIP的truncation/HITS-CLIP的突变⭐⭐⭐⭐
Motif发现HOMER/MEME/DREME结合基序⭐⭐⭐⭐
功能注释结合位点在UTR/intron/CDS分布⭐⭐⭐
与表达整合RBP结合与靶RNA调控关系⭐⭐⭐
数据库资源ENCODE eCLIP/CLIPdb/POSTAR⭐⭐⭐

各步骤详解

第一步:CLIP技术变体与原理

白话解释: CLIP(CrossLinking and ImmunoPrecipitation)技术家族通过紫外交联将RNA结合蛋白"焊接"到其接触的RNA上,然后用抗体把目标蛋白及其结合RNA一起"钓"出来,最后测序鉴定RNA片段的身份和位置。不同变体(HITS-CLIP/iCLIP/eCLIP)在如何精确定位交联位点上有差异。

技术细节: - HITS-CLIP:交联位点在reads中表现为特征性突变(deletion/substitution) - iCLIP:利用逆转录在交联位点终止的特性,truncation site即为结合位点 - eCLIP:ENCODE优化版CLIP,增加size-matched input控制,减少背景噪声

# CLIP数据特点
# - 单端测序为主(eCLIP有PE版本)
# - reads长度短且不均一
# - PCR重复率高(需UMI去重)
# - 需要size-matched input作为背景控制

# 数据文件
# IP样本:RBP-bound RNA fragments
# Input/SMInput:size-matched input control

第二步:数据预处理

白话解释: CLIP数据预处理比常规RNA-seq更复杂:需要去除接头(通常在3'端)、去除PCR重复(使用UMI或坐标去重)、去除rRNA/重复序列的reads,然后比对到基因组。

技术细节:

# === eCLIP数据预处理(ENCODE pipeline)===

# 1. 接头去除(cutadapt,eCLIP有两轮接头)
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
    -o trimmed_R1.fq.gz raw_R1.fq.gz
# 如果有UMI在R2中:
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
    -o trimmed_R2.fq.gz raw_R2.fq.gz

# 2. UMI提取(如果有)
umi_tools extract --stdin=trimmed_R1.fq.gz --stdout=umi_R1.fq.gz \
    --bc-pattern=NNNNNNNNNN  # 10bp UMI

# 3. 比对(STAR)
STAR --runThreadN 16 \
    --genomeDir star_index \
    --readFilesIn umi_R1.fq.gz \
    --readFilesCommand zcat \
    --outSAMtype BAM SortedByCoordinate \
    --outFilterMultimapNmax 1 \
    --outFilterMismatchNmax 2 \
    --outFileNamePrefix eclip_

# 4. UMI去重
umi_tools dedup -I eclip_Aligned.sortedByCoord.out.bam \
    -S eclip_dedup.bam --method unique

# 或使用坐标去重(无UMI时)
samtools markdup -r eclip_sorted.bam eclip_dedup.bam

# 5. 同样处理SMInput
# ... 相同步骤处理 input 样本 ...

第三步:Peak calling

白话解释: Peak calling找出IP样本中reads富集的区域——这些就是RBP的结合位点。通过与input比较,排除非特异性背景富集。不同工具使用不同统计模型检测富集区域。

技术细节:

# === PureCLIP(基于HMM的精确交联位点检测)===
pureclip -i eclip_dedup.bam -bai eclip_dedup.bam.bai \
    -g genome.fa \
    -o pureclip_crosslink_sites.bed \
    -or pureclip_regions.bed \
    -nt 16 \
    -iv 'chr1;chr2;chr3' \  # 用于训练参数的染色体
    -dm 8  # merge distance

# === CLIPper(ENCODE eCLIP官方peak caller)===
clipper -b eclip_dedup.bam \
    -s hg38 \
    -o clipper_peaks.bed \
    --processors 16

# 用input做归一化过滤
# 计算IP/Input的fold enrichment
# 保留 log2(IP/Input) > 3 的peaks

# === Piranha ===
Piranha -s eclip_dedup.bam \
    -o piranha_peaks.bed \
    -p 0.01 \
    -b 50  # bin size

# === 使用IDR合并重复(ENCODE标准)===
idr --samples rep1_peaks.bed rep2_peaks.bed \
    --input-file-type bed \
    --output-file idr_peaks.bed \
    --idr-threshold 0.01

第四步:iCLIP交联位点精确定位(CTK工具集)

白话解释: iCLIP利用逆转录在交联位点停止的原理,reads的5'端(truncation site)精确对应RBP的结合位点(单碱基分辨率)。CTK(CLIP Tool Kit)是专门处理iCLIP数据的工具集。

技术细节:

# === CTK iCLIP分析 ===
# CTK: https://github.com/chaolinzhanglab/ctk

# 1. 解析和去重
perl ctk/stripBarcode.pl -format fastq \
    -len 5 raw.fq.gz stripped.fq.gz barcode.txt

# 比对后去PCR重复(基于barcode+mapping position)
perl ctk/tag2collapse.pl -v --random-barcode \
    -EM 30 --seq-error-model em-local \
    eclip_sorted.bed eclip_uniq.bed

# 2. 识别交联位点(CITS: CrossLink-Induced Truncation Sites)
perl ctk/tag2peak.pl -big -ss -v \
    --valley-seeking --valley-depth 0.9 \
    -p 0.001 \
    eclip_uniq.bed eclip_peaks.bed \
    --out-boundary eclip_boundaries.bed

# 3. 获取单碱基分辨率的交联位点
perl ctk/CITS.pl -big -ss -v \
    -p 0.001 \
    eclip_uniq.bed eclip_CITS.bed

第五步:结合Motif发现与功能注释

白话解释: RBP通常识别特定的RNA序列基序(motif)。从peak区域的序列中用motif发现工具可以找到这些基序。同时分析peak在基因结构中的分布(3'UTR/5'UTR/intron/CDS),可以推断RBP的功能模式。

技术细节:

# === Motif发现 ===

# 提取peak区域序列
bedtools getfasta -fi genome.fa -bed peaks.bed -fo peak_sequences.fa -s

# HOMER motif发现
findMotifsGenome.pl peaks.bed hg38 homer_output/ \
    -rna -size 50 -mis 1 -p 8

# MEME/DREME
dreme -rna -p peak_sequences.fa -o dreme_output/
meme peak_sequences.fa -rna -oc meme_output/ -mod zoops -nmotifs 10 -minw 4 -maxw 10
# === 功能注释 ===
library(GenomicRanges)
library(GenomicFeatures)

# 加载基因注释
txdb <- makeTxDbFromGFF("gencode.v38.gtf")
peaks_gr <- import("peaks.bed")

# 注释peak位置
utr3 <- threeUTRsByTranscript(txdb, use.names = TRUE)
utr5 <- fiveUTRsByTranscript(txdb, use.names = TRUE)
cds <- cdsBy(txdb, by = "tx", use.names = TRUE)
introns <- intronsByTranscript(txdb, use.names = TRUE)

# 统计分布
n_3utr <- sum(countOverlaps(peaks_gr, unlist(utr3)) > 0)
n_5utr <- sum(countOverlaps(peaks_gr, unlist(utr5)) > 0)
n_cds <- sum(countOverlaps(peaks_gr, unlist(cds)) > 0)
n_intron <- sum(countOverlaps(peaks_gr, unlist(introns)) > 0)

cat(sprintf("3'UTR: %d (%.1f%%)\n5'UTR: %d (%.1f%%)\nCDS: %d (%.1f%%)\nIntron: %d (%.1f%%)\n",
    n_3utr, n_3utr/length(peaks_gr)*100,
    n_5utr, n_5utr/length(peaks_gr)*100,
    n_cds, n_cds/length(peaks_gr)*100,
    n_intron, n_intron/length(peaks_gr)*100))

第六步:与基因表达整合分析

白话解释: RBP结合到RNA上后可能促进或抑制其表达(影响稳定性/翻译/剪接等)。通过比较RBP敲除/过表达前后的转录组变化,与CLIP结合位点信息整合,可以确定RBP对靶标的调控方向和机制。

技术细节:

# === CLIP + RNA-seq整合 ===

# 1. 确定RBP的直接靶基因
# 有peak的基因 = 直接靶标
target_genes <- unique(peaks_annotated$gene_name)

# 2. 与RBP KD后的差异基因比较
kd_de_genes <- read.csv("RBP_knockdown_DEGs.csv")

# 直接靶标中有多少差异表达
direct_targets_de <- intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])
cat(sprintf("Direct targets with expression change: %d / %d (%.1f%%)\n",
    length(direct_targets_de), length(target_genes),
    length(direct_targets_de)/length(target_genes)*100))

# 3. Fisher精确检验:RBP靶标是否富集于差异基因
all_genes <- unique(kd_de_genes$gene)
fisher_table <- matrix(c(
  length(intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
  length(setdiff(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
  sum(kd_de_genes$padj < 0.05) - length(direct_targets_de),
  length(all_genes) - length(target_genes) - sum(kd_de_genes$padj < 0.05) + length(direct_targets_de)
), nrow = 2)
fisher.test(fisher_table)

# 4. 调控方向:3'UTR结合通常促降解
# 靶标在KD后上调 → RBP促进降解
# 靶标在KD后下调 → RBP促进稳定/翻译

实战命令速查

# eCLIP标准流程
cutadapt -a ADAPTER -m 18 -o trimmed.fq.gz raw.fq.gz
STAR --genomeDir index --readFilesIn trimmed.fq.gz --outSAMtype BAM SortedByCoordinate
umi_tools dedup -I sorted.bam -S dedup.bam
clipper -b dedup.bam -s hg38 -o peaks.bed
findMotifsGenome.pl peaks.bed hg38 motif_out/ -rna

面试常问点

Q1: eCLIP与iCLIP的主要区别?

A: eCLIP(enhanced CLIP)是ENCODE标准化的CLIP方案,使用size-matched input(SMInput)作为对照减少背景,实验效率高适合大规模应用。iCLIP利用逆转录终止特性在单碱基水平定位交联位点,分辨率更高但实验更复杂。eCLIP更适合genome-wide binding profiling,iCLIP更适合精确结合位点定位。

Q2: CLIP数据分析中如何处理PCR重复?

A: PCR重复在CLIP数据中尤其严重(起始RNA量少需大量扩增)。处理方法:(1) UMI去重(最可靠)——每个分子有唯一条形码;(2) 坐标去重——相同起止位置的reads只保留一条(可能误删真实独立分子);(3) 随机化策略——允许少量相同坐标reads保留。推荐使用UMI(eCLIP标准)。

Q3: 如何评估CLIP实验质量?

A: 关键指标:(1) IP效率——IP vs Input的reads数比值;(2) Peak数量——好的实验通常有数千到数万peaks;(3) Motif enrichment——已知RBP motif应在peaks中显著富集;(4) 重复一致性——IDR阈值下的重复peaks比例;(5) 信号分布——peaks应富集在RBP预期的功能区域(如剪接调控因子应在内含子-外显子交界处)。

Q4: 为什么需要SMInput控制?

A: Size-Matched Input去除了与RBP结合无关的RNA富集背景——某些高丰度RNA(rRNA片段、snRNA)或有特定二级结构的RNA在免疫沉淀步骤中非特异性共纯化。只有IP/SMInput显著富集的peaks才是真实结合位点。不使用input会产生大量假阳性。

Q5: ENCODE eCLIP数据如何获取和使用?

A: ENCODE已对>200个RBP做了eCLIP(K562和HepG2细胞系),数据公开在ENCODE Portal。可下载processed peaks(IDR filtered)直接使用,或下载BAM文件重新分析。CLIPdb和POSTAR数据库整合了多来源CLIP数据。使用时应注意细胞类型特异性——不同细胞的RBP结合谱可能不同。


易错点

1. 使用ChIP-seq工具直接分析CLIP数据

CLIP reads分布特征与ChIP不同(更短、更窄的peaks),且CLIP的背景模型不同。应使用CLIP专用工具(CLIPper/PureCLIP/Piranha)而非MACS2。

2. 忽略链特异性

RBP结合RNA有方向性。CLIP数据分析必须保持链信息(stranded analysis),否则会把对面链的信号误认为结合位点。

3. 不同CLIP变体的交联位点定义不同

HITS-CLIP中交联位点是reads中的deletion/mutation(CIMS),iCLIP中是reads 5'端(truncation site/CITS),eCLIP同样利用truncation特性(协议基于改进的iCLIP),但通常以peak-level enrichment结合SMInput归一化来定义结合区域。分析方法应匹配实验类型。

4. Peak过多或过少的参数调整

没有"正确"的peak数——不同RBP结合数百到数万个位点不等。应结合motif验证和KD实验确认peak set的生物学合理性。

5. 混淆直接靶标和间接效应

CLIP检测的是直接物理结合,但KD后的表达变化包含大量间接效应。只有CLIP target∩KD DE genes才是有调控证据的直接靶标。


补充知识

CLIP技术前沿

  • TRIBE/HyperTRIBE:无需IP,通过ADAR-RBP融合蛋白标记结合位点
  • STAMP:单细胞水平的RBP结合检测
  • LACE-seq:低输入量CLIP

较新分析工具

  • DEWSeq:Bioconductor包,基于滑动窗口+DESeq2统计框架的eCLIP/iCLIP peak calling,在灵敏度和特异性上优于传统方法(Schwarzl et al., NAR, 2024)

数据库资源

  • ENCODE eCLIP:>200 RBPs,标准化peaks
  • POSTAR3:整合的RBP binding atlas
  • CLIPdb:CLIP数据库
  • RBPmap:RBP结合位点预测

引用推荐

  • eCLIP: Van Nostrand et al., Nature Methods, 2016
  • iCLIP: König et al., Nature Structural & Molecular Biology, 2010
  • PureCLIP: Krakau et al., Genome Biology, 2017
  • CTK: Shah et al., Bioinformatics, 2017