超级增强子鉴定与分析¶
一句话说明¶
超级增强子(Super-Enhancer)是一群聚在一起的增强子"超级联盟"——它们比普通增强子信号强几十倍,专门驱动细胞身份基因的表达,在肿瘤中经常被异常激活。
核心知识点¶
要点1:什么是超级增强子¶
- 普通增强子:单个调控元件,几百 bp,增强附近基因转录
- 超级增强子(SE):多个增强子密集成簇,跨度可达数十 kb
- SE 的特征:H3K27ac、Mediator、BRD4 等信号异常高(比普通增强子高 10-100 倍)
- 白话类比:普通增强子像一盏灯,超级增强子像一排聚光灯打在一起——亮度完全不同级别
要点2:超级增强子的功能¶
- 驱动细胞身份基因:每种细胞有独特的 SE,控制该细胞类型的关键基因
- 对信号敏感:SE 对转录因子浓度变化非常敏感(相变/凝聚体模型)
- 肿瘤中的作用:癌基因(如 MYC)常被 SE 驱动,导致异常高表达
- 药物靶点:BET 抑制剂(如 JQ1)可以选择性破坏 SE
要点3:鉴定方法——ROSE 算法¶
- ChIP-seq(H3K27ac 或 MED1)call peaks
- 合并距离 < 12.5kb 的 peaks 为"增强子区域"
- 按信号强度排序,画 hockey-stick 曲线
- 拐点以上 = 超级增强子,拐点以下 = 典型增强子
- 排除 TSS ±2kb 区域(区分增强子与启动子)
要点4:相变与凝聚体模型(2018-2025 前沿)¶
- SE 区域的 Mediator、BRD4、RNA Pol II 通过液-液相分离形成凝聚体
- 凝聚体将转录机器浓缩在一起,形成"转录工厂"
- 1,6-hexanediol 可以破坏凝聚体,用于功能验证
实战代码¶
# ===== 超级增强子鉴定流程 =====
# 1. H3K27ac ChIP-seq 数据比对(假设已完成)
# 2. Peak calling
macs2 callpeak -t H3K27ac.bam -c Input.bam \
-f BAM -g hs -n H3K27ac \
--nomodel --extsize 200 -p 1e-9
# 3. 使用 ROSE 鉴定超级增强子
# 先安装 ROSE(https://github.com/stjude/ROSE)
# ROSE 需要的输入:peaks 文件 + BAM 文件 + 基因组
# 把 MACS2 的 narrowPeak 转成 ROSE 需要的 GFF 格式
awk 'OFS="\t" {print $4, $1, "", $2, $3, "", $6, "", ""}' \
H3K27ac_peaks.narrowPeak > H3K27ac_peaks.gff
# 运行 ROSE
python ROSE_main.py \
-g hg38 \
-i H3K27ac_peaks.gff \
-r H3K27ac.bam \
-c Input.bam \
-o rose_output/ \
-s 12500 \ # 12.5kb 以内的 peaks 合并
-t 2500 # 排除 TSS ±2.5kb
# ROSE 输出文件说明:
# *_SuperEnhancers.table.txt → 超级增强子列表
# *_Enhancers_withSuper.bed → 所有增强子(标注了是否为 SE)
# *_Plot_points.png → hockey-stick 曲线图
# ===== R: 超级增强子下游分析 =====
library(GenomicRanges)
library(ggplot2)
# 读取 ROSE 输出的超级增强子
se_table <- read.delim("rose_output/SuperEnhancers.table.txt")
cat("鉴定到的超级增强子数:", nrow(se_table), "\n")
# 通常一个细胞类型有 200-600 个 SE
# 读取所有增强子数据(含信号强度排序)
all_enh <- read.delim("rose_output/AllEnhancers.table.txt")
all_enh <- all_enh[order(all_enh$enhancerRank), ]
# 画 hockey-stick 曲线
all_enh$rank <- seq_len(nrow(all_enh))
all_enh$is_super <- ifelse(all_enh$isSuper == 1, "SE", "TE")
ggplot(all_enh, aes(x = rank, y = signal, color = is_super)) +
geom_point(size = 0.5) +
scale_color_manual(values = c("SE" = "red", "TE" = "gray")) +
labs(x = "增强子排名", y = "H3K27ac 信号",
title = "Hockey-stick 曲线:超级增强子鉴定") +
theme_minimal()
# SE 关联的基因分析
# 将 SE 注释到最近基因
se_gr <- GRanges(seqnames = se_table$CHROM,
ranges = IRanges(start = se_table$START, end = se_table$STOP))
# 常见 SE 驱动的癌基因
oncogenes <- c("MYC", "BCL2", "CCND1", "MDM2", "NOTCH1")
se_genes <- se_table$CLOSEST_GENE
# 检查哪些癌基因被 SE 驱动
hit <- intersect(se_genes, oncogenes)
if (length(hit) > 0) {
cat("被超级增强子驱动的癌基因:", paste(hit, collapse = ", "), "\n")
}
# GO 富集分析
library(clusterProfiler)
library(org.Hs.eg.db)
# SE 关联基因的功能富集
gene_ids <- bitr(se_genes, fromType = "SYMBOL",
toType = "ENTREZID", OrgDb = org.Hs.eg.db)
go_results <- enrichGO(gene = gene_ids$ENTREZID,
OrgDb = org.Hs.eg.db,
ont = "BP", pAdjustMethod = "BH", qvalueCutoff = 0.05)
面试常问点¶
★ 超级增强子和普通增强子的本质区别是什么?¶
参考答案:本质区别不仅是信号强弱。超级增强子具有三个独特性质——第一,由多个增强子成簇排列形成,而非单个元件;第二,对转录因子浓度变化极其敏感,表现出"开关式"而非"渐变式"的调控特征;第三,功能上专门驱动细胞身份相关的关键基因,而普通增强子调控的基因更广泛。近年研究认为 SE 通过液-液相分离形成转录凝聚体来实现其超强驱动能力。
★ BET 抑制剂为什么能选择性抑制超级增强子?¶
参考答案:BET 蛋白(如 BRD4)在超级增强子上的密度远高于普通增强子。BET 抑制剂(如 JQ1)竞争 BRD4 与乙酰化组蛋白的结合,在全基因组范围内降低 BRD4 的结合。但因为 SE 对 BRD4 浓度极其敏感(类似相变的临界点),少量减少就会导致 SE 瓦解,而普通增强子不太受影响。这就实现了选择性。
速查卡片¶
| 问题 | 一句话答案 |
|---|---|
| 超级增强子核心标志 | H3K27ac 信号异常高(10-100 倍于普通增强子) |
| 鉴定工具 | ROSE 算法 |
| 鉴定方法 | Hockey-stick 曲线拐点 |
| 典型数量 | 每种细胞 200-600 个 SE |
| 合并距离 | 12.5kb 内的 peaks 合并 |
| SE 驱动的经典癌基因 | MYC |
| 药物靶点 | BET 抑制剂(JQ1) |
| 前沿概念 | 液-液相分离/转录凝聚体 |