组蛋白修饰类型与功能¶
一句话说明¶
组蛋白修饰就是在包裹DNA的"线轴蛋白"上做各种化学标记——不同的标记组合就像交通信号灯,告诉细胞哪些基因该开、哪些该关。这套标记系统被称为"组蛋白密码"(Histone Code)。
核心知识点¶
要点1:组蛋白基础¶
- 核小体结构:DNA缠绕在组蛋白八聚体上(H2A、H2B、H3、H4各两个),形成核小体
- 组蛋白尾巴:N端尾巴伸出核小体外,是修饰主要发生的位置
- 修饰发生在特定氨基酸:如H3K4(H3的第4位赖氨酸)、H3K27(第27位赖氨酸)
- 命名规则:H3K4me3 = 组蛋白H3的第4位赖氨酸上的三甲基化
要点2:主要修饰类型及功能¶
| 修饰标记 | 修饰类型 | 功能 | 位置特征 |
|---|---|---|---|
| H3K4me1 | 甲基化 | 增强子标记 | 活性/准备态增强子 |
| H3K4me3 | 三甲基化 | 活性启动子 | TSS附近 |
| H3K27ac | 乙酰化 | 活性增强子/启动子 | 转录活跃区域 |
| H3K27me3 | 三甲基化 | 基因沉默(Polycomb) | 被压制的基因 |
| H3K36me3 | 三甲基化 | 转录延伸 | 基因体(gene body) |
| H3K9me3 | 三甲基化 | 异染色质/基因沉默 | 重复序列、着丝粒 |
| H3K9ac | 乙酰化 | 活性转录 | 开放染色质 |
| H4K20me1 | 甲基化 | DNA损伤修复 | 修复位点 |
要点3:组蛋白密码假说¶
- "写入者"(Writers):添加修饰的酶
- 甲基转移酶(HMT):如EZH2写H3K27me3,SET1写H3K4me3
- 乙酰转移酶(HAT):如p300/CBP写H3K27ac
- "擦除者"(Erasers):去除修饰的酶
- 去甲基化酶(KDM):如KDM5去H3K4me3,KDM6/JMJD3去H3K27me3
- 去乙酰化酶(HDAC):如HDAC1/2去除乙酰化
- "读取者"(Readers):识别修饰并招募下游因子
- Bromodomain蛋白:读取乙酰化
- Chromodomain蛋白:读取甲基化
- PHD finger:读取H3K4me3
要点4:ChIP-seq检测组蛋白修饰¶
- 原理:用抗体拉下带特定修饰的组蛋白+DNA,测序看这些DNA在哪
- 流程:交联→超声碎裂→抗体免疫沉淀→洗脱→建库→测序
- 对照:Input(无免疫沉淀的总DNA)或IgG(非特异性抗体)
- 分析:峰检测(MACS2/3)→ 差异分析 → 功能注释
- 新方法:CUT&Tag/CUT&RUN,用酶切代替超声,起始细胞量少、背景低
实战代码¶
# === ChIP-seq数据分析流程 ===
# 1. 质控与比对
fastqc H3K27ac_chip.fastq.gz # 质控
trim_galore --paired H3K27ac_R1.fq.gz H3K27ac_R2.fq.gz # 去接头
# 比对到参考基因组
bowtie2 -x hg38_index \
-1 H3K27ac_R1_trimmed.fq.gz \
-2 H3K27ac_R2_trimmed.fq.gz \
-p 8 \ # 8个线程
--very-sensitive \ # 高灵敏度模式
-S H3K27ac.sam # 输出SAM文件
# SAM转BAM,排序,去重复
samtools sort H3K27ac.sam -o H3K27ac.sorted.bam # 排序
samtools index H3K27ac.sorted.bam # 建索引
picard MarkDuplicates \
I=H3K27ac.sorted.bam \
O=H3K27ac.dedup.bam \
M=dup_metrics.txt \
REMOVE_DUPLICATES=true # 去PCR重复
# 2. 峰检测(MACS3)
macs3 callpeak \
-t H3K27ac.dedup.bam \ # ChIP样本
-c input.dedup.bam \ # Input对照
-f BAMPE \ # 双端测序
-g hs \ # 人类基因组大小
-n H3K27ac \ # 输出前缀
--broad \ # 宽峰模式(组蛋白修饰推荐)
--broad-cutoff 0.1 \ # 宽峰q值阈值
-q 0.05 # 窄峰q值阈值
# 3. 生成BigWig信号文件(用于可视化)
bamCoverage \
-b H3K27ac.dedup.bam \
-o H3K27ac.bw \
--normalizeUsing RPKM \ # RPKM归一化
--binSize 10 \ # 10bp分辨率
-p 8 # 8个线程
# === 组蛋白修饰下游分析 ===
import pandas as pd
import matplotlib.pyplot as plt
# 1. 读取MACS3的peak文件
peaks = pd.read_csv("H3K27ac_peaks.broadPeak", sep="\t", header=None,
names=["chr","start","end","name","score",
"strand","fc","pvalue","qvalue"])
print(f"H3K27ac峰数量: {len(peaks)}")
print(f"平均峰宽: {(peaks['end'] - peaks['start']).mean():.0f} bp")
# 2. 峰的基因组分布统计
# 需要用ChIPseeker或HOMER进行注释
# 这里展示结果解读框架
annotation_results = {
"Promoter (<=1kb)": 35, # 启动子区域占比
"Promoter (1-2kb)": 8,
"Intron": 30, # 内含子(可能是增强子)
"Intergenic": 20, # 基因间区(远端增强子)
"Exon": 5,
"3'UTR": 2
}
plt.figure(figsize=(8, 6))
plt.pie(annotation_results.values(), labels=annotation_results.keys(),
autopct='%1.1f%%')
plt.title("H3K27ac Peak Genomic Distribution")
plt.savefig("peak_annotation.png", dpi=150)
# 3. 不同组蛋白修饰的信号分布对比
# 用deepTools的computeMatrix和plotHeatmap
# computeMatrix reference-point -S H3K4me3.bw H3K27ac.bw H3K27me3.bw \
# -R genes.bed --referencePoint TSS -a 3000 -b 3000 -o matrix.gz
# plotHeatmap -m matrix.gz -o heatmap.png --colorMap RdBu_r
# === 使用ChIPseeker进行峰注释 ===
library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
# 1. 读取peak文件
peak <- readPeakFile("H3K27ac_peaks.broadPeak")
# 2. 注释到基因组特征
txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene
peakAnno <- annotatePeak(peak, TxDb=txdb,
tssRegion=c(-3000, 3000)) # TSS上下游3kb
# 3. 可视化注释结果
plotAnnoPie(peakAnno) # 基因组区域饼图
plotDistToTSS(peakAnno) # 到TSS的距离分布
面试常问点¶
Q1: H3K4me3和H3K27me3同时存在是什么意思?¶
参考答案:这叫"二价域"(Bivalent Domain),在胚胎干细胞中特别常见。H3K4me3标记活性启动子,H3K27me3标记沉默基因。两个同时存在意味着这个基因处于"准备态"——目前不表达但随时可以被激活。当细胞分化时,二价域会解除:如果去掉H3K27me3保留H3K4me3,基因被激活;反之则被永久沉默。这是干细胞维持多能性的重要机制。
Q2: ChIP-seq和CUT&Tag有什么区别?¶
参考答案:ChIP-seq需要大量细胞(百万级)、交联、超声碎裂,实验周期长,背景噪音较高。CUT&Tag用蛋白A-Tn5转座酶代替抗体免疫沉淀,在原位切割目标DNA并直接加上测序接头。优势是:需要的细胞少(几百到几千个),可以做单细胞水平;信噪比更高(因为背景切割少);实验更快(1-2天)。2024-2025年CUT&Tag已经逐渐成为组蛋白修饰分析的主流方法。
Q3: 你怎么判断一个区域是活性增强子?¶
参考答案:活性增强子有三个典型的表观标记特征:H3K4me1阳性(增强子标记)、H3K27ac阳性(活性标记)、H3K4me3阴性(与启动子区分)。同时,这个区域应该是开放染色质(ATAC-seq有信号),可能结合转录因子和共激活因子p300。如果H3K4me1阳性但H3K27ac阴性,那是"准备态增强子"(poised enhancer),尚未被激活。
速查卡片¶
| 问题 | 一句话答案 |
|---|---|
| H3K4me3标记什么? | 活性基因的启动子 |
| H3K27me3标记什么? | 被Polycomb沉默的基因 |
| H3K27ac标记什么? | 活性增强子和活性启动子 |
| 什么是二价域? | H3K4me3+H3K27me3同时存在,基因处于"准备态" |
| ChIP-seq用什么做峰检测? | MACS2/MACS3 |
| CUT&Tag优势? | 细胞用量少、信噪比高、速度快 |
| Writers/Erasers/Readers? | 写入修饰的酶/擦除修饰的酶/识别修饰的蛋白 |