跳转至

组蛋白修饰类型与功能


一句话说明

组蛋白修饰就是在包裹DNA的"线轴蛋白"上做各种化学标记——不同的标记组合就像交通信号灯,告诉细胞哪些基因该开、哪些该关。这套标记系统被称为"组蛋白密码"(Histone Code)。


核心知识点

要点1:组蛋白基础

  • 核小体结构:DNA缠绕在组蛋白八聚体上(H2A、H2B、H3、H4各两个),形成核小体
  • 组蛋白尾巴:N端尾巴伸出核小体外,是修饰主要发生的位置
  • 修饰发生在特定氨基酸:如H3K4(H3的第4位赖氨酸)、H3K27(第27位赖氨酸)
  • 命名规则:H3K4me3 = 组蛋白H3的第4位赖氨酸上的三甲基化

要点2:主要修饰类型及功能

修饰标记修饰类型功能位置特征
H3K4me1甲基化增强子标记活性/准备态增强子
H3K4me3三甲基化活性启动子TSS附近
H3K27ac乙酰化活性增强子/启动子转录活跃区域
H3K27me3三甲基化基因沉默(Polycomb)被压制的基因
H3K36me3三甲基化转录延伸基因体(gene body)
H3K9me3三甲基化异染色质/基因沉默重复序列、着丝粒
H3K9ac乙酰化活性转录开放染色质
H4K20me1甲基化DNA损伤修复修复位点

要点3:组蛋白密码假说

  • "写入者"(Writers):添加修饰的酶
  • 甲基转移酶(HMT):如EZH2写H3K27me3,SET1写H3K4me3
  • 乙酰转移酶(HAT):如p300/CBP写H3K27ac
  • "擦除者"(Erasers):去除修饰的酶
  • 去甲基化酶(KDM):如KDM5去H3K4me3,KDM6/JMJD3去H3K27me3
  • 去乙酰化酶(HDAC):如HDAC1/2去除乙酰化
  • "读取者"(Readers):识别修饰并招募下游因子
  • Bromodomain蛋白:读取乙酰化
  • Chromodomain蛋白:读取甲基化
  • PHD finger:读取H3K4me3

要点4:ChIP-seq检测组蛋白修饰

  • 原理:用抗体拉下带特定修饰的组蛋白+DNA,测序看这些DNA在哪
  • 流程:交联→超声碎裂→抗体免疫沉淀→洗脱→建库→测序
  • 对照:Input(无免疫沉淀的总DNA)或IgG(非特异性抗体)
  • 分析:峰检测(MACS2/3)→ 差异分析 → 功能注释
  • 新方法:CUT&Tag/CUT&RUN,用酶切代替超声,起始细胞量少、背景低

实战代码

# === ChIP-seq数据分析流程 ===

# 1. 质控与比对
fastqc H3K27ac_chip.fastq.gz                    # 质控
trim_galore --paired H3K27ac_R1.fq.gz H3K27ac_R2.fq.gz  # 去接头

# 比对到参考基因组
bowtie2 -x hg38_index \
  -1 H3K27ac_R1_trimmed.fq.gz \
  -2 H3K27ac_R2_trimmed.fq.gz \
  -p 8 \                           # 8个线程
  --very-sensitive \                # 高灵敏度模式
  -S H3K27ac.sam                    # 输出SAM文件

# SAM转BAM,排序,去重复
samtools sort H3K27ac.sam -o H3K27ac.sorted.bam   # 排序
samtools index H3K27ac.sorted.bam                  # 建索引
picard MarkDuplicates \
  I=H3K27ac.sorted.bam \
  O=H3K27ac.dedup.bam \
  M=dup_metrics.txt \
  REMOVE_DUPLICATES=true            # 去PCR重复

# 2. 峰检测(MACS3)
macs3 callpeak \
  -t H3K27ac.dedup.bam \           # ChIP样本
  -c input.dedup.bam \              # Input对照
  -f BAMPE \                        # 双端测序
  -g hs \                           # 人类基因组大小
  -n H3K27ac \                      # 输出前缀
  --broad \                         # 宽峰模式(组蛋白修饰推荐)
  --broad-cutoff 0.1 \              # 宽峰q值阈值
  -q 0.05                           # 窄峰q值阈值

# 3. 生成BigWig信号文件(用于可视化)
bamCoverage \
  -b H3K27ac.dedup.bam \
  -o H3K27ac.bw \
  --normalizeUsing RPKM \           # RPKM归一化
  --binSize 10 \                    # 10bp分辨率
  -p 8                              # 8个线程
# === 组蛋白修饰下游分析 ===
import pandas as pd
import matplotlib.pyplot as plt

# 1. 读取MACS3的peak文件
peaks = pd.read_csv("H3K27ac_peaks.broadPeak", sep="\t", header=None,
                     names=["chr","start","end","name","score",
                            "strand","fc","pvalue","qvalue"])
print(f"H3K27ac峰数量: {len(peaks)}")
print(f"平均峰宽: {(peaks['end'] - peaks['start']).mean():.0f} bp")

# 2. 峰的基因组分布统计
# 需要用ChIPseeker或HOMER进行注释
# 这里展示结果解读框架
annotation_results = {
    "Promoter (<=1kb)": 35,    # 启动子区域占比
    "Promoter (1-2kb)": 8,
    "Intron": 30,              # 内含子(可能是增强子)
    "Intergenic": 20,          # 基因间区(远端增强子)
    "Exon": 5,
    "3'UTR": 2
}

plt.figure(figsize=(8, 6))
plt.pie(annotation_results.values(), labels=annotation_results.keys(),
        autopct='%1.1f%%')
plt.title("H3K27ac Peak Genomic Distribution")
plt.savefig("peak_annotation.png", dpi=150)

# 3. 不同组蛋白修饰的信号分布对比
# 用deepTools的computeMatrix和plotHeatmap
# computeMatrix reference-point -S H3K4me3.bw H3K27ac.bw H3K27me3.bw \
#   -R genes.bed --referencePoint TSS -a 3000 -b 3000 -o matrix.gz
# plotHeatmap -m matrix.gz -o heatmap.png --colorMap RdBu_r
# === 使用ChIPseeker进行峰注释 ===
library(ChIPseeker)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)

# 1. 读取peak文件
peak <- readPeakFile("H3K27ac_peaks.broadPeak")

# 2. 注释到基因组特征
txdb <- TxDb.Hsapiens.UCSC.hg38.knownGene
peakAnno <- annotatePeak(peak, TxDb=txdb,
                          tssRegion=c(-3000, 3000))  # TSS上下游3kb

# 3. 可视化注释结果
plotAnnoPie(peakAnno)       # 基因组区域饼图
plotDistToTSS(peakAnno)     # 到TSS的距离分布

面试常问点

Q1: H3K4me3和H3K27me3同时存在是什么意思?

参考答案:这叫"二价域"(Bivalent Domain),在胚胎干细胞中特别常见。H3K4me3标记活性启动子,H3K27me3标记沉默基因。两个同时存在意味着这个基因处于"准备态"——目前不表达但随时可以被激活。当细胞分化时,二价域会解除:如果去掉H3K27me3保留H3K4me3,基因被激活;反之则被永久沉默。这是干细胞维持多能性的重要机制。

Q2: ChIP-seq和CUT&Tag有什么区别?

参考答案:ChIP-seq需要大量细胞(百万级)、交联、超声碎裂,实验周期长,背景噪音较高。CUT&Tag用蛋白A-Tn5转座酶代替抗体免疫沉淀,在原位切割目标DNA并直接加上测序接头。优势是:需要的细胞少(几百到几千个),可以做单细胞水平;信噪比更高(因为背景切割少);实验更快(1-2天)。2024-2025年CUT&Tag已经逐渐成为组蛋白修饰分析的主流方法。

Q3: 你怎么判断一个区域是活性增强子?

参考答案:活性增强子有三个典型的表观标记特征:H3K4me1阳性(增强子标记)、H3K27ac阳性(活性标记)、H3K4me3阴性(与启动子区分)。同时,这个区域应该是开放染色质(ATAC-seq有信号),可能结合转录因子和共激活因子p300。如果H3K4me1阳性但H3K27ac阴性,那是"准备态增强子"(poised enhancer),尚未被激活。


速查卡片

问题一句话答案
H3K4me3标记什么?活性基因的启动子
H3K27me3标记什么?被Polycomb沉默的基因
H3K27ac标记什么?活性增强子和活性启动子
什么是二价域?H3K4me3+H3K27me3同时存在,基因处于"准备态"
ChIP-seq用什么做峰检测?MACS2/MACS3
CUT&Tag优势?细胞用量少、信噪比高、速度快
Writers/Erasers/Readers?写入修饰的酶/擦除修饰的酶/识别修饰的蛋白