组蛋白变体分析 H2A.Z / H3.3¶

一句话说明¶

组蛋白变体是核小体中"可替换的零件"——标准版组蛋白是"通用零件"，H2A.Z 和 H3.3 等变体是"特殊零件"，装上不同零件，核小体的稳定性和功能就不同。

核心知识点¶

要点1：什么是组蛋白变体¶

核小体 = 2x(H2A + H2B + H3 + H4) 组成的八聚体 + 147bp DNA
标准组蛋白（canonical）在 S 期随 DNA 复制大量合成
组蛋白变体在整个细胞周期都表达，由特定的分子伴侣装载
白话类比：标准组蛋白像"默认轮胎"，组蛋白变体像"越野胎"或"雪地胎"——功能不同

要点2：重要组蛋白变体¶

变体	替代的标准	位置	功能
H2A.Z	H2A	启动子、增强子	调控基因激活/沉默（双重角色）
H3.3	H3	活跃基因、端粒	标记转录活跃区域
macroH2A	H2A	X 染色体失活	基因沉默
H2A.X	H2A	DNA 损伤位点	DNA 修复信号（γH2A.X）
CENP-A	H3	着丝粒	标记着丝粒位置

要点3：H2A.Z 的双面角色¶

H2A.Z 在活跃启动子：与 H3K4me3 共存，促进转录
H2A.Z 在沉默启动子：与 H3K27me3 共存（bivalent），维持发育基因的"待命"状态
H2A.Z 降低核小体稳定性 → 让 DNA 更容易被转录因子访问
装载机制：SWR1/SRCAP 复合物（INO80 家族）催化 H2A→H2A.Z 替换

要点4：H3.3 的功能¶

H3.3 主要沉积在活跃转录区域和调控元件
分子伴侣：HIRA（活跃基因处）、DAXX-ATRX（端粒和异染色质）
H3.3 与标准 H3 仅差 4-5 个氨基酸，但功能显著不同
在早期胚胎发育中起关键作用

实战代码¶

# ===== 组蛋白变体 ChIP-seq / CUT&Tag 分析 =====

# 1. 比对（以 H2A.Z CUT&Tag 为例）
bowtie2 --very-sensitive --no-mixed --no-discordant \
    --maxins 700 -x hg38_index \
    -1 H2AZ_R1.fastq.gz -2 H2AZ_R2.fastq.gz \
    -S H2AZ.sam -p 8

# 2. 过滤、排序、去重
samtools view -bS -q 10 H2AZ.sam | \
    samtools sort -@ 8 -o H2AZ.sorted.bam
samtools markdup -r H2AZ.sorted.bam H2AZ.dedup.bam
samtools index H2AZ.dedup.bam

# 3. 生成 bigWig（用于可视化）
bamCoverage -b H2AZ.dedup.bam -o H2AZ.bw \
    --normalizeUsing RPKM --binSize 10 -p 8

# 4. Peak calling
# H2A.Z 在启动子形成尖峰，用 narrowPeak 模式
macs2 callpeak -t H2AZ.dedup.bam -c IgG.dedup.bam \
    -f BAMPE -g hs -n H2AZ --nomodel --keep-dup all

# 5. TSS 处的 H2A.Z 分布（deepTools）
# 计算 TSS ±3kb 范围内的信号分布
computeMatrix reference-point -S H2AZ.bw \
    -R hg38_tss.bed \
    --referencePoint TSS \
    -a 3000 -b 3000 \
    -o H2AZ_tss_matrix.gz

# 画 TSS 处的信号热图
plotHeatmap -m H2AZ_tss_matrix.gz \
    -o H2AZ_tss_heatmap.pdf \
    --colorMap RdYlBu_r \
    --sortUsing mean

# ===== R: H2A.Z 与转录活性的关联分析 =====
library(GenomicRanges)
library(ChIPpeakAnno)

# 读取 H2A.Z peaks
h2az_peaks <- read.table("H2AZ_peaks.narrowPeak",
    col.names = c("chr","start","end","name","score",
                  "strand","signal","pval","qval","summit"))

# 读取 RNA-seq 表达数据
expr <- read.csv("gene_expression.csv", row.names = 1)
# 按表达量分组
expr$group <- cut(expr$FPKM,
    breaks = c(0, 1, 10, 100, Inf),
    labels = c("silent", "low", "medium", "high"))

# 统计不同表达水平基因启动子处的 H2A.Z 丰度
# 读取 TSS ±1kb 区域的 H2A.Z 信号
library(rtracklayer)
h2az_bw <- import("H2AZ.bw")

# 计算每个基因 TSS ±1kb 的 H2A.Z 平均信号
tss_gr <- GRanges(seqnames = expr$chr,
    ranges = IRanges(start = expr$tss - 1000,
                     end = expr$tss + 1000))

h2az_signal <- sapply(seq_along(tss_gr), function(i) {
    ov <- subsetByOverlaps(h2az_bw, tss_gr[i])
    if (length(ov) > 0) mean(ov$score) else 0
})

expr$h2az_signal <- h2az_signal

# 箱线图：不同表达水平的 H2A.Z 信号
library(ggplot2)
ggplot(expr, aes(x = group, y = h2az_signal, fill = group)) +
    geom_boxplot() +
    labs(x = "基因表达水平", y = "TSS 处 H2A.Z 信号",
         title = "H2A.Z 在活跃基因启动子处富集") +
    theme_minimal()

面试常问点¶

★ H2A.Z 到底是激活还是抑制基因表达？¶

参考答案：H2A.Z 有双重角色，取决于它的共修饰环境。在活跃启动子处，H2A.Z 与 H3K4me3 共存，核小体不稳定性增加，有利于转录因子结合，促进基因表达。在 bivalent 启动子处，H2A.Z 与 H3K27me3 共存，维持基因处于"准备好但未开启"的待命状态，常见于发育基因。另外 H2A.Z 的乙酰化形式（H2A.Zac）倾向于激活，泛素化形式（H2A.Zub）倾向于抑制。

★ H3.3 和标准 H3 结构差异那么小，为什么功能不同？¶

参考答案：虽然只差 4-5 个氨基酸，但关键差异在两个层面——第一，这些氨基酸差异决定了不同的分子伴侣（HIRA vs CAF-1）来装载它们，使 H3.3 被沉积在特定的基因组区域；第二，H3.3 的半衰期更长（不随复制稀释），能维持表观遗传记忆。所以表面上差异小，但分子伴侣的识别和沉积位置完全不同。

速查卡片¶

问题	一句话答案
H2A.Z 的装载复合物	SWR1/SRCAP
H3.3 的装载伴侣	HIRA（活跃区域）、DAXX-ATRX（异染色质）
γH2A.X 是什么	H2A.X 磷酸化形式，DNA 损伤标记
CENP-A 在哪里	着丝粒
H2A.Z 双面性	+H3K4me3 = 激活；+H3K27me3 = 沉默待命
分析工具	CUT&Tag/ChIP-seq + deepTools + MACS2
H3.3 与 H3 差异	仅 4-5 个氨基酸