分子生物学中心法则与基因组学基础(Central Dogma & Genomics Basics)¶
一句话说明¶
中心法则(Central Dogma)描述了遗传信息从 DNA → RNA → 蛋白质的单向流动规则,它是一切生物信息学分析的理论根基——该序列比对、基因预测、功能注释、表达分析,全都建立在这条信息流之上。
1. DNA 复制(Replication)——信息的"复印"¶
白话解释¶
DNA 复制就是细胞分裂前,把自己的整本"基因说明书"完完整整地抄一份,保证每个子细胞都拿到一套完整说明书。
类比:你要交两份一模一样的作业,先把原稿拆开(双链解开),然后照着每一页各抄一份,最后得到两份完整作业。
核心要点¶
- 半保留复制(Semiconservative Replication):每个新 DNA 分子都保留一条旧链 + 一条新链
- 方向:新链只能沿 5' → 3' 方向合成(白话:DNA 聚合酶只会"往一个方向写字")
- 双向复制:从复制起点(Origin of Replication)向两个方向同时推进
关键酶(面试常考)¶
| 酶名称 | 英文 | 功能(白话) |
|---|---|---|
| 解旋酶 | Helicase | 拉开 DNA 双链的"拉链" |
| 引物酶 | Primase | 先写一小段 RNA 引物当"开头",DNA 聚合酶才能接着写 |
| DNA 聚合酶 III | DNA Polymerase III | 主力"抄写员",负责合成新链(原核) |
| DNA 聚合酶 I | DNA Polymerase I | 擦掉 RNA 引物,换成 DNA(原核) |
| DNA 连接酶 | DNA Ligase | 把冈崎片段(Okazaki Fragment)粘起来,缝合缺口 |
| 拓扑异构酶 | Topoisomerase | 解除 DNA 超螺旋的扭力 |
| 单链结合蛋白 | SSB (Single-Strand Binding Protein) | 稳住已解开的单链,防止它们重新粘回去 |
前导链 vs 滞后链¶
复制叉移动方向 →
5'────────────────────3' (模板链)
←←←← 前导链连续合成(Leading strand,一口气写到底)
3'────────────────────5' (模板链)
→→ →→ →→ 滞后链不连续合成(Lagging strand,一段一段地写 = 冈崎片段)
- 前导链(Leading Strand):沿着复制叉方向连续合成,像写一篇顺畅的文章
- 滞后链(Lagging Strand):逆着复制叉方向,一小段一小段地合成(冈崎片段),再由连接酶粘起来
生信关联¶
- 测序覆盖度(Coverage)的概念来源于"复制"思维——测序相当于对基因组多次"复制采样"
- PCR(聚合酶链式反应)本质上就是人工模拟 DNA 复制
2. 转录(Transcription)——从 DNA 到 RNA¶
白话解释¶
转录就是细胞需要某个基因的信息时,派 RNA 聚合酶去 DNA 上"抄一段笔记"(mRNA),拿着这段笔记去造蛋白质。不是把整本书都抄,而是需要哪段抄哪段。
类比:DNA 是锁在图书馆里的原版藏书(不能借出),转录就是你去图书馆抄了需要的某一章节的笔记(mRNA),拿着笔记回实验室干活。
转录过程三步走¶
- 起始(Initiation):RNA 聚合酶识别并结合到启动子(Promoter)区域
- 延伸(Elongation):RNA 聚合酶沿模板链(Template Strand)3' → 5' 方向移动,合成 mRNA(5' → 3')
- 终止(Termination):遇到终止信号(终止子),RNA 聚合酶脱离,释放 mRNA
原核 vs 真核转录的区别¶
| 对比项 | 原核生物 | 真核生物 |
|---|---|---|
| RNA 聚合酶 | 只有 1 种 | 3 种(Pol I/II/III 各管不同 RNA) |
| 启动子特征 | -10 区(TATAAT)和 -35 区 | TATA box(~-25 位置)+ 多种调控元件 |
| mRNA 加工 | 无(转录和翻译同时进行) | 需要加工:5' 加帽 + 3' 加尾 + 剪接(去内含子) |
| 转录翻译偶联 | 是(边转录边翻译) | 否(先在核内转录加工,再到细胞质翻译) |
RNA 的种类¶
| RNA 类型 | 英文全称 | 功能(白话) | 生信中遇到的场景 |
|---|---|---|---|
| mRNA | Messenger RNA(信使 RNA) | 携带蛋白质的"制造图纸" | RNA-seq 分析的主要目标 |
| tRNA | Transfer RNA(转运 RNA) | 搬运氨基酸到核糖体的"快递员" | tRNAscan-SE 预测 tRNA 基因 |
| rRNA | Ribosomal RNA(核糖体 RNA) | 核糖体的组成部分,翻译的"工厂骨架" | 16S/18S/23S rRNA 用于物种鉴定 |
| ncRNA | Non-coding RNA(非编码 RNA) | 不编码蛋白质,但参与基因调控 | miRNA/lncRNA/siRNA 分析 |
| snRNA | Small Nuclear RNA | 参与 mRNA 前体的剪接 | 剪接体分析中涉及 |
| sRNA | Small RNA(细菌小 RNA) | 原核中调控基因表达 | 宏基因组功能注释中可能遇到 |
面试要点:16S rRNA 是宏基因组和微生物组分析的核心标记基因。它在所有细菌中都存在,既有保守区(用于通用引物设计)又有可变区(V1-V9,用于物种区分)。这部分和该项目直接相关。
3. 翻译(Translation)——从 RNA 到蛋白质¶
白话解释¶
翻译就是核糖体读取 mRNA 上的密码(每 3 个碱基为一组,叫"密码子"),按顺序把对应的氨基酸串起来,造出一条蛋白质链。
类比:mRNA 是菜谱,核糖体是厨师,tRNA 是传菜员(每个传菜员手里拿着一种特定的食材/氨基酸),厨师按菜谱一步步加食材,最终做出一道菜(蛋白质)。
翻译过程三步走¶
- 起始(Initiation):核糖体小亚基结合 mRNA,识别起始密码子 AUG(编码甲硫氨酸 Met),大亚基组装
- 延伸(Elongation):tRNA 按密码子配对规则逐个送来氨基酸,肽键形成,核糖体向 3' 方向移动
- 终止(Termination):遇到终止密码子(UAA / UAG / UGA),释放因子结合,蛋白质释放
密码子表(Codon Table)——面试必背核心¶
遗传密码有 64 个密码子(4 种碱基排列组合:4³ = 64),编码 20 种氨基酸 + 3 个终止信号:
密码子特性:
- 起始密码子:AUG(编码 Met 甲硫氨酸,同时作为翻译起始信号)
- 终止密码子:UAA(赭石)/ UAG(琥珀)/ UGA(乳白)——不编码氨基酸
- 简并性(Degeneracy):多个密码子可以编码同一种氨基酸(如 Leu 有 6 个密码子)
- 通用性:几乎所有生物共用同一套密码子(少数线粒体和支原体有例外)
常考密码子速记:
| 密码子 | 氨基酸 | 记忆点 |
|---|---|---|
| AUG | Met(甲硫氨酸) | 唯一的起始密码子 |
| UAA | 终止(Stop) | 赭石(Ochre) |
| UAG | 终止(Stop) | 琥珀(Amber) |
| UGA | 终止(Stop) | 乳白(Opal),少数情况编码硒代半胱氨酸 |
| UGG | Trp(色氨酸) | 唯一只有 1 个密码子的氨基酸 |
开放阅读框 ORF(Open Reading Frame)¶
- 定义:从起始密码子(ATG/AUG)到终止密码子之间的一段连续核苷酸序列,有潜力编码蛋白质
- 白话:在 DNA 序列上找 ATG 开头、终止密码子结尾的片段,就像在一堆乱码里找出有意义的句子
- 三种阅读框:同一条 DNA 链有 3 种读法(每次移 1 个碱基开始),双链则有 6 种阅读框
- 生信应用:Prodigal、MetaGeneMark 等基因预测工具的核心任务就是找 ORF
DNA: ...A T G C C G T A A G C T...
阅读框1: ATG CCG TAA ← 这里有一个 ORF(ATG 起始,TAA 终止)
阅读框2: TGC CGT AAG CT...
阅读框3: GCC GTA AGC T...
4. 基因结构——一个基因长什么样¶
原核基因结构(简单版)¶
启动子 RBS 起始 编码区 终止 终止子
──┤├──────┤├────ATG━━━━━━━━━TGA──┤├──
Promoter 核糖体 Start CDS Stop Terminator
结合位点
- 原核基因结构相对简单:启动子 → 编码区(CDS)→ 终止子
- 多个功能相关的基因常组成操纵子(Operon),共享一个启动子,转录成一条多顺反子 mRNA(Polycistronic mRNA)
- 白话:原核生物经常把几个"配套基因"串在一起,用一个开关一起控制,像一串灯泡接在一个开关上
真核基因结构(复杂版)¶
增强子 启动子 5'UTR 外显子1 内含子1 外显子2 内含子2 外显子3 3'UTR 终止子
──┤├───┤├───┤├───█████──/////──█████──/////──█████──┤├───┤├──
Enhancer Promoter Exon Intron Exon Intron Exon
各部分功能¶
| 结构元件 | 英文 | 功能(白话) |
|---|---|---|
| 启动子 | Promoter | 基因的"开关",RNA 聚合酶从这里开始工作 |
| 增强子 | Enhancer | 远距离增强转录的"加速器",可在基因上游或下游 |
| 5' UTR | 5' Untranslated Region(非翻译区) | mRNA 前面不翻译的部分,影响翻译效率和 mRNA 稳定性 |
| 外显子 | Exon | 保留在成熟 mRNA 中,编码蛋白质的"有用段落" |
| 内含子 | Intron | 转录后被剪掉的"废话段落"(但可能含调控信息) |
| 3' UTR | 3' Untranslated Region | mRNA 后面不翻译的部分,含 polyA 信号,影响稳定性和定位 |
| 终止子 | Terminator | 转录停止的信号 |
面试要点:原核生物基本没有内含子(少数古菌有),真核生物基因中内含子可能占基因长度的 90% 以上。人类基因组中蛋白编码区只占约 1.5%。
选择性剪接(Alternative Splicing)¶
- 同一个基因的外显子可以有不同的组合方式,产生不同的 mRNA,翻译出不同的蛋白质
- 白话:同样的"素材段落",不同排列组合能写出不同的"文章"
- 人类约 20,000 个基因,却能产生约 100,000 种蛋白质,选择性剪接是关键原因之一
5. 基因组结构——不同物种的基因组差异¶
基因组大小对比(面试高频)¶
| 物种 | 基因组大小 | 染色体数 | 蛋白编码基因数 | 基因组特征 |
|---|---|---|---|---|
| 大肠杆菌 E. coli | ~4.6 Mb | 1 条环状染色体 + 质粒 | ~4,300 | 基因密度高,编码区占 ~87% |
| 酿酒酵母 S. cerevisiae | ~12 Mb | 16 条线性染色体 | ~6,000 | 最简单的真核模式生物 |
| 果蝇 D. melanogaster | ~140 Mb | 4 对(8条) | ~14,000 | 经典遗传学模式生物 |
| 拟南芥 A. thaliana | ~135 Mb | 5 对(10条) | ~27,000 | 植物模式生物 |
| 人类 H. sapiens | ~3,100 Mb (3.1 Gb) | 23 对(46条) | ~20,000 | 编码区仅占 ~1.5%,大量重复序列 |
数据来源:人类基因组数据基于 GRCh38.p14 参考基因组(2023)。
关键概念¶
| 概念 | 英文 | 白话解释 |
|---|---|---|
| 染色体 | Chromosome | DNA 和蛋白质包装在一起的"大卷轴" |
| 质粒 | Plasmid | 细菌体内的小型环状 DNA"副本",常携带抗性基因 |
| 基因密度 | Gene Density | 单位长度 DNA 上有多少个基因(原核高、真核低) |
| 基因组注释 | Genome Annotation | 给基因组序列标注"这一段是什么基因、有什么功能" |
| 参考基因组 | Reference Genome | 该物种的"标准基因组",分析时用来比对 |
| 泛基因组 | Pan-genome | 一个物种所有菌株的基因总和(核心基因 + 附属基因 + 特有基因) |
为什么原核和真核基因组差异这么大?¶
原核(如大肠杆菌):
- 基因组小(几 Mb),基因紧密排列
- 几乎没有内含子,编码区占比高 (~87%)
- 基因间区很短
- 有操纵子结构
真核(如人类):
- 基因组大(几 Gb),大量"非编码"区域
- 丰富的内含子(人类平均每个基因 8.8 个内含子)
- 大量重复序列(转座子等占人类基因组 ~45%)
- 基因调控更复杂(增强子、沉默子、染色质重塑等)
6. 基因表达调控——基因什么时候开、什么时候关¶
为什么需要调控¶
人体所有细胞的 DNA 几乎一模一样,但肝细胞和神经细胞功能完全不同——差异在于不同细胞里不同基因的"开关状态"不同。
三个主要调控层面(简述)¶
6.1 转录因子调控(Transcription Factor, TF)¶
- 转录因子是一类能结合到 DNA 特定序列(如启动子、增强子)上的蛋白质
- 白话:转录因子是"遥控器",可以打开(激活因子,Activator)或关闭(抑制因子,Repressor)基因的转录
- 生信应用:ChIP-seq 数据分析可以找到转录因子结合的基因组位点
6.2 表观遗传调控(Epigenetics)¶
- 不改变 DNA 序列本身,但通过化学修饰来调控基因表达
- 三种主要机制:
- DNA 甲基化(DNA Methylation):在 CpG 位点的胞嘧啶上加甲基(-CH₃),通常抑制基因表达。白话:给基因贴上"封条"
- 组蛋白修饰(Histone Modification):在组蛋白尾巴上加各种化学标记(乙酰化、甲基化等),影响染色质松紧程度。白话:调节 DNA "卷轴"的松紧度,松了能读,紧了读不了
- 染色质重塑(Chromatin Remodeling):改变核小体位置,影响 DNA 可及性
- 生信应用:甲基化测序(Bisulfite-seq)、ATAC-seq(检测染色质开放程度)
6.3 RNA 干扰(RNA Interference, RNAi)¶
- 小 RNA(miRNA、siRNA)通过与 mRNA 配对,导致 mRNA 降解或翻译抑制
- 白话:派"特工"(小 RNA)去精确销毁特定的 mRNA"图纸",让对应的蛋白质造不出来
- 生信应用:small RNA-seq 分析、miRNA 靶基因预测
7. 中心法则的例外——"规则"也有特殊情况¶
Crick 在 1958 年提出中心法则时说的是信息流"从核酸到蛋白质"是单向的(蛋白质不能反向指导核酸合成),但 DNA → RNA 的方向并非不可逆。
7.1 逆转录(Reverse Transcription)¶
- 定义:RNA → DNA,由逆转录酶(Reverse Transcriptase)催化
- 出现场景:
- 逆转录病毒(如 HIV):RNA 基因组 → DNA → 整合到宿主基因组
- 端粒酶(Telomerase):用自身 RNA 模板合成端粒 DNA
- 转座子(Retrotransposon):通过"复制-粘贴"机制在基因组中跳跃
- 生信应用:RNA-seq 建库时就要用逆转录酶把 RNA 变成 cDNA 才能测序
7.2 RNA 复制(RNA → RNA)¶
- 定义:以 RNA 为模板合成新 RNA,由 RNA 依赖的 RNA 聚合酶(RdRp)催化
- 出现场景:RNA 病毒(如流感病毒、新冠病毒 SARS-CoV-2)的基因组复制
- 生信关联:病毒宏基因组分析中需要理解 RNA 病毒的复制机制
7.3 朊病毒(Prion)——蛋白质传递信息?¶
- 朊病毒(如疯牛病病原体)是错误折叠的蛋白质,能诱导正常蛋白质也发生错误折叠
- 严格来说不违反中心法则(没有蛋白质 → 核酸的信息流),但是蛋白质层面的"信息传递"
中心法则完整图示¶
DNA 复制
┌──→──┐
│ │
▼ │
DNA ──────→ RNA ──────→ 蛋白质
转录 翻译
↑
└──── 逆转录 ────┘
(RNA → DNA)
RNA ──→ RNA
(RNA 复制,RNA 病毒)
8. 生信中的应用——这些知识在哪里用到¶
| 中心法则知识点 | 生信分析中的应用 |
|---|---|
| DNA 复制 | PCR 引物设计、测序覆盖度计算、克隆检测 |
| 转录(DNA→RNA) | RNA-seq 表达量分析、转录本组装(StringTie) |
| mRNA 加工(剪接) | 可变剪接分析、外显子使用率计算 |
| 翻译(RNA→蛋白质) | ORF 预测(Prodigal)、密码子偏好性分析(Codon Usage Bias) |
| 密码子表 | 基因预测中判断有效 ORF、密码子优化(合成生物学) |
| 基因结构(外显子/内含子) | 基因注释(Prokka/AUGUSTUS)、GFF/GTF 文件解读 |
| 启动子 | 启动子预测工具、调控区域分析 |
| 16S rRNA | 物种分类(QIIME2、DADA2)——你项目的核心 |
| 逆转录 | RNA-seq 建库原理(RNA → cDNA → 测序) |
| DNA 甲基化 | 甲基化分析(Bismark)、PacBio 直接检测修饰碱基 |
| 基因组大小差异 | 选择合适的测序深度和组装策略 |
| 泛基因组 | 菌株比较分析(Roary、PPanGGOLiN) |
与该项目直接相关¶
在该 2 型糖尿病肠道菌群宏基因组项目中:
- 16S rRNA 分析:利用 rRNA 基因的保守区和可变区做物种鉴定
- 基因预测:Prodigal 在宏基因组 contigs 上预测 ORF
- 功能注释:预测出的蛋白质序列比对 KEGG/COG/eggNOG 数据库
- 菌群组成差异:不同组(T2D vs 健康对照)的菌群结构差异本质上反映了不同细菌基因组的相对丰度差异
9. 面试怎么答(高频真题 + 参考答案)¶
Q1:请解释中心法则¶
参考答案:中心法则由 Crick 在 1958 年提出,描述遗传信息的流动方向:DNA 通过复制传递给下一代,通过转录产生 RNA,RNA 通过翻译合成蛋白质。信息流的方向是 DNA → RNA → 蛋白质。但也有例外情况:逆转录病毒可以将 RNA 逆转录为 DNA,RNA 病毒可以进行 RNA 复制。核心要点是信息不能从蛋白质回流到核酸。
Q2:原核和真核基因转录有什么区别?¶
参考答案:主要有四个区别:(1)原核只有一种 RNA 聚合酶,真核有三种(Pol I 转录 rRNA、Pol II 转录 mRNA、Pol III 转录 tRNA 和 5S rRNA);(2)原核 mRNA 不需要加工即可翻译,真核需要 5' 加帽、3' 加 polyA 尾、内含子剪接;(3)原核转录和翻译可以同时进行(偶联),真核在核内转录、在细胞质翻译,时空分离;(4)原核有操纵子结构,一条 mRNA 可编码多个蛋白,真核通常是单顺反子。
Q3:什么是 ORF?在生信中怎么用?¶
参考答案:ORF(Open Reading Frame,开放阅读框)是从起始密码子 ATG 到终止密码子(TAA/TAG/TGA)之间的一段连续核苷酸序列,有潜力编码蛋白质。一条双链 DNA 有 6 种可能的阅读框(每条链 3 种)。在生信中,基因预测工具如 Prodigal(针对原核)和 AUGUSTUS(针对真核)的核心任务就是在基因组序列中找到真正编码蛋白的 ORF。在宏基因组分析中,用 Prodigal 预测 contig 上的 ORF 后,将翻译出的蛋白质序列进行功能注释。
Q4:为什么人类只有约 2 万个基因,却能产生十几万种蛋白质?¶
参考答案:主要有三个机制:(1)选择性剪接(Alternative Splicing)——同一基因的外显子有不同的拼接方式,可以产生不同的 mRNA 和蛋白质,这是最主要的原因;(2)翻译后修饰(Post-translational Modification)——蛋白质合成后可以被磷酸化、糖基化、泛素化等修饰,产生功能不同的变体;(3)RNA 编辑——在 mRNA 水平改变个别碱基,改变编码信息。
Q5:表观遗传学和生信分析有什么关系?¶
参考答案:表观遗传修饰不改变 DNA 序列但影响基因表达,主要包括 DNA 甲基化和组蛋白修饰。在生信分析中:DNA 甲基化可以通过 Bisulfite-seq 检测,用 Bismark 等工具分析;组蛋白修饰通过 ChIP-seq 检测;染色质可及性通过 ATAC-seq 检测。在宏基因组领域,PacBio 三代测序可以直接检测细菌基因组的甲基化修饰模式,这与细菌的限制-修饰系统相关,有助于分析菌株水平的表观遗传多样性。
Q6:密码子简并性是什么?有什么生物学意义?¶
参考答案:密码子简并性是指多个不同的密码子可以编码同一种氨基酸。例如亮氨酸(Leu)有 6 个密码子。64 个密码子编码 20 种氨基酸加 3 个终止信号,必然存在"一对多"。生物学意义:(1)缓冲突变——第三位碱基(摇摆位)的突变往往不改变氨基酸,减少有害突变的概率;(2)密码子偏好性(Codon Usage Bias)——不同物种对编码同一氨基酸的密码子有不同偏好,这在生信中用于分析基因水平转移(HGT)和密码子优化。
10. 速查表¶
中心法则信息流¶
| 过程 | 方向 | 催化酶 | 模板 | 产物 |
|---|---|---|---|---|
| DNA 复制 | DNA → DNA | DNA 聚合酶 | 双链 DNA | 双链 DNA |
| 转录 | DNA → RNA | RNA 聚合酶 | DNA 模板链 | mRNA/tRNA/rRNA |
| 翻译 | RNA → 蛋白质 | 核糖体 | mRNA | 多肽链(蛋白质) |
| 逆转录 | RNA → DNA | 逆转录酶 | RNA | cDNA |
| RNA 复制 | RNA → RNA | RdRp | RNA | RNA |
核酸碱基配对¶
DNA 双链配对:A=T(2 个氢键) G≡C(3 个氢键)
DNA → RNA 转录:A→U T→A G→C C→G
密码子-反密码子配对:mRNA 密码子 5'→3' 与 tRNA 反密码子 3'→5' 互补
基因注释文件格式速查¶
| 格式 | 全称 | 用途 |
|---|---|---|
| GFF3 | General Feature Format v3 | 通用基因组注释格式 |
| GTF | Gene Transfer Format | RNA-seq 分析常用(类似 GFF2) |
| BED | Browser Extensible Data | 基因组区间(如外显子坐标) |
| GenBank | - | NCBI 常用的序列+注释混合格式 |
常用基因预测工具¶
| 工具 | 适用对象 | 说明 |
|---|---|---|
| Prodigal | 原核基因组/宏基因组 | 你项目中用到的 ORF 预测工具 |
| MetaGeneMark | 宏基因组 | 另一个宏基因组基因预测工具 |
| AUGUSTUS | 真核基因组 | 基于隐马尔可夫模型(HMM)的真核基因预测 |
| GeneMark | 原核/真核 | 通用基因预测 |
| Prokka | 原核基因组 | 一站式原核基因组注释流水线 |
| tRNAscan-SE | 所有物种 | 专门预测 tRNA 基因 |
| Barrnap | 原核 | 预测 rRNA 基因 |
11. 延伸资源¶
入门教材¶
- 《分子生物学》(Molecular Biology of the Gene) - Watson 等著,经典教材
- 《基因的分子生物学》中文版 - 适合中文学习
- Khan Academy 分子生物学课程(免费视频,英文但有字幕)
在线资源¶
- NCBI Bookshelf - Molecular Biology of the Cell(免费在线阅读)
- Coursera "Biology Meets Programming"(生物学编程入门)
- B 站搜索"中心法则"——有很多中文讲解视频
生信工具文档¶
- Prodigal GitHub 文档:原核 ORF 预测工具的参数和使用方法
- Prokka 文档:原核基因组注释流水线
- NCBI Genetic Codes 页面:查看标准和非标准密码子表
与本项目知识库其他篇目的关联¶
- 本篇是理论基础,实操部分参考:
01_宏基因组全流程.md— 从测序到功能注释的完整流水线04_细菌基因组.md— 细菌基因组组装和注释的具体操作13_测序技术原理.md— 测序平台的技术细节(本篇不重复)14_比对与组装工具.md— 序列比对和基因组组装工具
最后提醒:中心法则不是死记硬背的公式,而是贯穿所有生信分析的底层逻辑。面试时先说框架(DNA→RNA→蛋白质),再根据具体问题展开细节,展示你理解"为什么要做这步分析"背后的生物学原理。