跳转至

分子生物学中心法则与基因组学基础(Central Dogma & Genomics Basics)


一句话说明

中心法则(Central Dogma)描述了遗传信息从 DNA → RNA → 蛋白质的单向流动规则,它是一切生物信息学分析的理论根基——该序列比对、基因预测、功能注释、表达分析,全都建立在这条信息流之上。


1. DNA 复制(Replication)——信息的"复印"

白话解释

DNA 复制就是细胞分裂前,把自己的整本"基因说明书"完完整整地抄一份,保证每个子细胞都拿到一套完整说明书。

类比:你要交两份一模一样的作业,先把原稿拆开(双链解开),然后照着每一页各抄一份,最后得到两份完整作业。

核心要点

  • 半保留复制(Semiconservative Replication):每个新 DNA 分子都保留一条旧链 + 一条新链
  • 方向:新链只能沿 5' → 3' 方向合成(白话:DNA 聚合酶只会"往一个方向写字")
  • 双向复制:从复制起点(Origin of Replication)向两个方向同时推进

关键酶(面试常考)

酶名称英文功能(白话)
解旋酶Helicase拉开 DNA 双链的"拉链"
引物酶Primase先写一小段 RNA 引物当"开头",DNA 聚合酶才能接着写
DNA 聚合酶 IIIDNA Polymerase III主力"抄写员",负责合成新链(原核)
DNA 聚合酶 IDNA Polymerase I擦掉 RNA 引物,换成 DNA(原核)
DNA 连接酶DNA Ligase把冈崎片段(Okazaki Fragment)粘起来,缝合缺口
拓扑异构酶Topoisomerase解除 DNA 超螺旋的扭力
单链结合蛋白SSB (Single-Strand Binding Protein)稳住已解开的单链,防止它们重新粘回去

前导链 vs 滞后链

复制叉移动方向 →

5'────────────────────3'  (模板链)
    ←←←← 前导链连续合成(Leading strand,一口气写到底)
3'────────────────────5'  (模板链)
    →→  →→  →→  滞后链不连续合成(Lagging strand,一段一段地写 = 冈崎片段)
  • 前导链(Leading Strand):沿着复制叉方向连续合成,像写一篇顺畅的文章
  • 滞后链(Lagging Strand):逆着复制叉方向,一小段一小段地合成(冈崎片段),再由连接酶粘起来

生信关联

  • 测序覆盖度(Coverage)的概念来源于"复制"思维——测序相当于对基因组多次"复制采样"
  • PCR(聚合酶链式反应)本质上就是人工模拟 DNA 复制

2. 转录(Transcription)——从 DNA 到 RNA

白话解释

转录就是细胞需要某个基因的信息时,派 RNA 聚合酶去 DNA 上"抄一段笔记"(mRNA),拿着这段笔记去造蛋白质。不是把整本书都抄,而是需要哪段抄哪段。

类比:DNA 是锁在图书馆里的原版藏书(不能借出),转录就是你去图书馆抄了需要的某一章节的笔记(mRNA),拿着笔记回实验室干活。

转录过程三步走

  1. 起始(Initiation):RNA 聚合酶识别并结合到启动子(Promoter)区域
  2. 延伸(Elongation):RNA 聚合酶沿模板链(Template Strand)3' → 5' 方向移动,合成 mRNA(5' → 3')
  3. 终止(Termination):遇到终止信号(终止子),RNA 聚合酶脱离,释放 mRNA

原核 vs 真核转录的区别

对比项原核生物真核生物
RNA 聚合酶只有 1 种3 种(Pol I/II/III 各管不同 RNA)
启动子特征-10 区(TATAAT)和 -35 区TATA box(~-25 位置)+ 多种调控元件
mRNA 加工无(转录和翻译同时进行)需要加工:5' 加帽 + 3' 加尾 + 剪接(去内含子)
转录翻译偶联是(边转录边翻译)否(先在核内转录加工,再到细胞质翻译)

RNA 的种类

RNA 类型英文全称功能(白话)生信中遇到的场景
mRNAMessenger RNA(信使 RNA)携带蛋白质的"制造图纸"RNA-seq 分析的主要目标
tRNATransfer RNA(转运 RNA)搬运氨基酸到核糖体的"快递员"tRNAscan-SE 预测 tRNA 基因
rRNARibosomal RNA(核糖体 RNA)核糖体的组成部分,翻译的"工厂骨架"16S/18S/23S rRNA 用于物种鉴定
ncRNANon-coding RNA(非编码 RNA)不编码蛋白质,但参与基因调控miRNA/lncRNA/siRNA 分析
snRNASmall Nuclear RNA参与 mRNA 前体的剪接剪接体分析中涉及
sRNASmall RNA(细菌小 RNA)原核中调控基因表达宏基因组功能注释中可能遇到

面试要点:16S rRNA 是宏基因组和微生物组分析的核心标记基因。它在所有细菌中都存在,既有保守区(用于通用引物设计)又有可变区(V1-V9,用于物种区分)。这部分和该项目直接相关。


3. 翻译(Translation)——从 RNA 到蛋白质

白话解释

翻译就是核糖体读取 mRNA 上的密码(每 3 个碱基为一组,叫"密码子"),按顺序把对应的氨基酸串起来,造出一条蛋白质链。

类比:mRNA 是菜谱,核糖体是厨师,tRNA 是传菜员(每个传菜员手里拿着一种特定的食材/氨基酸),厨师按菜谱一步步加食材,最终做出一道菜(蛋白质)。

翻译过程三步走

  1. 起始(Initiation):核糖体小亚基结合 mRNA,识别起始密码子 AUG(编码甲硫氨酸 Met),大亚基组装
  2. 延伸(Elongation):tRNA 按密码子配对规则逐个送来氨基酸,肽键形成,核糖体向 3' 方向移动
  3. 终止(Termination):遇到终止密码子(UAA / UAG / UGA),释放因子结合,蛋白质释放

密码子表(Codon Table)——面试必背核心

遗传密码有 64 个密码子(4 种碱基排列组合:4³ = 64),编码 20 种氨基酸 + 3 个终止信号:

密码子特性:
- 起始密码子:AUG(编码 Met 甲硫氨酸,同时作为翻译起始信号)
- 终止密码子:UAA(赭石)/ UAG(琥珀)/ UGA(乳白)——不编码氨基酸
- 简并性(Degeneracy):多个密码子可以编码同一种氨基酸(如 Leu 有 6 个密码子)
- 通用性:几乎所有生物共用同一套密码子(少数线粒体和支原体有例外)

常考密码子速记

密码子氨基酸记忆点
AUGMet(甲硫氨酸)唯一的起始密码子
UAA终止(Stop)赭石(Ochre)
UAG终止(Stop)琥珀(Amber)
UGA终止(Stop)乳白(Opal),少数情况编码硒代半胱氨酸
UGGTrp(色氨酸)唯一只有 1 个密码子的氨基酸

开放阅读框 ORF(Open Reading Frame)

  • 定义:从起始密码子(ATG/AUG)到终止密码子之间的一段连续核苷酸序列,有潜力编码蛋白质
  • 白话:在 DNA 序列上找 ATG 开头、终止密码子结尾的片段,就像在一堆乱码里找出有意义的句子
  • 三种阅读框:同一条 DNA 链有 3 种读法(每次移 1 个碱基开始),双链则有 6 种阅读框
  • 生信应用:Prodigal、MetaGeneMark 等基因预测工具的核心任务就是找 ORF
DNA: ...A T G C C G T A A G C T...
阅读框1:  ATG CCG TAA ← 这里有一个 ORF(ATG 起始,TAA 终止)
阅读框2:   TGC CGT AAG CT...
阅读框3:    GCC GTA AGC T...

4. 基因结构——一个基因长什么样

原核基因结构(简单版)

 启动子      RBS    起始    编码区    终止    终止子
──┤├──────┤├────ATG━━━━━━━━━TGA──┤├──
  Promoter  核糖体    Start  CDS      Stop  Terminator
            结合位点
  • 原核基因结构相对简单:启动子 → 编码区(CDS)→ 终止子
  • 多个功能相关的基因常组成操纵子(Operon),共享一个启动子,转录成一条多顺反子 mRNA(Polycistronic mRNA)
  • 白话:原核生物经常把几个"配套基因"串在一起,用一个开关一起控制,像一串灯泡接在一个开关上

真核基因结构(复杂版)

 增强子  启动子  5'UTR  外显子1  内含子1  外显子2  内含子2  外显子3  3'UTR  终止子
──┤├───┤├───┤├───█████──/////──█████──/////──█████──┤├───┤├──
Enhancer Promoter       Exon    Intron   Exon    Intron   Exon

各部分功能

结构元件英文功能(白话)
启动子Promoter基因的"开关",RNA 聚合酶从这里开始工作
增强子Enhancer远距离增强转录的"加速器",可在基因上游或下游
5' UTR5' Untranslated Region(非翻译区)mRNA 前面不翻译的部分,影响翻译效率和 mRNA 稳定性
外显子Exon保留在成熟 mRNA 中,编码蛋白质的"有用段落"
内含子Intron转录后被剪掉的"废话段落"(但可能含调控信息)
3' UTR3' Untranslated RegionmRNA 后面不翻译的部分,含 polyA 信号,影响稳定性和定位
终止子Terminator转录停止的信号

面试要点:原核生物基本没有内含子(少数古菌有),真核生物基因中内含子可能占基因长度的 90% 以上。人类基因组中蛋白编码区只占约 1.5%。

选择性剪接(Alternative Splicing)

  • 同一个基因的外显子可以有不同的组合方式,产生不同的 mRNA,翻译出不同的蛋白质
  • 白话:同样的"素材段落",不同排列组合能写出不同的"文章"
  • 人类约 20,000 个基因,却能产生约 100,000 种蛋白质,选择性剪接是关键原因之一

5. 基因组结构——不同物种的基因组差异

基因组大小对比(面试高频)

物种基因组大小染色体数蛋白编码基因数基因组特征
大肠杆菌 E. coli~4.6 Mb1 条环状染色体 + 质粒~4,300基因密度高,编码区占 ~87%
酿酒酵母 S. cerevisiae~12 Mb16 条线性染色体~6,000最简单的真核模式生物
果蝇 D. melanogaster~140 Mb4 对(8条)~14,000经典遗传学模式生物
拟南芥 A. thaliana~135 Mb5 对(10条)~27,000植物模式生物
人类 H. sapiens~3,100 Mb (3.1 Gb)23 对(46条)~20,000编码区仅占 ~1.5%,大量重复序列

数据来源:人类基因组数据基于 GRCh38.p14 参考基因组(2023)。

关键概念

概念英文白话解释
染色体ChromosomeDNA 和蛋白质包装在一起的"大卷轴"
质粒Plasmid细菌体内的小型环状 DNA"副本",常携带抗性基因
基因密度Gene Density单位长度 DNA 上有多少个基因(原核高、真核低)
基因组注释Genome Annotation给基因组序列标注"这一段是什么基因、有什么功能"
参考基因组Reference Genome该物种的"标准基因组",分析时用来比对
泛基因组Pan-genome一个物种所有菌株的基因总和(核心基因 + 附属基因 + 特有基因)

为什么原核和真核基因组差异这么大?

原核(如大肠杆菌):
  - 基因组小(几 Mb),基因紧密排列
  - 几乎没有内含子,编码区占比高 (~87%)
  - 基因间区很短
  - 有操纵子结构

真核(如人类):
  - 基因组大(几 Gb),大量"非编码"区域
  - 丰富的内含子(人类平均每个基因 8.8 个内含子)
  - 大量重复序列(转座子等占人类基因组 ~45%)
  - 基因调控更复杂(增强子、沉默子、染色质重塑等)

6. 基因表达调控——基因什么时候开、什么时候关

为什么需要调控

人体所有细胞的 DNA 几乎一模一样,但肝细胞和神经细胞功能完全不同——差异在于不同细胞里不同基因的"开关状态"不同。

三个主要调控层面(简述)

6.1 转录因子调控(Transcription Factor, TF)

  • 转录因子是一类能结合到 DNA 特定序列(如启动子、增强子)上的蛋白质
  • 白话:转录因子是"遥控器",可以打开(激活因子,Activator)或关闭(抑制因子,Repressor)基因的转录
  • 生信应用:ChIP-seq 数据分析可以找到转录因子结合的基因组位点

6.2 表观遗传调控(Epigenetics)

  • 不改变 DNA 序列本身,但通过化学修饰来调控基因表达
  • 三种主要机制:
  • DNA 甲基化(DNA Methylation):在 CpG 位点的胞嘧啶上加甲基(-CH₃),通常抑制基因表达。白话:给基因贴上"封条"
  • 组蛋白修饰(Histone Modification):在组蛋白尾巴上加各种化学标记(乙酰化、甲基化等),影响染色质松紧程度。白话:调节 DNA "卷轴"的松紧度,松了能读,紧了读不了
  • 染色质重塑(Chromatin Remodeling):改变核小体位置,影响 DNA 可及性
  • 生信应用:甲基化测序(Bisulfite-seq)、ATAC-seq(检测染色质开放程度)

6.3 RNA 干扰(RNA Interference, RNAi)

  • 小 RNA(miRNA、siRNA)通过与 mRNA 配对,导致 mRNA 降解或翻译抑制
  • 白话:派"特工"(小 RNA)去精确销毁特定的 mRNA"图纸",让对应的蛋白质造不出来
  • 生信应用:small RNA-seq 分析、miRNA 靶基因预测

7. 中心法则的例外——"规则"也有特殊情况

Crick 在 1958 年提出中心法则时说的是信息流"从核酸到蛋白质"是单向的(蛋白质不能反向指导核酸合成),但 DNA → RNA 的方向并非不可逆。

7.1 逆转录(Reverse Transcription)

  • 定义:RNA → DNA,由逆转录酶(Reverse Transcriptase)催化
  • 出现场景
  • 逆转录病毒(如 HIV):RNA 基因组 → DNA → 整合到宿主基因组
  • 端粒酶(Telomerase):用自身 RNA 模板合成端粒 DNA
  • 转座子(Retrotransposon):通过"复制-粘贴"机制在基因组中跳跃
  • 生信应用:RNA-seq 建库时就要用逆转录酶把 RNA 变成 cDNA 才能测序

7.2 RNA 复制(RNA → RNA)

  • 定义:以 RNA 为模板合成新 RNA,由 RNA 依赖的 RNA 聚合酶(RdRp)催化
  • 出现场景:RNA 病毒(如流感病毒、新冠病毒 SARS-CoV-2)的基因组复制
  • 生信关联:病毒宏基因组分析中需要理解 RNA 病毒的复制机制

7.3 朊病毒(Prion)——蛋白质传递信息?

  • 朊病毒(如疯牛病病原体)是错误折叠的蛋白质,能诱导正常蛋白质也发生错误折叠
  • 严格来说不违反中心法则(没有蛋白质 → 核酸的信息流),但是蛋白质层面的"信息传递"

中心法则完整图示

          DNA 复制
          ┌──→──┐
          │     │
          ▼     │
   DNA ──────→ RNA ──────→ 蛋白质
          转录       翻译
    └──── 逆转录 ────┘          
    (RNA → DNA)              

   RNA ──→ RNA                 
   (RNA 复制,RNA 病毒)       

8. 生信中的应用——这些知识在哪里用到

中心法则知识点生信分析中的应用
DNA 复制PCR 引物设计、测序覆盖度计算、克隆检测
转录(DNA→RNA)RNA-seq 表达量分析、转录本组装(StringTie)
mRNA 加工(剪接)可变剪接分析、外显子使用率计算
翻译(RNA→蛋白质)ORF 预测(Prodigal)、密码子偏好性分析(Codon Usage Bias)
密码子表基因预测中判断有效 ORF、密码子优化(合成生物学)
基因结构(外显子/内含子)基因注释(Prokka/AUGUSTUS)、GFF/GTF 文件解读
启动子启动子预测工具、调控区域分析
16S rRNA物种分类(QIIME2、DADA2)——你项目的核心
逆转录RNA-seq 建库原理(RNA → cDNA → 测序)
DNA 甲基化甲基化分析(Bismark)、PacBio 直接检测修饰碱基
基因组大小差异选择合适的测序深度和组装策略
泛基因组菌株比较分析(Roary、PPanGGOLiN)

与该项目直接相关

在该 2 型糖尿病肠道菌群宏基因组项目中:

  1. 16S rRNA 分析:利用 rRNA 基因的保守区和可变区做物种鉴定
  2. 基因预测:Prodigal 在宏基因组 contigs 上预测 ORF
  3. 功能注释:预测出的蛋白质序列比对 KEGG/COG/eggNOG 数据库
  4. 菌群组成差异:不同组(T2D vs 健康对照)的菌群结构差异本质上反映了不同细菌基因组的相对丰度差异

9. 面试怎么答(高频真题 + 参考答案)

Q1:请解释中心法则

参考答案:中心法则由 Crick 在 1958 年提出,描述遗传信息的流动方向:DNA 通过复制传递给下一代,通过转录产生 RNA,RNA 通过翻译合成蛋白质。信息流的方向是 DNA → RNA → 蛋白质。但也有例外情况:逆转录病毒可以将 RNA 逆转录为 DNA,RNA 病毒可以进行 RNA 复制。核心要点是信息不能从蛋白质回流到核酸。

Q2:原核和真核基因转录有什么区别?

参考答案:主要有四个区别:(1)原核只有一种 RNA 聚合酶,真核有三种(Pol I 转录 rRNA、Pol II 转录 mRNA、Pol III 转录 tRNA 和 5S rRNA);(2)原核 mRNA 不需要加工即可翻译,真核需要 5' 加帽、3' 加 polyA 尾、内含子剪接;(3)原核转录和翻译可以同时进行(偶联),真核在核内转录、在细胞质翻译,时空分离;(4)原核有操纵子结构,一条 mRNA 可编码多个蛋白,真核通常是单顺反子。

Q3:什么是 ORF?在生信中怎么用?

参考答案:ORF(Open Reading Frame,开放阅读框)是从起始密码子 ATG 到终止密码子(TAA/TAG/TGA)之间的一段连续核苷酸序列,有潜力编码蛋白质。一条双链 DNA 有 6 种可能的阅读框(每条链 3 种)。在生信中,基因预测工具如 Prodigal(针对原核)和 AUGUSTUS(针对真核)的核心任务就是在基因组序列中找到真正编码蛋白的 ORF。在宏基因组分析中,用 Prodigal 预测 contig 上的 ORF 后,将翻译出的蛋白质序列进行功能注释。

Q4:为什么人类只有约 2 万个基因,却能产生十几万种蛋白质?

参考答案:主要有三个机制:(1)选择性剪接(Alternative Splicing)——同一基因的外显子有不同的拼接方式,可以产生不同的 mRNA 和蛋白质,这是最主要的原因;(2)翻译后修饰(Post-translational Modification)——蛋白质合成后可以被磷酸化、糖基化、泛素化等修饰,产生功能不同的变体;(3)RNA 编辑——在 mRNA 水平改变个别碱基,改变编码信息。

Q5:表观遗传学和生信分析有什么关系?

参考答案:表观遗传修饰不改变 DNA 序列但影响基因表达,主要包括 DNA 甲基化和组蛋白修饰。在生信分析中:DNA 甲基化可以通过 Bisulfite-seq 检测,用 Bismark 等工具分析;组蛋白修饰通过 ChIP-seq 检测;染色质可及性通过 ATAC-seq 检测。在宏基因组领域,PacBio 三代测序可以直接检测细菌基因组的甲基化修饰模式,这与细菌的限制-修饰系统相关,有助于分析菌株水平的表观遗传多样性。

Q6:密码子简并性是什么?有什么生物学意义?

参考答案:密码子简并性是指多个不同的密码子可以编码同一种氨基酸。例如亮氨酸(Leu)有 6 个密码子。64 个密码子编码 20 种氨基酸加 3 个终止信号,必然存在"一对多"。生物学意义:(1)缓冲突变——第三位碱基(摇摆位)的突变往往不改变氨基酸,减少有害突变的概率;(2)密码子偏好性(Codon Usage Bias)——不同物种对编码同一氨基酸的密码子有不同偏好,这在生信中用于分析基因水平转移(HGT)和密码子优化。


10. 速查表

中心法则信息流

过程方向催化酶模板产物
DNA 复制DNA → DNADNA 聚合酶双链 DNA双链 DNA
转录DNA → RNARNA 聚合酶DNA 模板链mRNA/tRNA/rRNA
翻译RNA → 蛋白质核糖体mRNA多肽链(蛋白质)
逆转录RNA → DNA逆转录酶RNAcDNA
RNA 复制RNA → RNARdRpRNARNA

核酸碱基配对

DNA 双链配对:A=T(2 个氢键)   G≡C(3 个氢键)
DNA → RNA 转录:A→U  T→A  G→C  C→G
密码子-反密码子配对:mRNA 密码子 5'→3' 与 tRNA 反密码子 3'→5' 互补

基因注释文件格式速查

格式全称用途
GFF3General Feature Format v3通用基因组注释格式
GTFGene Transfer FormatRNA-seq 分析常用(类似 GFF2)
BEDBrowser Extensible Data基因组区间(如外显子坐标)
GenBank-NCBI 常用的序列+注释混合格式

常用基因预测工具

工具适用对象说明
Prodigal原核基因组/宏基因组你项目中用到的 ORF 预测工具
MetaGeneMark宏基因组另一个宏基因组基因预测工具
AUGUSTUS真核基因组基于隐马尔可夫模型(HMM)的真核基因预测
GeneMark原核/真核通用基因预测
Prokka原核基因组一站式原核基因组注释流水线
tRNAscan-SE所有物种专门预测 tRNA 基因
Barrnap原核预测 rRNA 基因

11. 延伸资源

入门教材

  • 《分子生物学》(Molecular Biology of the Gene) - Watson 等著,经典教材
  • 《基因的分子生物学》中文版 - 适合中文学习
  • Khan Academy 分子生物学课程(免费视频,英文但有字幕)

在线资源

  • NCBI Bookshelf - Molecular Biology of the Cell(免费在线阅读)
  • Coursera "Biology Meets Programming"(生物学编程入门)
  • B 站搜索"中心法则"——有很多中文讲解视频

生信工具文档

  • Prodigal GitHub 文档:原核 ORF 预测工具的参数和使用方法
  • Prokka 文档:原核基因组注释流水线
  • NCBI Genetic Codes 页面:查看标准和非标准密码子表

与本项目知识库其他篇目的关联

  • 本篇是理论基础,实操部分参考:
  • 01_宏基因组全流程.md — 从测序到功能注释的完整流水线
  • 04_细菌基因组.md — 细菌基因组组装和注释的具体操作
  • 13_测序技术原理.md — 测序平台的技术细节(本篇不重复)
  • 14_比对与组装工具.md — 序列比对和基因组组装工具

最后提醒:中心法则不是死记硬背的公式,而是贯穿所有生信分析的底层逻辑。面试时先说框架(DNA→RNA→蛋白质),再根据具体问题展开细节,展示你理解"为什么要做这步分析"背后的生物学原理。