跳转至

842. 合成生物学前沿

一句话概述:合成生物学 = 用工程化思维设计和构建新的生物系统,生信在其中负责基因线路设计、代谢通路优化和基因组编辑的计算支持。

核心知识点速查表

方向说明生信角色
基因线路设计设计基因开关、振荡器等数学建模+仿真
代谢工程优化微生物生产化学品代谢通路分析(FBA)
基因组编辑CRISPR设计和脱靶预测sgRNA设计+脱靶分析
DNA合成人工合成基因/基因组密码子优化+序列设计
底盘细胞最小基因组设计必需基因预测
生物传感器检测环境分子调控元件数据库

一、白话理解合成生物学

传统生物学 = 观察自然、理解生命
合成生物学 = 设计新的生命功能

类比:
传统生物学 ≈ 研究汽车怎么跑的
合成生物学 ≈ 自己造一辆新车

核心理念:
→ DNA是"生命的代码"
→ 基因是"零件"
→ 调控元件是"开关"
→ 代谢通路是"生产线"
→ 细胞是"工厂"

目标:把这些零件组装起来,让细胞做我们想做的事
→ 让大肠杆菌生产青蒿素(抗疟疾药)
→ 让酵母生产蜘蛛丝蛋白(超级材料)
→ 让细菌检测水中的砷(生物传感器)

二、CRISPR设计(生信核心应用)

2.1 sgRNA设计

# CRISPR sgRNA设计 —— 生信常见任务

# 方法1:使用CRISPRscan/Azimuth进行评分
# 方法2:使用Python自行设计

def find_crispr_targets(sequence, pam="NGG"):
    """在序列中寻找所有CRISPR靶位点"""
    targets = []                        # 存储所有靶位点
    for i in range(len(sequence) - 23): # 遍历序列
        site = sequence[i:i+23]         # 20bp guide + 3bp PAM
        if site[21:23] == "GG":         # 检查PAM (NGG)
            guide = site[:20]           # 提取20bp引导序列
            gc_content = (              # 计算GC含量
                guide.count('G') + guide.count('C')
            ) / len(guide) * 100
            if 30 <= gc_content <= 70:  # GC含量30-70%为好
                targets.append({
                    'position': i,      # 位置
                    'guide': guide,     # 引导序列
                    'pam': site[20:23], # PAM序列
                    'gc': gc_content    # GC含量
                })
    return targets

# 使用示例
targets = find_crispr_targets(gene_sequence)  # 寻找靶位点
for t in targets[:5]:                  # 显示前5个
    print(f"位置:{t['position']} "
          f"序列:{t['guide']} "
          f"GC:{t['gc']:.1f}%")

2.2 脱靶分析

# Cas-OFFinder —— CRISPR脱靶位点预测

# 准备输入文件
cat input.txt
# /path/to/genome.fa                   # 参考基因组
# NNNNNNNNNNNNNNNNNNNNNGG              # PAM模式
# ATCGATCGATCGATCGATCG NNN 3           # 引导序列 PAM 允许错配数

# 运行脱靶分析
cas-offinder input.txt C output.txt    # C=CPU模式

# 输出解读
# 每行:染色体 位置 脱靶序列 方向 错配数
# 错配数越少 → 脱靶风险越高
# 面试考点:为什么CRISPR需要脱靶分析?
# → 防止编辑错误位置导致意外突变

三、代谢工程与通路分析

# 基于约束的代谢分析 (FBA - Flux Balance Analysis)
# 用于预测微生物代谢通路的最优流量分布

# COBRApy —— 代谢网络分析工具
import cobra                           # 导入COBRApy

# 加载代谢模型
model = cobra.io.read_sbml_model(      # 读取SBML格式模型
    "e_coli_core.xml"                  # 大肠杆菌核心代谢模型
)

# 查看模型信息
print(f"反应数: {len(model.reactions)}")    # 反应数量
print(f"代谢物数: {len(model.metabolites)}")# 代谢物数量
print(f"基因数: {len(model.genes)}")        # 基因数量

# 运行FBA(最大化生长速率)
solution = model.optimize()            # 优化
print(f"最大生长速率: {solution.objective_value:.4f}")

# 基因敲除模拟
with model:                            # 使用上下文管理器
    model.genes.get_by_id("b1241").knock_out()  # 模拟敲除adhE基因
    ko_solution = model.optimize()     # 重新优化
    print(f"敲除后生长速率: {ko_solution.objective_value:.4f}")

# 产物合成优化
with model:
    # 设置目标为最大化目标产物
    model.objective = "EX_etoh_e"      # 最大化乙醇产量
    solution = model.optimize()
    print(f"最大乙醇产量: {solution.objective_value:.4f}")

四、密码子优化

# 密码子优化 —— 让外源基因在宿主中高效表达

from dnachisel import DnaOptimizationProblem  # DNA优化库
from dnachisel import CodonOptimize           # 密码子优化

problem = DnaOptimizationProblem(
    sequence=original_gene_sequence,   # 原始基因序列
    objectives=[
        CodonOptimize(                 # 密码子优化目标
            species='e_coli'           # 目标宿主:大肠杆菌
        )
    ],
    constraints=[                      # 约束条件
        # 避免限制性酶切位点
        # 避免重复序列
        # GC含量控制在40-60%
    ]
)

problem.resolve_constraints()          # 满足约束
problem.optimize()                     # 优化密码子使用

optimized_sequence = problem.sequence  # 获取优化后序列
print(f"优化前CAI: {original_cai}")    # 密码子适应指数
print(f"优化后CAI: {optimized_cai}")   # 应该接近1.0

五、合成生物学数据库

数据库内容网址
iGEM Registry标准生物零件库parts.igem.org
KEGG代谢通路数据库kegg.jp
BiGG Models基因组尺度代谢模型bigg.ucsd.edu
SynBioHub合成生物学设计共享synbiohub.org
Addgene质粒共享平台addgene.org

六、面试高频问题

  1. Q: 生信在合成生物学中的角色是什么? A: 计算设计支持——CRISPR靶位点设计和脱靶预测、密码子优化、代谢通路分析(FBA)、基因线路建模仿真。

  2. Q: 什么是FBA? A: 通量平衡分析,基于代谢网络的化学计量矩阵和稳态假设,通过线性规划预测最优代谢通量分布。比如预测敲除某基因后细菌还能不能生长。

  3. Q: CRISPR设计中最重要的考虑是什么? A: 脱靶效应。需要计算工具预测引导RNA在基因组其他位置的可能结合位点,选择脱靶风险最低的靶位点。

常见报错与解决

问题解决
COBRApy模型不可行(infeasible)检查培养基成分设置和模型约束
sgRNA没有靶位点扩大搜索区域或允许更多PAM变体
密码子优化后表达仍低考虑mRNA二级结构、启动子强度等因素

速查表

# CRISPR设计工具
在线:CRISPOR, Benchling, Cas-OFFinder
Python:crispr-cas12a, crispr-tools

# 代谢分析
COBRApy:  Python代谢网络分析
Escher:   代谢通路可视化
OptFlux:  代谢工程优化

# 密码子优化
DNA Chisel: Python密码子优化
JCat:      在线密码子优化
GenSmart:  在线密码子优化

# 合成生物学 + 生信 核心技能
1. CRISPR sgRNA设计 + 脱靶分析
2. 代谢网络分析(FBA/FVA)
3. 密码子优化
4. 基因线路建模(ODE仿真)
5. DNA序列设计(避免重复/二级结构)