CLCNet：面向植物基因组预测的对比学习与染色体感知网络¶

1. 概述¶

基因组选择（Genomic Selection, GS）利用覆盖全基因组的分子标记与表型记录来估计个体育种值（Genomic Estimated Breeding Values, GEBV），其应用效果高度依赖基因组预测（Genomic Prediction, GP）模型的准确性。然而，传统GP方法往往难以充分捕获个体间的细微变异，并且深受“维度灾难”（curse of dimensionality）困扰——单核苷酸多态性（Single-Nucleotide Polymorphisms, SNPs）标记数量通常远超样本规模，导致模型易过拟合、计算复杂度极高。

CLCNet（Contrastive Learning and Chromosome-aware Network） 正是为解决上述挑战而提出的一种新型深度学习框架。该模型通过两条核心路径重塑植物基因组预测范式：

染色体感知网络（Chromosome-aware Network）：显式利用基因组天然的染色体分区结构，将高维SNP数据按染色体分组编码，有效降低输入维度并捕获染色体内与染色体间的连锁不平衡（Linkage Disequilibrium, LD）模式。
对比学习（Contrastive Learning）：在嵌入空间引入对比目标，使表型相似的个体相互靠近，差异显著的个体相互远离，从而强化模型对个体间表型变异的区分能力。

CLCNet将预测任务与对比学习信号联合训练，在保持预测精度的同时大幅提升了对稀有等位基因、微效多基因效应的捕获能力，尤其适用于复杂性状的基因组预测场景。

2. 核心知识点¶

2.1 背景：基因组预测与维度灾难¶

基因组预测的核心任务可形式化为：给定 n 个样本的基因型矩阵 X ∈ ℝ^n×p（p 为SNP数量）与对应表型向量 y ∈ ℝⁿ，学习函数 f(X) → y。在植物育种中，p 通常为10⁴～10⁶级别，而 n 仅在几百到数千之间，p ≫ n 的极端比例导致：

传统统计模型（如GBLUP、BayesA/B/C）需依赖先验假设进行收缩估计，难以充分表达非线性遗传效应。
普通深度神经网络虽然能拟合复杂函数，但在小样本高维度下极易过拟合，且缺乏对基因组结构信息的有效利用。

此外，个体之间的表型差异常由大量微效基因与环境互作共同决定，简单的线性模型或浅层网络难以捕捉这种高度分散的遗传信号。

2.2 CLCNet模型架构¶

CLCNet的整体架构由染色体感知编码器（Chromosome-aware Encoder）、对比学习投影头（Projection Head） 与预测头（Prediction Head） 三部分组成，如下图所示（逻辑结构）：

输入: 全基因组SNP矩阵
      │
      ├─> 染色体1编码器 ──> 染色体1嵌入
      ├─> 染色体2编码器 ──> 染色体2嵌入
      │   ...
      └─> 染色体k编码器 ──> 染色体k嵌入
                │
         [拼接/注意力融合]
                │
         个体最终嵌入向量
            /        \
      投影头（对比学习）  预测头（表型回归）
      对比损失 ←──┘        └──→ 预测损失

2.2.1 染色体感知特征提取¶

基因组天然划分为若干染色体（Chromosome），每条染色体上的SNP之间存在更强的连锁不平衡，不同染色体之间遗传相对独立。CLCNet显式利用这一生物学先验：将总SNP集合按染色体来源分为 k 个基因型子矩阵 X₁, X₂, …, Xₖ，每条染色体分配一个专属的子编码器（通常为多层感知机或一维卷积神经网络）。

每个子编码器独立学习染色体内SNP的非线性组合模式，输出固定长度的染色体嵌入向量 hᵢ ∈ ℝ^d。随后，所有染色体嵌入通过以下方式之一融合为全局个体嵌入 z ∈ ℝ^m：

拼接（Concatenation）：直接将 h₁ 到 hₖ 首尾相连，再经全连接层降维。
注意力融合（Attention Fusion）：以可学习的染色体级注意力权重对 hᵢ 进行加权求和，使模型自适应关注对目标性状贡献大的染色体。

这种设计将原始 p 维输入分散为多个较低维度的子任务，大幅减少每个编码器的参数量，缓解了维度灾难；同时迫使模型在染色体内部学习紧凑的遗传模式，增强了泛化能力。

2.2.2 对比学习机制¶

为捕获个体间差异，CLCNet引入自监督对比学习（Self-supervised Contrastive Learning）。其核心思想是：在嵌入空间中，将表型相似（或遗传背景相近）的个体定义为正样本对（Positive Pair），其余个体构成负样本对（Negative Pair），通过最大化正样本对的相似度、最小化负样本对的相似度来重排嵌入空间结构。

具体实现步骤：

正负样本构建：依据表型值 y 的百分位数或育种值区间，将落入同一区间的两个个体标记为正对；或利用数据增强（如对SNP进行随机Mask）生成同一基因型的两个视角（Augmentations），构成正对。
投影头 g(·)：将全局嵌入 z 映射到标准化对比空间 q = g(z)，通常为一个两层MLP。
对比损失：常用归一化温度交叉熵损失（NT-Xent）或InfoNCE损失： [ \mathcal{L}{con} = -\frac{1}{N}\sum}^{N}\log\frac{\exp(\text{sim}(\mathbf{qi, \mathbf{q} ] 其中 sim 为余弦相似度，τ 为温度系数，})/\tau)}{\sum_{k\neq i}\exp(\text{sim}(\mathbf{q}_i, \mathbf{q}_k)/\tau)j(i) 表示与样本 i 配对的样本索引。

通过该损失，网络被迫学习到与表型差异一致的嵌入表示，即使某些SNP效应极其微弱，只要它们在群体中协同贡献于表型差异，对比学习就能将其模式显现出来。

2.2.3 联合训练与损失函数¶

CLCNet的总损失函数为多任务联合损失：

[ \mathcal{L} = \mathcal{L}{pred} + \lambda \mathcal{L} ]

\mathcal{L}_{pred}：表型预测损失，通常为均方误差（MSE）： [ \mathcal{L}{pred} = \frac{1}{n}\sum_i - y_i)^2 ]}^{n}(\hat{y
λ：平衡预测精度与嵌入对比结构性的超参数。

训练时，两个损失同步反向传播，共享染色体感知编码器主干网络。这种设计使得模型既不偏离核心预测目标，又能获得结构化、判别性更强的特征表示。

2.3 优势与创新点¶

显式染色体建模：将基因组结构先验融入网络设计，降低参数冗余，提升小样本下的稳定性。
捕获个体间变异：对比学习重塑嵌入空间，使模型对个体间细微遗传差异更敏感，显著提高复杂性状的预测准确率。
维度解耦：分染色体编码天然实现特征分组，较传统全连接网络训练更高效、收敛更快。
扩展性强：可灵活替换子编码器结构（CNN、Transformer、GNN），并可加入环境协变量等多源数据。

2.4 应用场景¶

植物育种选择：预测未测交群体的育种值，加速轮回选择。
多性状联合预测：扩展为多任务对比学习，同时预测产量、抗病性、品质等多个性状。
跨群体预测：利用对比学习的域不变特性，辅助不同育种群体间的迁移预测。
标记密度优化：染色体感知的注意力权重可用于评估染色体贡献，指导低密度定制芯片设计。

3. 代码实操：使用PyTorch构建简化版CLCNet¶

以下代码演示了基于PyTorch的CLCNet核心组件实现，包含染色体感知编码器、对比投影头、预测头以及联合训练步骤。

import torch
import torch.nn as nn
import torch.nn.functional as F

# ------------------------- 染色体感知编码器 -------------------------
class ChromosomeEncoder(nn.Module):
    """单条染色体的SNP特征编码器"""
    def __init__(self, input_dim, hidden_dim, embed_dim, dropout=0.2):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.BatchNorm1d(hidden_dim),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(hidden_dim, embed_dim),
            nn.ReLU()
        )
    def forward(self, x):
        # x: (batch_size, input_dim)  某条染色体的SNP数据
        return self.net(x)

class CLCNet(nn.Module):
    """CLCNet主干：分染色体编码 + 注意力融合 + 投影头 + 预测头"""
    def __init__(self, chrom_snp_dims, hidden_dim=128, embed_dim=32, fuse_dim=64, proj_dim=32, dropout=0.2):
        """
        chrom_snp_dims: list[int]，每条染色体上的SNP数量
        """
        super().__init__()
        self.num_chrom = len(chrom_snp_dims)
        # 为每条染色体创建编码器
        self.encoders = nn.ModuleList([
            ChromosomeEncoder(in_dim, hidden_dim, embed_dim, dropout)
            for in_dim in chrom_snp_dims
        ])
        # 染色体注意力权重（可学习）
        self.chrom_att = nn.Parameter(torch.ones(self.num_chrom))
        # 融合层
        self.fuse_fc = nn.Linear(embed_dim, fuse_dim)
        # 预测头
        self.pred_head = nn.Sequential(
            nn.Linear(fuse_dim, 32),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(32, 1)   # 输出育种值
        )
        # 对比投影头
        self.proj_head = nn.Sequential(
            nn.Linear(fuse_dim, 32),
            nn.ReLU(),
            nn.Linear(32, proj_dim)
        )

    def forward(self, chrom_inputs):
        """
        chrom_inputs: list of Tensors, 每个形状为 (batch_size, chrom_snp_dim)
        返回: 预测值, 对比投影向量, 融合嵌入（可用于分析）
        """
        # 各染色体独立编码
        chrom_embeds = []
        for i, enc in enumerate(self.encoders):
            h = enc(chrom_inputs[i])          # (batch_size, embed_dim)
            chrom_embeds.append(h)
        # 堆叠为 (batch_size, num_chrom, embed_dim)
        stacked = torch.stack(chrom_embeds, dim=1)
        # 注意力融合
        att_weights = F.softmax(self.chrom_att, dim=0)  # (num_chrom,)
        fused = torch.sum(stacked * att_weights.view(1, -1, 1), dim=1)  # (batch_size, embed_dim)
        fused = self.fuse_fc(fused)                     # (batch_size, fuse_dim)

        # 预测值与投影向量
        pred = self.pred_head(fused).squeeze(-1)        # (batch_size,)
        proj = self.proj_head(fused)                    # (batch_size, proj_dim)
        return pred, proj, fused

# ------------------------- 对比损失 (NT-Xent) -------------------------
def nt_xent_loss(proj, labels, tau=0.5):
    """
    基于表型标签的对比损失（简化版）
    proj: (batch_size, proj_dim) 标准化投影
    labels: (batch_size,) 连续表型值，用于构建正负对（按分位数分组）
    """
    batch_size = proj.shape[0]
    # 将表型标签离散化为组（如按中位数分两组）
    groups = (labels > labels.median()).long()  # 高/低两组
    # 计算相似度矩阵
    proj = F.normalize(proj, dim=1)
    sim = torch.matmul(proj, proj.T) / tau   # (bs, bs)
    # 构建正样本mask：同组为1，不同组为0（忽略对角线）
    pos_mask = (groups.unsqueeze(0) == groups.unsqueeze(1)).float()
    pos_mask.fill_diagonal_(0)
    # 指数化
    exp_sim = torch.exp(sim)
    # 分母：所有非自身的exp和
    denom = exp_sim.sum(dim=1) - exp_sim.diag().sum(dim=0)
    # 分子：正样本对的exp和
    pos_sum = (exp_sim * pos_mask).sum(dim=1)
    loss = -torch.log(pos_sum / denom).mean()
    return loss

# ------------------------- 训练示例 -------------------------
def train_step(model, chrom_inputs, phenotypes, optimizer, lambda_con=0.1):
    model.train()
    optimizer.zero_grad()
    pred, proj, _ = model(chrom_inputs)
    # 预测损失
    pred_loss = F.mse_loss(pred, phenotypes)
    # 对比损失
    con_loss = nt_xent_loss(proj, phenotypes)
    total_loss = pred_loss + lambda_con * con_loss
    total_loss.backward()
    optimizer.step()
    return pred_loss.item(), con_loss.item(), total_loss.item()

# ------------------------- 使用示例 -------------------------
if __name__ == "__main__":
    # 假设5条染色体，SNP数量分别为2000, 1500, 1800, 2200, 1700
    chrom_dims = [2000, 1500, 1800, 2200, 1700]
    model = CLCNet(chrom_dims)
    batch_size = 64
    # 模拟一个batch的输入
    chrom_inputs = [torch.randn(batch_size, dim) for dim in chrom_dims]
    phenotypes = torch.randn(batch_size)  # 模拟表型
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

    for epoch in range(10):
        p_loss, c_loss, total = train_step(model, chrom_inputs, phenotypes, optimizer)
        print(f"Epoch {epoch+1}: Pred Loss={p_loss:.4f}, Con Loss={c_loss:.4f}, Total={total:.4f}")

说明：上述代码仅作为教育演示，实际训练需结合早停法、交叉验证、数据标准化以及更精细的对比正负对构建策略（例如按多个表型分位数或利用遗传距离）。

4. 常见问题¶

Q1：对比学习为什么能改善个体间变异的捕获？¶

传统预测模型的损失函数（如MSE）仅驱动网络拟合群体均值趋势，个体残差可能被忽略。对比学习通过强制嵌入空间中“相似表型靠近、差异表型背离”，将个体间差异显式编码，使网络能够学习到区分性更强的特征，从而在后续预测中更灵敏地反映稀有等位基因或微效多基因效应。

Q2：染色体感知网络如何降低维度灾难？¶

若将所有SNP直接送入全连接网络，参数矩阵尺寸为 p × hidden，极易过拟合。分染色体编码后，每个编码器的输入维度降至一条染色体的SNP数目（例如 p/10），参数量减少为原来的约1/k（k为染色体数），同时染色体之间共享相同的网络结构但独立处理，相当于引入强生物学先验，使模型在小样本下更稳定。

Q3：CLCNet适用于哪些物种？¶

该方法适用于具有参考基因组组装、且可进行全基因组SNP分型的植物物种，如玉米、水稻、小麦、大豆等。对于多倍体或基因组高度杂合的物种，只需在按染色体分割时遵循其遗传图谱即可，染色体感知机制依然有效。

Q4：训练数据需要满足什么要求？¶

样本量建议不少于300～500个，以支持对比学习批次构建。
需包含准确的表型记录，若有重复或多年多点数据，可使用BLUP值作为目标变量。
基因型数据需经常规质控（缺失率、次等位基因频率MAF、哈代-温伯格平衡等），并按染色体排序分列。

Q5：与GBLUP、Bayes系列方法相比，CLCNet有何优势？¶

特性	GBLUP/Bayes	CLCNet
遗传架构假设	线性、加性为主	可捕获非线性、上位性效应
对稀有变异敏感性	低	高（通过对比学习强化）
染色体结构利用	仅通过关系矩阵间接反映	显式编码，可输出染色体重要性
样本量需求	低～中等	中等（需训练深层网络）
计算复杂度	中等	训练时较高，预测时低

Q6：如何选择合适的对比正负对构建策略？¶

常用策略包括：① 按表型值分位数分组；② 基于表型高斯核相似度阈值；③ 利用基因组最佳线性无偏预测（GBLUP）的估计育种值分组；④ 采用数据增强（如SNP dropout）生成正对。实践中可交叉验证不同策略，选择使预测精度最高的方法。

5. 速查表¶

要点	说明
全称	CLCNet: Contrastive Learning and Chromosome-aware Network
应用领域	植物基因组预测 (Genomic Prediction, GP)、基因组选择 (Genomic Selection, GS)
核心机制	染色体感知编码器 + 对比学习嵌入约束
创新点	显式利用染色体分区结构降低维度；通过对比损失强化个体间差异
输入	按染色体分组的SNP标记矩阵（数值型，如0,1,2编码）
输出	预测育种值（GEBV）或表型值
损失函数	预测损失（MSE）+ λ × 对比损失（NT-Xent/InfoNCE）
网络组成	ChromosomeEncoder → Attention Fusion → FuseFC → Prediction Head / Projection Head
关键技术参数	编码器层数、嵌入维度、融合维度、温度系数τ、对比损失权重λ
适用物种	有参考基因组的植物，如玉米、水稻、小麦等
训练数据量建议	≥ 300个有表型个体
优势	缓解维度灾难、捕获非线性效应、提升稀有变异利用率、解释染色体贡献
局限性	需要分染色体SNP信息；训练复杂度高于传统线性模型；超参数需仔细调整
代码框架	PyTorch / TensorFlow，可结合PyTorch Lightning进行训练管理

CLCNet通过将基因组天然结构融入深度学习，辅以对比学习增强个体区分力，为高维小样本的植物基因组预测提供了一条可靠的新路径。在具体应用时，务必结合育种群体特性进行分染色体构建和正负对策略调优，以充分发挥其潜力。