GenoTEX:LLM Agent基因表达分析基准

摘要: GenoTEX 是一个专为评估大语言模型(LLM)智能体在真实基因表达数据分析任务上的表现而构建的专家标注基准数据集。该基准聚焦于基因-性状关联(GTA)分析,旨在从基因表达数据中识别与疾病相关的基因,同时考虑其他生物因素的影响。GenoTEX 涵盖数据集选择、数据预处理和统计分析三大评估任务,构建了一套符合计算基因组学标准的完整分析流程。该基准包含 1,384 个 GTA 分析问题(其中 132 个为无条件问题,1,252 个为条件问题),涉及 911 个数据集、共计约 15.2 万个样本和 41.5 GB 的输入数据,并由生物信息学专家精心标注了近 24 万行分析代码。GenoTEX 的核心价值在于为自动化基因表达分析方法,尤其是基于 LLM 的智能体,提供了可靠且可复现的评测标准,有望缓解生物医学研究中基因表达分析重复性高、耗时长且易出错的问题,推动疾病标志物发现和精准医学的发展。该工作被 MLCB 2025 接收为口头报告。