生信文献阅读与检索技巧（Literature Search & Reading for Bioinformatics）¶

一句话说明¶

文献是生信工程师的"弹药库"——面试官问"你最近读了什么文献"不是考你记忆力，而是考你有没有持续学习的习惯、能不能把文献里的方法变成自己的分析能力。掌握高效检索和阅读技巧，是从"跟着教程做"到"独立解决问题"的关键跨越。

为什么要读文献（面试常问"最近读了什么文献"）¶

面试官的真实意图¶

表面问题	真实考察点
你最近读了什么文献？	你有没有持续学习的习惯
这篇文献用了什么方法？	你能不能理解并复现分析流程
你觉得这个方法有什么不足？	你有没有独立思考和批判性思维
你从这篇文献学到了什么？	你能不能把知识转化为实际能力

读文献对生信工程师的具体价值¶

掌握最新工具和方法：生信工具更新极快，文献是了解新工具的第一渠道（比如 2024-2025 年大火的长读长测序分析方法）
学习分析流程设计：好的文献相当于一个完整的分析 SOP（标准操作流程）
积累参数选择经验：为什么过滤阈值选 Q30？为什么 alpha 多样性用 Shannon 而不是 Simpson？文献里有答案
面试加分项：能说出最近读的 2-3 篇文献，并讲清楚方法和不足，直接证明你是"主动学习型"选手
写论文/报告的参考：做项目时需要引用方法学依据，读过的文献就是你的素材库

白话说：不读文献的生信工程师，就像不看菜谱的厨师——可能会几道菜，但遇到新食材就抓瞎。

文献检索工具：五大平台详解¶

1. PubMed（生物医学文献的"百度"）¶

地址：https://pubmed.ncbi.nlm.nih.gov/

特点： - 由美国国立医学图书馆（NLM）维护，收录 3700 万+ 生物医学文献 - 免费使用，支持 MeSH 主题词检索 - 2024 年更新了 Best Match 排序算法，用机器学习把最相关的结果排在最前面 - 支持预印本文献检索（来自 bioRxiv、medRxiv 等）

核心搜索技巧：

# 基础搜索：直接输入关键词
metagenomics type 2 diabetes gut microbiome

# 布尔运算符（必须大写）
gut microbiome AND type 2 diabetes        # 同时包含两个概念
gut microbiome OR intestinal flora        # 包含任一概念
gut microbiome NOT mouse                  # 排除小鼠相关

# 字段标签搜索（限定搜索范围）
random forest[ti]                          # 只搜标题（Title）
Zhang Wei[au]                              # 搜作者（Author）
Nature[ta]                                 # 搜期刊（Journal）
metagenomics[tiab]                         # 搜标题+摘要

# 短语搜索（加双引号）
"gut-brain axis"                           # 精确短语匹配

# 通配符搜索（*代替0个或多个字符，至少4个字母开头）
metagen*                                   # 匹配 metagenomics, metagenomic, metagenome 等
"16S rRNA amplicon*"                       # 短语中也可用通配符

# 日期限制
gut microbiome AND 2023:2025[dp]           # 限定发表年份范围
gut microbiome AND "last 1 years"[dp]      # 最近1年

# MeSH主题词（医学主题词表，更精准）
"Gastrointestinal Microbiome"[MeSH]        # 用MeSH标准术语
"Diabetes Mellitus, Type 2"[MeSH Major Topic] # MeSH主要主题

# 组合高级搜索示例
("Gastrointestinal Microbiome"[MeSH]) AND ("Diabetes Mellitus, Type 2"[MeSH]) 
AND ("Machine Learning"[MeSH]) AND 2022:2025[dp]

# 邻近搜索（PubMed 支持的高级语法）
"random forest metagenomics"[tiab:~3]      # 两个词在标题/摘要中相距不超过3个词

实用 Filter（侧边栏过滤器）： - Text availability：选 Free full text（只看免费全文） - Article type：选 Review（综述）或 Systematic Review（系统综述） - Publication date：选 1 year / 5 years - Species：选 Humans（只看人类研究）

2. Google Scholar（最广的学术搜索引擎）¶

地址：https://scholar.google.com/

特点： - 覆盖范围最广：期刊论文、会议论文、学位论文、预印本、专利都能搜到 - 引用追踪方便：一键看"被引用次数"和"引用了哪些文献" - 支持中文文献搜索

搜索技巧：

# 精确短语搜索
"gut microbiome" "type 2 diabetes"

# 限定作者
author:"Rob Knight"

# 限定标题
intitle:"metagenomics pipeline"

# 限定来源（期刊名）
source:"Nature Medicine"

# 限定年份范围（左侧菜单或URL参数）
# 在搜索页面左侧可以选择时间范围

# 排除关键词
metagenomics -review -protocol

# 文件类型
metagenomics pipeline filetype:pdf

技巧： - 点击文献下方的"被引用次数"，可以找到后续引用了这篇文献的新文章——这是向前追踪 - 点击"相关文章"可以找到类似主题的文献 - 安装 Google Scholar 浏览器插件，可以在任何网页上一键搜索

3. Semantic Scholar（AI 驱动的语义搜索）¶

地址：https://www.semanticscholar.org/

特点： - 收录 2.14 亿+ 篇论文，24.9 亿+ 条引用关系（截至 2025 年） - 由 Allen Institute for AI（AI2）开发，使用 AI 理解论文语义 - 提供 TLDR（一句话摘要）功能，快速判断论文是否相关 - 提供 Semantic Reader（增强阅读器），自动解释术语和引用 - 有 Research Feed（研究动态），根据你关注的领域推送新文章 - 提供免费 API（1 RPS 无需认证，申请 API Key 后更高限额）

搜索技巧： - 支持自然语言搜索：直接输入 "methods for analyzing gut microbiome in diabetes patients" - 使用 Filter 按年份、引用数、研究领域、开放获取等过滤 - 利用 "Highly Influential Citations"（高影响力引用）找到真正重要的引用关系 - 创建 Research Feed，输入几篇种子论文，AI 自动推荐相关新文献

4. Connected Papers（文献关系可视化神器）¶

地址：https://www.connectedpapers.com/

特点： - 输入一篇论文，自动生成与之相关的文献关系图谱 - 用可视化图谱展示论文之间的相似性（不是简单的引用关系，而是基于共引分析的相似度） - 节点大小 = 引用次数，节点颜色 = 发表年份（越深越新） - 免费版每月可生成 5 张图谱

使用方法： 1. 输入一篇你已知的核心文献（DOI 或标题） 2. 查看生成的图谱，找到相关的文献簇 3. 点击 "Prior Works" 看前驱工作（这篇文献的理论基础） 4. 点击 "Derivative Works" 看后续工作（基于这篇文献的新发展）

适用场景： - 刚进入一个新领域，想快速了解该领域的核心文献 - 写综述时需要系统性地找相关文献 - 面试前快速构建某个方向的文献知识网络

5. Web of Science（高质量期刊文献数据库）¶

地址：https://www.webofscience.com/

特点： - 收录高质量期刊（有严格的收录标准） - 提供影响因子（Impact Factor）信息 - 强大的引用分析功能：被引频次、H-index - 需要机构订阅（大部分高校图书馆有权限）

搜索技巧： - 使用"引文追踪"：被引用 → 找后续进展；参考文献 → 追溯理论基础 - 利用 "Analyze Results" 按国家、机构、作者、期刊分析检索结果 - 使用 "Create Citation Alert"，当有新文章引用目标论文时自动邮件通知

高效阅读方法：三遍读法¶

大量文献需要读的时候，不可能每篇都逐字精读。推荐三遍读法（Three-Pass Reading），根据需要决定读到哪一遍就停：

第一遍：标题 + 摘要 + 图表（5-10 分钟）¶

目标：判断这篇文献值不值得深入读

阅读顺序：
1. 标题 → 这篇文章研究什么问题？
2. 摘要 → 用了什么方法？主要结论是什么？
3. 图表 → 快速扫一遍所有 Figure 和 Table（不用看正文）
4. 结论 → 作者自己怎么总结的？

读完后你应该能回答： - 这篇文献属于什么方向？（宏基因组/转录组/GWAS/...） - 用了什么样本和数据？ - 核心方法是什么？ - 主要发现是什么？ - 跟该项目/面试准备有关系吗？

白话说：第一遍像去超市选水果，先看外观（标题），再看标签（摘要），翻一下（图表），决定要不要买（继续读）。

第二遍：方法 + 结果 + 图表细节（30-60 分钟）¶

目标：理解分析流程和关键结果

阅读顺序：
1. Methods → 详细的分析流程是什么？用了哪些工具？参数怎么设的？
2. Results → 每个图表对应什么分析？结果怎么解读？
3. Figures → 仔细看图注（Figure Legend），理解每个图的横纵轴、统计方法
4. Supplementary → 补充材料里通常有详细的分析参数和额外结果

读完后你应该能回答： - 分析流程的每一步用了什么工具？ - 关键参数是怎么选的？（过滤阈值、统计检验方法、校正方法） - 核心图表说明了什么生物学意义？ - 数据从哪来的？（公开数据库还是自己测序？）

第三遍：全文精读 + 批判性思考（2-4 小时）¶

目标：深入理解并能批判性评价

阅读顺序：
1. Introduction → 研究背景和科学问题（为什么做这个研究？）
2. Methods → 逐步对照，尝试在脑中"复现"整个分析流程
3. Results → 对每个结果问"这个结论证据充分吗？"
4. Discussion → 作者怎么解释结果？有没有我不同意的地方？
5. Limitations → 作者自己承认了哪些局限？还有哪些没说的？

批判性思考框架： - 样本量够不够？有没有独立验证队列？ - 统计方法合适吗？多重比较校正了吗？ - 有没有混杂因素没有控制？ - 结论是否过度解读？（相关性 ≠ 因果性） - 分析代码/数据有没有公开？能不能复现？

生信文献特殊关注点¶

生信文献不同于纯实验文献，读的时候要特别关注以下五个方面：

1. 分析流程（Pipeline）¶

关注点：
- 流程图：大部分生信文献的 Figure 1 就是分析流程图
- 每一步用的工具名称和版本号
- 工具之间的衔接（输入输出格式）
- 有没有用流程管理工具（Snakemake/Nextflow）

白话说：这就像看菜谱，你要知道"先放油还是先放蒜"，顺序搞错了出不来那个味。

2. 参数选择¶

关注点：
- 质控参数：Q值阈值、最小长度、接头序列
- 比对参数：比对软件的灵敏度/特异度模式
- 过滤阈值：丰度过滤（去掉低丰度物种）、prevalence 过滤
- 聚类参数：OTU 97% 还是 ASV？
- 统计参数：显著性阈值（p < 0.05？FDR < 0.1？）

白话说：同一个工具，参数不同结果天差地别。这是你能不能"调出好结果"的关键。

3. 数据来源¶

关注点：
- 公开数据：数据存在哪个数据库？（NCBI SRA、ENA、DDBJ、GSA）
- Accession Number：记下来，方便你下载复现
- 样本信息：样本量、分组、纳入/排除标准
- 测序平台：Illumina/PacBio/Nanopore？读长多少？

白话说：数据就是食材，你得知道是进口的还是国产的、新鲜的还是冷冻的。

4. 统计方法¶

关注点：
- 差异分析用的什么方法？（Wilcoxon/DESeq2/LEfSe/ANCOM-BC）
- 多重比较校正方法？（Bonferroni/BH-FDR/Storey q-value）
- 多变量分析？（PCoA/NMDS/PERMANOVA/RDA）
- 机器学习模型？（随机森林/XGBoost/LASSO？交叉验证方式？）
- 效应量：有没有报告 effect size，还是只报了 p 值？

白话说：统计方法是"法官判案的标准"，方法不对，判决就可能冤枉好人。

5. 代码与数据可用性¶

关注点：
- 代码是否公开？（GitHub/Zenodo/Figshare）
- 数据是否可下载？
- 是否提供 Docker/Conda 环境文件？
- 是否有详细的 README？

白话说：说得再好听，代码跑不起来就是空话。能复现的才叫好文献。

文献管理工具对比¶

当你读的文献超过 20 篇，就需要一个管理工具来分类、标注、引用。

对比维度	Zotero	EndNote	Mendeley
价格	免费开源	付费（约 $250，学校常有许可）	免费基础版
平台	Windows/Mac/Linux/iOS/Android	Windows/Mac	Windows/Mac/Linux
浏览器插件	有（Zotero Connector）	有（Capture）	有（Web Importer）
Word 插件	有	有	有
云同步	300MB 免费，可付费扩容	需要自己配置	2GB 免费
引用格式	9000+ 种样式	7000+ 种样式	7000+ 种样式
团队协作	免费群组功能	需要付费	免费群组（3人以下）
PDF 标注	内置 PDF 阅读器+标注	内置 PDF 标注	内置 PDF 标注
开源性	完全开源	商业闭源	商业闭源（Elsevier）
推荐场景	个人和小团队首选	学校有许可时使用	已有 Elsevier 账号时

生信方向推荐 Zotero 的理由：

免费开源：生信人的基因里写着"能开源就不用闭源"
Better BibTeX 插件：完美支持 LaTeX/Markdown 写作中的引用管理
Zotero Connector：在 PubMed/Google Scholar 页面一键保存文献
标签系统：可以按项目/方法/工具打标签，快速检索
笔记功能：在 Zotero 内直接写阅读笔记，关联到具体文献

Zotero 快速上手：

# 安装流程：
# 1. 下载 Zotero：https://www.zotero.org/download/
# 2. 安装浏览器插件 Zotero Connector
# 3. 打开 Zotero，创建分类文件夹（如：T2D_metagenomics、methods、reviews）
# 4. 在 PubMed 搜到文献后，点击浏览器右上角 Zotero 图标，自动保存

# 推荐插件：
# - Zotero Better BibTeX：LaTeX 引用必备
# - Zotero PDF Translate：PDF 内划词翻译
# - Zotero GPT：AI 辅助阅读论文
# - Zotero Tag：更好的标签管理

如何从文献中学习分析方法（复现文献流程）¶

读文献的终极目标不是"读完了"，而是能复现。

复现文献的五步法¶

Step 1: 找到原始数据
   ↓  去文献的 Data Availability 部分找 Accession Number
   ↓  从 NCBI SRA / ENA 下载原始数据

Step 2: 梳理分析流程
   ↓  从 Methods 部分提取每一步的工具+版本+参数
   ↓  画出流程图（可以用 draw.io 或手画）

Step 3: 搭建计算环境
   ↓  用 conda 安装文献中提到的所有工具
   ↓  注意版本号！不同版本可能结果不同

Step 4: 跑小数据集验证
   ↓  先用少量数据（比如 1 个样本）跑通整个流程
   ↓  对比你的结果和文献结果是否一致

Step 5: 完整复现 + 总结
   ↓  用全部数据复现，记录遇到的问题和解决方法
   ↓  写成笔记，变成你自己的 SOP

实际示例：复现一篇宏基因组文献¶

# 假设文献用了以下流程：
# Raw reads → Fastp → Kneaddata → MetaPhlAn4 → HUMAnN3

# Step 1: 下载数据（假设 accession 为 PRJNA123456）
# 用 SRA Toolkit 的 fasterq-dump 下载
fasterq-dump SRR12345678 --split-3 -O raw_data/  # 下载双端测序数据

# Step 2: 质控（Fastp，文献中参数：Q20，最小长度50bp）
fastp \
  -i raw_data/SRR12345678_1.fastq \   # 输入：正向reads
  -I raw_data/SRR12345678_2.fastq \   # 输入：反向reads
  -o clean/SRR12345678_1.fq.gz \      # 输出：质控后正向
  -O clean/SRR12345678_2.fq.gz \      # 输出：质控后反向
  -q 20 \                              # 质量阈值：Q20（文献指定）
  -l 50                                # 最小长度：50bp（文献指定）

# Step 3: 去宿主（Kneaddata，文献中用人类参考基因组 hg38）
kneaddata \
  --input clean/SRR12345678_1.fq.gz \  # 输入：质控后reads
  --input clean/SRR12345678_2.fq.gz \
  --reference-db /db/hg38_bowtie2/ \   # 宿主参考基因组
  --output dehost/ \                    # 输出目录
  --trimmomatic /path/to/trimmomatic   # Trimmomatic路径

# Step 4: 物种注释（MetaPhlAn4）
metaphlan \
  dehost/SRR12345678_1_kneaddata_paired_1.fastq,dehost/SRR12345678_1_kneaddata_paired_2.fastq \
  --input_type fastq \                 # 输入格式
  --bowtie2db /db/metaphlan4/ \        # MetaPhlAn4数据库
  -o profile/SRR12345678_profile.txt   # 输出物种丰度表

# Step 5: 对比你的物种丰度结果和文献的 Figure 是否一致

预印本平台（Preprint Servers）¶

什么是预印本？¶

白话说：预印本就是"还没经过同行评审就先挂到网上的论文"。好比你做了一道菜，还没请美食评委品尝打分，但先发了朋友圈让大家看。

主要平台¶

平台	领域	地址	特点
bioRxiv	生物学	https://www.biorxiv.org/	生信文献最多的预印本平台
medRxiv	医学/临床	https://www.medrxiv.org/	临床研究相关预印本
arXiv	数学/CS/物理	https://arxiv.org/	机器学习/AI 方法论文
Research Square	综合	https://www.researchsquare.com/	Nature 旗下预印本平台

为什么生信人要关注预印本？¶

速度快：生信工具的文献通常先发预印本，比正式发表早 3-12 个月
免费开放：所有预印本都免费下载全文
最新方法：很多热门工具（如 MetaPhlAn4、Kraken2 的新版本）的方法论文先出现在 bioRxiv

注意事项¶

⚠️ 预印本没有经过同行评审，使用时需要注意：
1. 结论可能有误——关注是否已有正式发表版本
2. 面试引用预印本时说明"这是预印本，还未正式发表"
3. 方法可以参考学习，但结论要谨慎引用
4. PubMed 从 2020 年开始收录部分预印本（来源标注为 Preprint）
   在 PubMed 中搜索预印本：加 preprint[pt] 过滤
   排除预印本：加 NOT preprint[pt]

AI 辅助文献阅读¶

2024-2025 年，AI 工具已经成为文献阅读的重要辅助手段。

常用 AI 文献阅读工具¶

工具	特点	费用
ChatGPT / Claude	上传 PDF 直接对话提问	付费版支持
Semantic Scholar TLDR	自动生成一句话摘要	免费
Elicit	AI 搜索+自动提取方法/结果/样本量	免费基础版
SciSpace（Typeset）	划词解释、论文对话、公式解读	免费基础版
txyz.ai	AI 论文阅读助手，支持追问	免费基础版
Consensus	基于真实论文证据回答科学问题	免费基础版

用 LLM 总结论文的实用 Prompt¶

# Prompt 1：快速总结
请用中文总结这篇论文，包括：
1. 研究问题（一句话）
2. 使用的数据（样本量、来源）
3. 核心方法（分析流程的每一步）
4. 主要发现（3-5个关键结果）
5. 局限性（作者提到的 + 你发现的）

# Prompt 2：提取分析流程
请从这篇论文的 Methods 部分提取完整的分析流程，包括：
- 每一步使用的工具名称和版本
- 关键参数设置
- 输入和输出文件格式
- 统计检验方法
用流程图的方式列出来。

# Prompt 3：面试准备
如果面试官问我关于这篇论文的问题，请帮我准备以下问题的回答：
1. 这篇论文解决了什么问题？
2. 方法上有什么创新点？
3. 有什么不足或可以改进的地方？
4. 如果让你重新设计这个研究，你会怎么做？

# Prompt 4：方法对比
请对比这篇论文中使用的 [方法A] 和 [方法B]，
从原理、适用场景、优缺点三个角度分析，用表格呈现。

注意事项¶

⚠️ AI 辅助阅读的正确姿势：
1. AI 是"辅助"不是"替代"——关键结论必须自己验证
2. AI 可能产生幻觉——不要盲信 AI 对数字/参数/工具名的回答
3. 先用 AI 快速了解大意，再自己精读关键部分
4. 面试时说"我用 AI 辅助阅读"没问题，但要证明你真的理解了内容

面试怎么答（5 道高频题）¶

题目 1：你最近读了什么文献？¶

回答框架（STAR 法）：

Situation: 我最近在准备宏基因组方向的面试/做T2D肠道菌群项目
Task: 需要了解最新的宏基因组分析方法
Action: 读了 [具体文献名]，发表在 [期刊] 上
Result: 从中学到了 [具体方法/发现]

示例回答：
"我最近读了 2024 年发表在 Nature Medicine 上的一篇关于多队列宏基因组
研究发现 2 型糖尿病肠道菌群标志物的文章。这篇文献汇总了多个国家的
宏基因组数据，用 MetaPhlAn4 做物种注释，用 HUMAnN3 做功能注释，
然后用随机森林筛选出跨队列一致的菌群标志物。我从中学到了如何处理
多队列批次效应和如何评估标志物的泛化能力。"

题目 2：这篇文献的方法有什么不足？¶

回答框架：

示例回答：
"这篇文献有几个可以改进的地方：
第一，样本量虽然不小（约500人），但某些亚组（如用药和不用药的T2D）
样本量偏少，可能影响亚组分析的统计效力；
第二，使用的是 16S rRNA 扩增子测序而不是宏基因组全测序，所以物种
注释只到属水平，功能预测依赖 PICRUSt2 的推断而非直接测量；
第三，文献没有提供分析代码，只描述了工具和参数，复现性不够好；
第四，横断面研究设计无法推断因果关系，需要纵向队列或干预实验验证。"

题目 3：你怎么找到这篇文献的？¶

示例回答：
"我先在 PubMed 用 'gut microbiome AND type 2 diabetes AND 
metagenomics AND 2023:2025[dp]' 搜索最近两年的文献，然后按
Best Match 排序看前 20 篇的标题和摘要。选定一篇核心文献后，
我又用 Connected Papers 生成了关系图谱，找到了几篇高度相关
的文献。最后在 Semantic Scholar 上设置了 Research Feed，
持续跟踪这个方向的新文献。"

题目 4：如果让你改进这个研究，你会怎么做？¶

示例回答：
"如果让我改进，我会考虑三个方面：
第一，数据层面：增加独立验证队列，用不同地区/人群的数据验证
发现的标志物是否具有泛化性；
第二，方法层面：补充宏基因组全测序数据，直接获取功能通路信息
而不是依赖预测，并增加代谢组学数据做多组学整合分析；
第三，统计层面：加入更严格的混杂因素控制，特别是饮食、用药、
BMI 等可能影响菌群组成的因素，用 MaAsLin2 等工具做多变量校正。"

题目 5：你怎么判断一篇文献的质量？¶

示例回答：
"我从以下几个维度判断：
1. 期刊和影响因子：Nature/Science/Cell 系列 > 领域顶刊（如 
   Gut, Microbiome）> 普通SCI
2. 样本量和实验设计：有没有足够的生物学重复？有没有独立验证队列？
3. 统计方法是否规范：多重比较有没有校正？效应量报了没有？
4. 数据和代码可用性：原始数据有没有存到公开数据库？分析代码有没有
   放到 GitHub？
5. 同行评价：看 PubPeer 上有没有质疑，看后续被引用的方式是正面
   还是负面的。
6. 如果是预印本，还要特别注意有没有同行评审后的正式版本。"

速查表¶

PubMed 搜索语法速查¶

语法	说明	示例
`AND`	同时包含	`diabetes AND microbiome`
`OR`	包含任一	`gut microbiome OR intestinal flora`
`NOT`	排除	`metagenomics NOT review`
`"..."`	精确短语	`"random forest"`
`*`	通配符（≥4字母后）	`metagen*`
`[ti]`	限定标题	`metagenomics[ti]`
`[tiab]`	标题+摘要	`machine learning[tiab]`
`[au]`	作者	`Knight R[au]`
`[ta]`	期刊	`Gut[ta]`
`[dp]`	发表日期	`2024[dp]` 或 `2023:2025[dp]`
`[MeSH]`	MeSH 主题词	`"Gastrointestinal Microbiome"[MeSH]`
`[majr]`	MeSH 主要主题	`"Machine Learning"[majr]`
`[pt]`	文章类型	`review[pt]` / `preprint[pt]`
`[tiab:~N]`	邻近搜索	`"gut diabetes"[tiab:~3]`
`[1au]`	第一作者	`Zhang W[1au]`
`[lastau]`	最后作者/通讯作者	`Li H[lastau]`
`free full text[sb]`	免费全文	`metagenomics AND free full text[sb]`
`systematic[sb]`	系统综述	`gut microbiome AND systematic[sb]`
`"last N years"[dp]`	最近 N 年	`diabetes AND "last 2 years"[dp]`
`medline[sb]`	仅 MEDLINE 索引	`microbiome AND medline[sb]`

文献阅读检查清单¶

□ 标题和摘要读完了吗？能一句话概括这篇文献吗？
□ 分析流程图看懂了吗？每一步用了什么工具？
□ 关键参数记录了吗？（质控阈值、统计方法、p值标准）
□ 数据来源清楚了吗？（数据库、Accession Number）
□ 代码是否公开？能否复现？
□ 统计方法合理吗？多重比较校正了吗？
□ 有没有独立验证队列？
□ 这篇文献对该项目有什么参考价值？
□ 面试时能讲清楚这篇文献的方法和不足吗？
□ 已经保存到 Zotero 并打了标签吗？

生信热门期刊（按方向分类）¶

方向	高影响力期刊	领域专刊
通用生信	Nature Methods, Genome Research	Bioinformatics, Briefings in Bioinformatics
宏基因组/微生物	Nature, Gut, Cell Host & Microbe	Microbiome, mSystems, ISME Journal
基因组学	Nature Genetics, Genome Biology	Nucleic Acids Research
临床/医学	NEJM, Lancet, Nature Medicine	BMC Medicine
计算方法	Nature Biotechnology	Genome Biology, NAR

延伸资源¶

免费学习资源¶

资源	说明	地址
PubMed 官方教程	NCBI 官方的 PubMed 使用教程	https://learn.nlm.nih.gov/documentation/training-packets/T0042010P/
NLM 视频教程	PubMed 搜索技巧视频	https://www.nlm.nih.gov/oet/ed/pubmed/quicktours.html
Semantic Scholar 教程	API 和搜索使用指南	https://www.semanticscholar.org/product/tutorials
Zotero 中文教程	Zotero 使用中文指南	https://www.zotero.org/support/zh/quick_start_guide
科研动力博客	国内 Zotero/文献管理中文教程	搜索"科研动力 Zotero"

文献阅读的每日习惯建议¶

工作日（15分钟/天）：
- 刷 PubMed/Semantic Scholar 的推送，读 2-3 篇摘要
- 遇到有价值的文献保存到 Zotero

每周（1-2小时）：
- 精读 1 篇文献到"第二遍"（方法+结果）
- 更新 Zotero 标签和笔记

面试前（集中准备）：
- 选 2-3 篇跟目标岗位最相关的文献精读到"第三遍"
- 用上面的面试回答框架准备好口头表述
- 尝试复现至少 1 篇文献的分析流程（哪怕只跑通第一步）

记住：面试官不期望你读过所有文献，但期望你能讲清楚至少 1-2 篇——方法是什么、为什么用这个方法、有什么不足、你学到了什么。这比泛泛而谈读了 100 篇更有说服力。

生信文献阅读与检索技巧（Literature Search & Reading for Bioinformatics）¶

一句话说明¶

为什么要读文献（面试常问"最近读了什么文献"）¶

面试官的真实意图¶

读文献对生信工程师的具体价值¶

文献检索工具：五大平台详解¶

1. PubMed（生物医学文献的"百度"）¶

2. Google Scholar（最广的学术搜索引擎）¶

3. Semantic Scholar（AI 驱动的语义搜索）¶

4. Connected Papers（文献关系可视化神器）¶

5. Web of Science（高质量期刊文献数据库）¶

高效阅读方法：三遍读法¶

第一遍：标题 + 摘要 + 图表（5-10 分钟）¶

第二遍：方法 + 结果 + 图表细节（30-60 分钟）¶

第三遍：全文精读 + 批判性思考（2-4 小时）¶

生信文献特殊关注点¶

1. 分析流程（Pipeline）¶

2. 参数选择¶

3. 数据来源¶

4. 统计方法¶

5. 代码与数据可用性¶

文献管理工具对比¶

如何从文献中学习分析方法（复现文献流程）¶

复现文献的五步法¶

实际示例：复现一篇宏基因组文献¶

预印本平台（Preprint Servers）¶

什么是预印本？¶

主要平台¶

为什么生信人要关注预印本？¶

注意事项¶

AI 辅助文献阅读¶

常用 AI 文献阅读工具¶

用 LLM 总结论文的实用 Prompt¶

注意事项¶

面试怎么答（5 道高频题）¶

题目 1：你最近读了什么文献？¶

题目 2：这篇文献的方法有什么不足？¶

题目 3：你怎么找到这篇文献的？¶

题目 4：如果让你改进这个研究，你会怎么做？¶

题目 5：你怎么判断一篇文献的质量？¶

速查表¶

PubMed 搜索语法速查¶

文献阅读检查清单¶

生信热门期刊（按方向分类）¶

延伸资源¶

免费学习资源¶

推荐阅读的生信综述方向¶

文献阅读的每日习惯建议¶

📚 相关文章推荐