《生命科学》 2025, 37(12): 1479-1480
序言
摘 要:
基础模型体系正推动生命科学与生物医学进入以高质量数据、模型能力与应用验证协同推进的数据密集型研究新阶段。这里的基础模型既包括面向文本与知识的大语言模型,也包括面向生物序列、结构、单细胞与影像等模态的专用语言模型与跨模态模型。随着多组学、单细胞与空间组学、蛋白质序列与结构、医学影像与连续生理监测等数据快速扩展,研究对象在分子、细胞、组织到人群队列之间形成跨尺度关联,同时也使异构数据对齐、缺失与偏倚处理、跨中心可比性与可复用性成为制约知识产出的关键瓶颈。
在此背景下,模型训练与知识增强正在成为贯通数据与应用的重要抓手。一方面,预训练、指令微调与对齐等训练范式为模型提供通用能力,并通过领域适配提升其在生物医学语境下的可用性与稳健性。另一方面,检索增强生成(retrieval augmented generation, RAG) 通过将外部证据与模型推理结合,缓解幻觉与可追溯性不足的问题,而融合知识图谱的RAG 进一步以结构化关系组织证据链,支持更清晰的推理依据与人机协同决策。与此同时,隐私合规、数据产权边界与真实世界验证仍决定模型能否在科研与临床场景中稳定落地。
本专辑以AI for Life Science 为主题,面向生命科学与生物医学的共同需求组织稿件,系统呈现垂直领域模型与大语言模型的训练与评估、RAG与知识图谱增强RAG 等关键技术路线,并覆盖多组学队列与疾病预测、循证决策与临床转化、蛋白质与细胞基础模型、靶点发现及小分子与核酸药物设计、合成生物学等应用方向。专辑旨在为读者提供贯通数据治理、模型构建、证据推理与转化验证的问题框架,促进高质量数据供给与模型能力协同增值。
通讯作者:张国庆 , Email: 赵国屏 , Email: