本文作者:访客

全球首个百亿级可部署基因组基础模型诞生,精准识别遗传多样性新纪元开启

访客 2025-10-23 11:40:37 5719
全球首个百亿级可部署基因组基础模型诞生,该模型具备精准识别遗传多样性的能力,这一重要突破为遗传学研究及精准医疗领域带来革命性进展,有望推动基因测序技术的广泛应用,提高人类对于遗传疾病的预防与诊疗水平。

23日,华大生命科学研究院与之江实验室联合发布了全球首个百亿参数可部署的基因组通用基础模型Genos。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。

人类基因组由30亿对碱基组成,虽然“人类基因组计划”已经破译了序列,但序列上碱基的具体功能仍需进一步识别和解析。现有模型大多基于1-2个参考基因组进行训练,难以体现人类遗传资源的多样性。Genos整合了人类泛基因组参考联盟、人类基因组结构变异图谱计划等多个权威公开资源,首次将全球范围内636个高质量人类基因组作为训练数据,这些数据覆盖了全球不同人群,有助于更全面理解人类遗传多样性。

在算法架构方面,Genos采用“混合专家”架构,能够精准调度强相关算法协同处理,在汇总百亿级庞大参数时成功降低推理成本和资源消耗,使模型既强大又好用。测试结果显示,Genos在直接面向临床应用的致病性突变解读任务中准确率达92%,结合科学基础模型后准确率高达98.3%。多项综合评测结果表明,Genos超越了现有最佳水平模型。

目前,Genos模型已在HuggingFace、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,以满足不同需求。

阅读
分享