基于人工智能驱动的质谱多组学技术已成为生命科学领域的核心突破方向,其通过整合分子图谱解析与智能算法创新,正在重塑精准医学研究范式。在质谱多组学技术的国际竞争格局中,欧美科研机构依托先发技术优势,已在数据深度挖掘与临床转化路径建设方面形成领跑态势。于长斌课题组创新性开发了具备自主知识产权的质谱数据存储格式,通过高压缩比编码算法与并行化解码引擎的设计,在保证数据完整性的前提下将原始质谱文件体积缩减至常规格式的12%-15%,同时数倍提升数据解码速率。该技术突破使得万级质谱样本队列的批量人工质控有实际可行性,并成功构建起融合数据压缩、智能质控与深度学习的代谢组学分析体系,为大规模多中心代谢组学研究提供了标准化解决方案。

于长斌教授
山东第一医科大学医学信息与人工智能学院于长斌教授课题组于2018年起从质谱数据压缩算法切入,完成了自主可控的质谱数据新格式Aird,新格式在数据压缩、质谱图块数据读取、列式存储压缩等方面进行了大量创新,最终在压缩率与读取性能上取得了巨大的提升,发表了多篇SCI一区论文。同时与国内代谢组学头部企业、高校实验室、医学研究所、国家级植物所合作,将相关数据格式应用于正式的生产环境,据不完全统计, 目前合作单位以Aird为基础质谱存储格式,在数年间已完成数十万个质谱样本的数据分析,这也为基于AI的大规模质谱数据分析奠定了扎实的基础。
图1.面向计算的Aird格式通过对不同采集模式下的质谱图重排算法有效提升了质谱数据块的读取速率

图2.面向搜索的Aird格式通过列式存储与压缩,将质谱数据处理中最通用的色谱图提取算法(XIC)速度提升
2019年起,为突破代谢组学数据分析领域长期依赖进口软件过国外开源学术软件的瓶颈,团队启动了具有自主知识产权的代谢组学数据分析平台研发计划。研究团队由生物信息学、人工智能算法和云计算领域专家构成的跨学科研发团队,分别在非靶向、靶向和半靶向代谢组学三大核心场景开展技术攻关。
在非靶向代谢组学方向,团队创新性地将三维点云识别技术与深度学习算法相结合,历时两年研发出具有里程碑意义的3D-MSNet分析算法。该算法通过构建三维质谱特征向量空间,实现了色谱峰提取过程中的数据无损性。经国际同行评审验证,其化合物鉴定的准确率显著超越国际同类软件。


图4. 3D-MSNet算法在同类软件中取得了最佳的鉴定率以及鉴定稳定性
针对半靶向代谢组学领域长期存在的质控标准化难题,团队于2020年推出行业首个大规模质控分析平台MetaPro。该平台创新性地整合了LC-MS/MS原始质谱数据质量评估体系(包含内标稳定性、进样柱稳定性等多项质控核心指标),目前已在国内多家头部三方检测机构、知名高校实验室及研究所完成生产环境的部署与使用,MetaPro平台也在部署与使用的过程中获得了同行的高度评价。


图5. 来自合作方的高度评价信
2023年,团队完成代谢组学分析技术版图的最后一块拼图,正式发布靶向代谢组学专用平台MRMPro。该平台攻克了多重反应监测模式下人工审核效率低,在工业环境中成本高的问题,通过自主研发的基线校正算法、批次校正算法以及大规模批量积分算法,大幅降低了行业界传统的人工审核成本。

图6. MRMPro质控与数据分析界面
经过多年的持续创新与技术积累,团队成功构建了覆盖代谢组学全场景分析的技术软件矩阵。该矩阵集成了样品前处理、数据采集、质谱分析等完整技术链条,形成了从实验设计到数据完整分析的一站式解决方案,技术成果转化累计产生直接经济效益超400万元。
近年来,随着人工智能技术的快速发展,特别是以GPT,DeepSeek等为代表的大模型技术的突破性进展,团队敏锐把握技术发展趋势,进一步深化"AI for Science"方向的战略布局。基于已有的质谱多组学科学软件矩阵,团队着手构建全新的"智能多组学分析平台(MSExplorer)"。该平台计划通过深度融合了深度学习、知识图谱、自然语言处理等先进AI技术,能够实现从海量多组学数据智能分析到生物学机制解释的一站式服务,在完成精准化质谱数据分析的同时,可以为各个质谱多组学研究团队引入一位全面而专业的生物学AI专家。