近日,中国科学院合肥物质科学研究院核能安全技术研究所科研团队与合肥肿瘤医院合作,将表面增强拉曼光谱(SERS)技术与可解释堆叠集成模型(ISEM)相结合,实现了对血清中多达12种肿瘤标志物的高精度定量检测。相关成果发表在国际分析化学类TOP期刊Analytical Chemistry(《分析化学》)上。
血清肿瘤标志物的精准检测对于癌症早筛具有重要意义。然而,血清中复杂生物大分子的光谱信号相互干扰,准确定量特定标志物极具挑战;传统的机器学习模型决策过程未知,缺乏可解释性。针对上述难题,研究团队设计了能够处理SERS数据并对定量结果实现分子层面光谱解析的可解释堆叠集成学习架构(图1)。该模型集成了支持向量回归(SVR)、极端梯度提升(XGBoost)和偏最小二乘回归(PLSR)三种基模型的优势,并通过元模型(弹性网络)进行自适应加权整合。同时,研究引入LASSO特征选择降低了75.3%的数据维度,显著提升了计算效率和模型性能。结果显示,ISEM在对12种常见肿瘤标志物(包括AFP、CEA、CA19-9、CA125、CA15-3等)的定量分析中表现出卓越性能,所有标志物R2值均超过0.9,其中铁蛋白(Ferritin)和鳞状细胞癌抗原(SCCA)的R2值更是高达0.981和0.988(图2)。研究还进一步利用沙普利加性解释(SHAP)算法,从分子水平解析了模型的预测结果,通过关联拉曼特征峰位与分子振动模式,揭示了糖基化反应、基质干扰和光谱重叠等因素如何影响预测精度。这一分析框架成功实现了从“黑箱”预测到“白箱”解释的跨越,有望为临床检测结果提供血清中相关代谢分子依据。
该研究成果为复杂生物基质中多种肿瘤标志物的高精度定量检测提供了一种通用且可解释的技术路径,展现了在癌症早期筛查与精准医疗领域的巨大应用潜力。
论文的第一作者为核能安全所2023级博士生吴博宇,通讯作者为核能安全所辐射防护与环境安全研究室杨良保研究员、董荣录副研究员及合肥肿瘤医院邓庆梅主任医师。该项研究受到国家自然科学基金项目、安徽省重点研发计划、安徽省博士后科研项目等资助。

图1. 血清肿瘤标志物的SERS光谱获取处理及ISEM定量分析流程示意

图2. 可解释堆叠集成模型(ISEM)对12种血清肿瘤标志物的定量回归性能分析