美国能源部阿贡国家实验室研究人员和合作机构构建生成式人工智能模型,可根据分子离子被X射线炸开后的运动重建分子结构,该技术为库仑爆炸成像。相关研究发表于《自然通讯》,对能源、医药和制造业意义重大。

MOLEXA利用库仑爆炸成像数据重建分子结构的示意图。由强X射线脉冲产生的离子动量模式通过生成式人工智能模型进行分析,以推断分子几何结构及其不确定性。(图片由Stacy Huang提供。)
目前,对分离气相分子成像的方法有限,电子显微镜需固定样品,基于衍射技术要求分子样品密集且最终图像是平均值,限制了对细节的研究。库仑爆炸成像技术利用X射线脉冲轰击真空室中单个分子,使电子脱离,正离子爆炸性相互排斥撞击探测器,探测器捕获动量以重建分子结构,但受计算能力限制,重建过程此前大多不可行。
研究团队着手构建能克服计算限制的机器学习模型,在SLAC共享科学数据设施开发训练。生成式人工智能模型通过在训练数据中找模式学习,而非通过方程式计算。为收集训练数据,研究团队采用何教授开发的模拟程序,结合量子力学和经典物理方程,经一个多月运行生成含76000个分子样本的数据集。
最初仅用该数据集训练人工智能,模型预测不准确,后重新训练并添加约100倍规模但精度较低的经典物理学推导数据集,这种两步训练法提高了预测精确度。研究人员将模型命名为MOLEXA,测试发现两步训练过程可将预测误差降低一半。
研究团队用欧洲X射线自由电子激光装置小型量子系统仪器记录的实验数据集测试MOLEXA模型,测试分子包括水、四氟甲烷和乙醇。将实验测得的离子动量输入模型重建分子结构,与美国国家标准与技术研究院列出的已知结构比较,预测结果基本吻合,化学键位置准确,键角有细微偏差,位置误差通常小于典型化学键长一半。
该研究是推进库仑爆炸成像技术发展的重要一步,解决了从实验测量数据重建分子结构的难题。未来,研究人员计划扩大模型可重建的原子数量,将其应用于时间分辨实验,创建分子电影深入了解化学反应过程,解读高X射线脉冲率收集的数据,还测试模型从不完整数据中重建分子的能力。若挑战解决,该技术将在生物学和化学研究广泛应用。
该团队成员来自多所高校和研究机构,工作资金主要来自美国能源部科学办公室、堪萨斯州立大学GRIPex项目以及德国研究基金会。