加速Deformulation LC / MS与GC / MS数据通过数据库搜索
2018年11月12日
作者:马修·J Binnington安妮玛丽史密斯,理查德·李代表先进化学发展有限公司
随着质谱仪技术能力的进步——例如,更高的质量精度和分辨率,有效需求日益复杂的质谱(MS)分析样品相应的增长。液体和气体色谱法(LC, GC)代表有效的工具减少样品的复杂性,然而co-elution实验组件仍是几乎不可避免的。
尽管这样的质谱仪增强导致更大的准确性决定样品的基本组成部件,其输出缺乏结构信息。化学结构数据需要确定样本成分,和关键的过程区分“已知的未知”——组件之前确定分析女士——从真正的未知数。这一过程,称为deformulation,通常代表一个主要分析瓶颈。这是由于大量的时间需要确认所有已知的未知的存在,在继续隔离之前任何真正的未知数进行进一步的描述。
本文技术提出了一种两步deformulation方法设计有效地识别已知的未知1)利用LC / MS / MS数据执行质量光谱搜索可用的库,然后2)执行后续筛选任何解决组件对结构使用预测化学公式和精确的质量信息数据库。此工作流利用ACD /女士工作簿套件,搭配ACD /女士ID插件结构,加快deformulation并确保完整说明活动仅限于只有那些还没有被发现的组件。
实验
代谢物鉴定研究样本进行了分析使用LC /四极飞行时间(Q-TOF) /女士。结果数据集加载到工作簿女士套件(v2018.1.1)进行处理和分析。一个用户创建一份光谱数据库来执行光谱搜索,紧随其后的是结构中搜索本地版本的ChemSpider和PubChem结构数据库,作为必要的。
组件检测
在工作簿女士套件,IntelliXtract算法(IX)被用来提取所有色谱组件。第九利用专有的离子线程技术隔离所有相关组件,包括分化co-eluting山峰,执行集成、峰值和组光谱特性,以质谱生成组件。表中提取的山峰都是密集的组件(图1)。光谱带注释的,和表充满了潜在的确认和碎片离子的信息。
图1所示。组件填充峰值数据表,加上纯组分光谱的标签确认和碎片离子,之后通过第九样本分析。
Deformulation步骤1 ms谱搜索
数据库筛选
提取的LC / MS组件都是同时提交批处理一份光谱搜索。注意,根据变化MS1光谱来源于LC分离,一份光谱应该为LC / MS数据指定,而MS1数据建议GC / MS谱搜索。筛选本地用户创建数据库后,组件的表进一步填充前达到数据库中找到的每个峰,包括其结构和分子式如果可用(图2)。
图2。LC / MS数据集处理,表组件呈现顶部女士光谱数据库中的每个峰发现。
这个数据库搜索步骤也可以设置为自动运行后第九分析。因此,组件的表将充满注释和质谱峰值如下详细的处理,加上每个高级数据库的结构和分子式将被添加。
达到评价
选择一个特定的色谱组件之间的协议允许多方面的评价其高级结构冲击谱搜索,和相关的实验数据。例如,选择组件与保留时间(RT)的5.117分钟表组件的显示相应的纯组分光谱和一份数据(图2)。实验一提出与该组件的数据库一份顶级结构候选人的镜像图直观的视觉冲击质量评价。
此外,女士工作簿套件还定义了比例达到质量指标(HQI %)与实验结果量化程度的候选人协议。同样的组件在RT = 5.117 HQI % 74.134计算,表明强烈的比赛。这个描述是进一步支持附加冲击评估信息表的部件;即低定量质量差值(0.001 Da),和一个“优秀”女士匹配值(1.000)。
重要的是,任何组件可以进一步研究探索从光谱搜索返回数据库连接次数,不仅像最初提出的顶部。因此,专家用户可以手动查询完整的候选结果的补充和替换结构作业如果必要的话。
Deformulation步骤2——准确的质量和预测分子式筛查
分子式一代
deformulation通过光谱搜索的成功依靠MS1综合数据库和一份光谱,无论是公共或私有的,因此不存储之前仍将uncharacterised组件。在当前数据集存在这样一个例子:一个峰值位于RT = 4.155分钟。这个峰值在当地没有找到光谱数据库,进一步审讯被要求识别它。
女士工作簿套件附加结构ID非常适合女士后续筛选这样的不明身份的个人的山峰。检查相关的光谱数据的组件进一步女士的一份包括父母质量291.207 m / z。女士结构ID被用来估计这个质量的元素组成,与发电机的公式表明C17H26N2O2最适合基于该组件的同位素模式和准确的质量数据。
结构数据库筛选
当地ChemSpider和PubChem数据库筛选对这个组件的组合(RT = 4.155分钟)母公司大众(291.207 m / z)和预测分子式(C17H26N2O2),而应用公差5 ppm。初始编译结构的候选人名单包括超过35800的点击量,表明重要的过滤是必要的,以准确地识别该组件。消除重复结构削减33214年候选人名单,然后创建一个搜索过滤器结构女士ID使用结构包括和排除列表。基于知识的代谢起始物料,该组件的正确结构将包含dimethoxybenzene,但不是任何二环子结构(图3)。这个过滤步骤减少更可控的群列表154支安打(删除重复之后),与候选人如图3所示的一个子集,然后检查进一步辨别展示最好的协议。
图3。描述组件的结构潜在的候选人名单如何RT = 4.155分钟从33214年到154年减少了过滤通过结构包括/排除列表。一)组件的色谱和痕迹女士在RT = 4.155分钟,B)应用结构包括(dimethoxybenzene-green)和排除(二环substructures-red)列表,
候选人C)的一个子集生成的结构组件在RT = 4.155分钟。
达到评价
为了选择最合适的结构,从过滤后的列表中所有154名候选人排名女士工作簿内使用AutoAssignment工具套件。这个工具计算数值赋值评分,0 - 1,通过比较实验一份组件候选结构的光谱预测后的碎片。对当前目标组件,只有17结构拥有分配分数高于0.900。这些17支安打进一步审问通过外观检查完成AutoAssignment结果对于每个候选人,最终确定最佳匹配分析数据的结构(图4)。
图4。进一步检查点击率最高的作业分数(> 0.900)表示最好的结构候选目标组件RT = 4.155分钟。
结论
新更新deformulation工作流女士在工作簿套件可以有效地用于识别多个组件同时从LC / MS和GC / MS数据集,分别使用一份和MS1光谱数据。软件完成这个任务通过提供广泛的,公正的,相关的列表结构通过光谱搜索识别已知的未知。
进一步补充女士工作簿套件的ID附加结构可以简化描述女士个人LC / MS与GC / MS不通过光谱搜索有效识别已知的未知,很大程度上是由于数量相对较少的已知结构光谱编目中可用的数据库。女士结构ID插件能够快速搜索范围广泛的潜在结构使用精确的分子质量和预测公式,确保所有已知的未知都可以正确承认之前投资更大努力阐明真正的未知数女士从复杂样品中。



