在生命科学研究中,对有价值的基因序列进行比对分析,再利用相关软件构建系统进化发育树已是常规操作。这类“生物树”在生物分类学、微生物基因组学、以及其他生物功能基因组学研究中发挥了关键性作用。那么,这种构建系统发育树的思维可否应用到化学研究中呢?最近美国加州大学圣地亚哥分校(UCSD)的PieterC.Dorrestein教授团队就借鉴了这种思维开发了“化学树(Qemistree)”系统来分析小分子化合物。PieterC.Dorrestein教授。图片来源:UCSD他们选择的基础信息是这些小分子化合物的质谱数据。在以往研究中,分子网络(Molecularnetworking)是将串联质谱(MS/MS)碎裂片段关系可视化的常用方法,早在年就被引入学术界。质谱数据的相似性暗示着化学结构的相似性,因此化学结构信息能够以分子网络形式表现,化学关系也变得可视化。Dorrestein教授此前曾与UCSD的同事们以此为基础构建了网络平台——全球天然产物分子网络(GNPS)[1,2]。然而,要在整个数据集范围内以及在多种样本元数据的背景下推断化学关系,分子网络方法还显得力有不逮。为满足这一需求,Dorrestein教授团队从分析DNA序列数据的工具中获取灵感,开发出一种名为Qemistree(英文“化学树”的发音)的软件工具,从质谱数据预测分子指纹并基于此构建化学树来可视化地表示化学关系。他们在Qemistree中使用SIRIUS16和CSI:FingerID13获得预测的分子指纹,并使用这些分子指纹计算化学特征和层次聚类之间的成对距离,随后使用ClassyFire23对分子进行五级化学分类(化学域、超类、类、亚类和直接父本体),最后用例如iTOL24这样的系统发育工具构建可视化分子“化学树”。接下来是Qemistree的各种验证。首先,为了验证基于分子指纹的化学树可以正确捕获分子间的化学关系,作者设计了使用四个不同的生物标本(两个人粪便样品、番茄幼苗样品和人血清样品)的评估数据集。他们将4个标本组成二元、三元和四元混合物,且成分比例不同。样品使用不同色谱洗脱梯度进行两次质谱实验,引起两次色谱保留时间漂移。随后使用Qemistree将不同色谱条件下的质谱数据映射到一个分子指纹,并以树状结构进行组织呈现(下图)。由于分子指纹与保留时间漂移无关,因此质谱基于其化学相似性聚类。Qemistree分析显示,不同色谱洗脱梯度下,基于分子指纹的化学特征被安排在相邻的点,并不受保留时间漂移影响。这些结果表明Qemistree适用于从不同条件下获得的数据集的比较。不同色谱洗脱梯度下Qemistree聚类结构相似分子。图片来源:Nat.Chem.Biol.随后,他们展示了Qemistree在代谢组学中的应用。如下图a所示样品1-3,传统代谢组学统计分析模式没有考虑到数据集内分子间的化学关系,导致样品2和3中的糖类分子相互之间的化学关系以及它们与样品1中脂类分子与之间的化学关系距离相同(下图a左侧),这显然是不合理的。当他们使用基于化学树的一系列方法进行化学信息比较分析时,可以看到样品1和样品2、3存在化学差异(下图a右侧)。接下来,对评估数据集(包括纯样品和样品混合物,N=)进行主坐标分析(principalcoordinatesanalysis,PCoA),忽略化学树结构(图2b)的PCoA效果远比使用化学树的QemistreePCoA(图2c)差。化学树用于样品比较的优势。图片来源:Nat.Chem.Biol.最后,他们利用全球食品组学数据库[3]收集的食品样品进行化学成分多样性研究,以验证Qemistree广泛适用性。由于食物中大多数分子都未注明,因此要理解不同食物之间的相互关系极具挑战性。他们选择了代表动物、植物和真菌的各种各样食物类型,使用基于Qemistree的一系列化学信息学研究工具,在化学树分支中标记食品中的不同化学成分,如类*酮、生物碱、磷脂、酰基肉碱和O-糖基化合物等。结果表明化学树与样本元数据吻合,并揭示了每种样品类型含有不同的化学分类。例如,代表酰基肉碱的分支只在动物源食品中发现;相比之下,蜂蜜虽然也被归为动物源食品,但其大部分化学成分与植物源食品相同,这表明了蜜蜂以植物花蜜和花粉为食物。此外,在蜂蜜和植物源食品中都发现了类*酮,但在其他动物源食品中则没有此发现(下图)。基于预测分子指纹对食品来源化合物进行化学树分析。图片来源:Nat.Chem.Biol.有意思的是,他们的研究对象也包括了成分复杂的食品,比如含有蓝莓、牛奶、细菌和酵母等的蓝莓Kefir(一种发酵乳饮料),还有西班牙红肠炒鸡蛋(scrambledeggwithchorizo)和陈皮鸡(orangechicken)。分析结果可以看出,一些特征性代谢物来源于特定的原材料,例如来自鸡蛋的磷酸乙醇胺存在于炒鸡蛋(下图b)中,但不存在于其它两种食品(下图a、c)。他们利用“化学树”还发现了在食品的最初配料表中没有注明的添加成分,例如,他们发现西班牙红肠炒鸡蛋和陈皮鸡中含黑胡椒,但是相关信号未在蓝莓Kefir中发现(下图a)。在简单和复杂食品中观察到的化学树。图片来源:Nat.Chem.Biol.总结PieterC.Dorrestein团队的研究表明,从质谱数据预测分子指纹并基于此构建“化学树”可以很好的表示化学关系并可视化,他们开发的Qemistree可以清晰地捕捉各种公共数据库样品的化学本体和分子间化学关系。这项工作的关键性贡献是利用以往用于DNA测序分析的系统发育工具构建化学层次结构,来探索代谢组学数据。此外,Qemistree不仅可以比较一个数据集样本中的化学信息,还可以用于处理多个数据集样本,这类似于大规模的基因序列样品快速比较分析。因此,他们预计Qemistree作为一种数据组织和比较策略,将在全球分析化学、医学、环境微生物、食品科学等领域有广泛的应用前景。原文(扫描或长按