【資料圖】
中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江研究員課題組在Nature Communications雜志在線發表了題為“Metabolite Annotation from Knowns to Unknowns through Knowledge-guided Multi-layer Metabolic Networking”的研究論文 (Nature Communications, 2022, 13: 6656) 。該工作發展了一種知識驅動的多層代謝網絡技術(Knowledge-guided multi-layer networking, KGMN),在復雜生物樣本中實現了未知代謝物的大規模鑒定。朱正江課題組畢業生周智偉博士,博士研究生羅名都同學是論文的共同第一作者,中國科學院上海有機化學研究所生物與化學交叉研究中心為第一單位。
生命體代謝組不僅包含內源性產生的已知代謝物,還包含微生物菌群、植物、食物和其他來源的未知代謝物。這些未知代謝物對生命活動起到重要的調控作用。然而,如何大規模鑒定未知代謝物是當前代謝組學研究中的熱點和難點。在前期研究中,朱正江課題組發展了基于代謝反應網絡的代謝組學技術MetDNA(Nature Communications, 2019, 10: 1516)。該技術利用代謝反應網絡中產物和底物存在結構相似性和二級質譜圖相似性的基本原理,設計了代謝物二級質譜圖“譜圖借用”和“多次迭代”算法,利用標準譜圖庫鑒定出的代謝物作為種子,依靠代謝反應網絡進行代謝物注釋的迭代和傳遞,突破了標準二級質譜圖庫的覆蓋度限制,實現大規模的已知代謝物鑒定。然而該技術仍然存在一些局限:1) 代謝物鑒定傳遞的過程是僅限于已知代謝反應網絡,因此無法用于發現新的未知代謝物;2) 復雜質譜數據中的大量冗余信號 (如同位素峰、加合物峰、中性丟失和源內裂解等)會對代謝物的鑒定造成假陽性。
針對以上問題,作者進一步發展了知識驅動的多層代謝網絡技術(KGMN),實現了從已知代謝物鑒定未知代謝物的能力,并顯著提升了代謝物鑒定的準確度。基于該技術,作者開發了第二代MetDNA軟件(MetDNA2)。該技術首次整合了3層代謝網絡(圖1):1) 知識驅動的代謝反應網絡;2) 知識引導的二級質譜圖相似性網絡;3) 全局代謝峰相關性網絡。首先,作者利用理論代謝反應對于已知的代謝反應網絡進行擴展,從而構建了包含已知和未知代謝物的擴展代謝反應網絡(KMRN,網絡1)。MetDNA2從標準譜圖庫鑒定出的種子代謝物出發,基于擴展代謝反應網絡和“譜圖借用”策略,構建二級質譜圖相似性網絡(網絡2)。該策略可以通過多次迭代和循環擴增的算法,將代謝組學質譜數據中的所有已知和未知代謝物連接,直到沒有新的注釋代謝物。在網絡2中,代謝物節點之間的連接有四個限制條件:MS1 m/z、保留時間、MS/MS譜圖相似性和代謝反應轉化(metabolic biotransformation)。對于注釋到的每一個代謝物,MetDNA2會進一步通過靶向檢索其相關的冗余質譜特征峰(如同位素峰、加合物峰、中性丟失和源內裂解等),并構建全局代謝峰相關性網絡(網絡3)。最后,利用全局代謝峰相關性網絡,MetDNA2對注釋的代謝物結果進行全局優化,提升代謝物鑒定的準確度,去除假陽性注釋結果返回最終鑒定結果。整個數據處理流程全程自動化,無需人工干預,提升了數據分析的效率。
圖1 知識驅動的多層代謝網絡技術KGMN
利用上述技術,MetDNA2對于已知代謝物的鑒定準確性從~70%提升至>95%。同時,在不同的生物樣本中,MetDNA2還能夠鑒定~100-300個未知代謝物;對于單個生物樣本鑒定的代謝物數目在2000-5000個左右。在MetDNA2中,每一個鑒定結果均根據國際代謝組學協會標準指定特定的可信度。此外,MetDNA2還包含了一系列重要的更新和升級,如全面升級的標準代謝物譜圖數據庫(>2000個代謝物);兩種不同色譜體系的保留時間數據庫 (HILIC 和C18體系);適配所有廠商的高分辨二級質譜數據等。
為了方便相關領域研究者應用該工具,課題組提供了用戶友好型的界面和網站MetDNA2 (http://metdna.zhulab.cn/),學術用戶可以免費注冊使用。該工作所開發的KGMN技術已經申請了國家發明專利和國家軟件著作權。相關技術和軟件的商業用途需要聯系朱正江研究員進行授權使用。該工作得到了國家自然科學基金委、科技部、中國科學院、上海市科委等的資助。
論文鏈接:https://www.nature.com/articles/s41467-022-34537-6