代谢组学技术目前已发展成为系统生物学研究领域中最为活跃的分支学科之一,是研究生物体或器官的内源性代谢物质整体变化的科学。由于现代分析技术的迅速发展,可以得到高通量的数据,代谢组学研究正面临着统计模式识别方法学的挑战。如何选择适当、科学的多元统计模式识别方法来更有效、更准确地找出生物标志物,是目前影响代谢组学研究发展的关键技术难题,因此选取和创造适当的统计模式识别方法进行代谢组学研究是非常有意义的。
在进行代谢组学图谱数据研究中,最主要的目的是进行代谢组学潜在生物标志物识别,近年来最常用的统计模式识别方法是主成分分析、偏最小二乘判别分析和人工神经网络等方法。然而这些方法存在一些不足,如:主成分分析和偏最小二乘判别分析方法不能提供量度,只是从视觉上来确定离群远的点为潜在生物标志物,并且对于非线性的代谢组学数据处理效果不好;人工神经网络方法易陷入过拟合状态,降低了其准确程度。以上这些都限制了常用的统计模式识别方法在代谢组学中的应用。我校药学院毕开顺教授和医疗器械学院青年教师李佐静等人创新性的将标志物识别问题转化为成百甚至上千个假设检验同时进行,从定量上对潜在生物标志物的识别进行分析,基于基因芯片研究中的Local False Discovery Rate(LFDR)估计方法,构建了应用在代谢组学中潜在生物标志物识别的新算法—参数LFDR估计方法,首次将LFDR应用在代谢组学研究中,相关结果发表在近期的PLOS ONE杂志上,(Zuojing li, Qing Li, Lulu Geng, Xiaohui Chen, Kaishun Bi. Use of the local false discovery rate for identification of metabolic biomarkers in rat urine following Genkwa flos-induced hepatotoxicity.DOI:10.1371/journal.pone.0067451.IF=4.1)。
代谢组学潜在标志物识别的本质是多个保留时间的峰值同时进行假设检验,因此标志物的识别问题是多重假设检验技术。LFDR估计方法是基于零假设为真的后验概率的一种估计法,多用于生物芯片(基因芯片、染色体芯片)的研究。它可对大量的基因同时进行检验,因此可用于代谢组学生物标志物识别中检验不同保留时间的空白组和模型组中的峰值是否相同,即通过估计LFDR可以得到基于现有样本每一个保留时间的代谢物质没有被药物治疗所影响的概率。可以更有效的解释每一个标志物,而不仅仅是找到潜在的生物标志物。即如果认为LFDR小于0.05的代谢物组为被药物所影响的标志物,其表示找到的标志物被药物所影响的概率都大于95%。在LFDR估计中,毕开顺教授、李佐静老师等提供一种参数LFDR估计方法用于代谢组学潜在生物标志物识别问题的研究。这种方法不仅适用于大量(成千上万)基因同时进行检验而且也适用于中等数量的多重检验(几百个检验),可以控制错误率,提高准确率。
该研究工作得到了国家自然科学基金项目的资助。