Your Good Partner in Biology Research

中科大最新文章:肿瘤SNP芯片分析新发现

日期:2014-12-02 09:04:50

 单核苷酸多态性微阵列(SNP array)技术是近年来获得快速发展的一种高通量生物芯片技术, 可以有效地对肿瘤细胞中的染色体变异进行检测. 近期中国科学技术大学信息科学与技术学院的研究人员针对癌症药物治疗前后肿瘤的染色体变异的成对 SNP array数据, 提出了一种基于多元方差分析二维统计量的全新染色体异常区域分段算法.

 

肿瘤细胞的产生常伴随其细胞中染色体的变异. 常见的肿瘤染色体变异包括拷贝数变异(copy number alteration, CNA)和杂合体缺失(loss of heterozygosity, LOH). 随着单核苷酸多态性微阵列技术(SNP array)的发展, 近年来出现了许多利用高通量SNP array 检测癌症染色体变异的工作, 极大地推动了人们对癌症致病机理的分析和研究.

 

目前肿瘤 SNP array 数据的分析工作的主要难点在于肿瘤染色体复杂的变异方式, 以及信号的信噪比较低等问题, 因此需要发展有效的方法对 SNP array 数据中的染色体变异区域进行准确检测.

 

目前的常用算法是对 SNP array 实验中获得的数据进行统计分析, 在此基础上通过对连续信号分段处理将染色体上变异区域检测出来. 循环二元分割算法(circular binary segmentation, CBS)是目前常用的SNP array 数据分段算法, 其优势在于利用相邻待测区间的数据均值差构建 t 统计量, 进而精确检测不同变异区域间的分段点. 在抗癌药物疗效的研究中, 需要对治疗前后的成对 SNP array 数据进行分析, 以精确定位与药物作用相关的肿瘤染色体变异区域; 由于 CBS 算法对噪声较为敏感, 且只能对成对肿瘤SNP array 数据进行分别处理, 因此效果并不理想. CBS 算法的现有改进主要集中在提高算法运行效率、父母特异性的拷贝数识别以及跨平台数据的联合分析, 而非针对癌症药物治疗前后成对 SNP array 数据的分段检测, 如多平台联合 CBS(MPCBS)算法的侧重点是利用加权卡方统计对同一肿瘤样本在不同平台下的数据进行联合分段, 因此无法识别用药前后肿瘤染色体异常的变化.

 

在这篇文章中,研究人员针对癌症药物治疗前后肿瘤的染色体变异的成对 SNP array数据, 提出了一种基于多元方差分析二维统计量的全新染色体异常区域分段算法.

 

这种方法通过把多元方差分析(multivariate analysis of variance, MANOVA) CBS 的分段策略相结合的方式, 将成对数据中出现的染色体变异区域进行联合分段和准确检测,而且经过对已知变异区域的模拟数据分段, ROC曲线的评估, 以及对实际数据 ERBB2 基因的精确定位, 这种算法对异常染色体区域的定位准确度和抗噪声性能都显著优于 CBS 算法.

 

研究人员表示,对模拟 SNP array 数据的测试表明, 这一算法可以精确地将成对肿瘤数据异常区域进行分段, 其结果明显好于现有的循环二元分割(CBS)算法.

 

同时, ROC 性能曲线分析显示本文算法具有较好的抗噪性能. 对赫赛汀治疗前后的成对乳腺癌 SNP array 数据的分析结果显示, 该算法可准确地检测出重要致癌基因 ERBB2 在治疗前后的拷贝数变化. 这些结果表明这种基于多元方差分析的算法是一种有效的 SNP array数据分析工具.

 

总的说来,这一研究结合多元方差分析和 CBS 的递归分段修剪思想, 提出了一种针对成对肿瘤 SNP array 数据染色体变异的分段算法. 与已有的 CBS 算法相比, 这种算法在变异位点检测、 抗噪性能方面具有明显的优势. 考虑到该算法在计算复杂度方面的问题, 下一步的工作将对修剪算法进行优化, 以进一步提高此算法对高通量染色体数据处理的分析效率.