Science发布基因组测序重大突破
日期:2016-04-05 09:06:29
基于更长序列读取的一项测序新技术,使得研究人员第一次发现了错过的一些基因和遗传变异形式。现在他们以接近小鼠和人类基因组的高质量,完成了对西部低地大猩猩(Western lowland gorilla)的基因组测序和组装。提供了在与人类的进化亲缘关系上仅次于黑猩猩的这一生物物种的一些生物学新见解。
在发表于4月1日《科学》(Science)杂志上的研究论文中,华盛顿大学基因组科学教授Evan Eichler领导的研究人员解释了,为什么以往大猩猩和其他哺乳动物基因组组装一直支离破碎、不完整、并且有可能具有误导性的原因:
大规模平行测序技术,在提高速度,改善精度和降低基因组测序成本的同时,通常只生成短序列片段(read),在测序后采用基因组组装软件将这些reads拼合到一起。
这一程序试图利用序列reads之间的重叠来重建原基因组。不幸地是,在人类和其他灵长类动物基因组中常见的长重复DNA,会使组装软件发生混乱,将基因组打碎成非常小的片段。
Eichler说:“这样的组装就像瑞士奶酪。在缺口(gap)中有许多错失的生物学信息。”采用短read技术构建的原西部低地大猩猩基因组被打碎成40多万个片段。
“这些缺口并非随机,而是集中在重复序列位点。如果遗传学家不能捕获这些重复序列,确定基因组中的一些结构差异,他们会难以了解基因的组织及比较物种内及跨物种的遗传变异。”
Eichler研究小组分析了来自芝加哥Lincoln动物园的一只雌性西部低地大猩猩的血液样本。
研究人员利用单分子实时(SMRT)测序技术、组装工具Falcon和QUIVER,以及其他的技术生成了长序列reads。比最流行的测序技术长度多100多倍。这些长reads使得他们能够在组装时仔细研究大猩猩基因组的大多数重复序列区域。
结果组装出了更大、片段数少得多的新大猩猩基因组。相比以往的40万个片段,现在只有1800个片段。基因组片段的平均大小增大了800倍,填补了原组装中约90%的缺口。
研究人员观察发现,这些附加的序列信息大大提高了对这一大猩猩物种的基因注释。它也促成发现了在首次基因组组装错过的、成千上万的蛋白质和肽编码片段以及新调控元件。
基因组控制机制上的差异,或某些基因调控元件的丧失或破坏,或许可以解释人类祖先进化成与类人猿近亲如此不同的原因。
科学家们还发现了数以万计的新结构变异,诸如DNA缺失与插入,这有可能比以往编录的较小的单碱基对差异要重要得多。
Eichler说:“我研究人类和类人猿基因组的动机就是,了解是什么给我们打上了作为一个物种的记号。我想看到重新测序包括黑猩猩和红毛猩猩在内的所有大猩猩基因组,获得区别人类和类人猿的遗传变异的全面视图。我相信存在比我们以往认为要多得多的遗传变异。第一步就是找到它。”
在这些区域研究人员看到了人类和大猩猩之间一些有趣的差异,存在于与感官知觉、角蛋白生成、胰岛素调控、免疫、生殖和细胞信号传导相关的基因中。
新基因组组装还提供了有关低地大猩猩进化史的一些新线索。以往的研究证实,大猩猩种群在不太遥远的过去遭遇了瓶颈,但对新基因组进行分析的结果显示这一瓶颈比以往认为的要更严重。
大猩猩基因组内的遗传变异模式可以提供一些疾病、气候改变、人类活动如何影响低地大猩猩种群的证据。
Eichler和他的研究小组在论文中写道:“测序技术和计算生物学现在已进展至个体实验室可以生成高质量哺乳动物基因组的阶段。这种能力有望彻底改变我们对基因组进化和物种生物学的认识。”
Eichler补充说,这些进展还有可能大大推动对人类疾病遗传基础的研究,尤其是如果以这种方式测序更多的人类基因组。
“作为医学研究者,如果我们只依赖短read序列,就如同我们的盔甲有裂隙。对大猩猩和其他人类基因组的研究工作清楚地证实了,采用短序列read方法无法理解大量的遗传变异。长read测序使得我们能够访问以前看不到的遗传变异新层面。”
上一篇: Science:首次确定寨卡病毒结构
下一篇: Nature子刊:解开蛋白质折叠的奥秘