Nature:十年探索,编写人类的百科全书
日期:2012-09-07 08:02:19
Ewan Birney想将他与他的合作者们在过去五年来作为ENCODE(ENCODE(DNA元件百科全书,Encyclopedia of DNA Elements)的项目部分所收集基因组数据构建出一份打印件。然而找到一个地方放置它将是一个挑战,即便每个平方厘米能够容纳1000个碱基对,这份打印件也将延展达到16米高,至少30公里长。
ENCODE是在人类基因组计划停止的地方有意地展开的接力。尽管人类付出了巨大的努力揭示了人类生物学的蓝图,人们很快就清楚地认识到对于读取这一蓝图的指令手册至多还是粗略的。研究人员在30个碱基中发现了许多的蛋白质编码区域,但这些仅构成了不到1%的基因组,包含在大约2万个基因中——在一张光秃秃的无法辨识的图谱中仅有少数熟悉的物体。许多的生物学家质疑导致人类令人惊叹的复杂性的信息存在于基因间的“沙漠”中。ENCODE,自2003年启动以来,这一庞大的数据收集工作旨在填充这一领域。其目的是将潜伏在那里的“功能性”DNA序列编撰目录,了解何时及在何种细胞中它们处于活性状态,并追踪它们对于基因组包装、调控和读取的影响。
经过最初的试验性阶段后,2007年ENCODE的科学家们开始将他们的方法应用到整个基因组。现在这一阶段以发表在Nature、 Genome Research和Genome Biology等杂志上的30篇论文作为标志宣告结束。该联盟将某一类的功能赋予了大约80%的基因组,包括超过7万个“启动子区域(基因上游,蛋白质结合控制基因表达的位点)以及近40个”增强子“区域(调控远端基因表达)。然而英国欧洲分子生物学实验室欧洲生物信息学研究所计算机生物学家Birney表示工作还远远没有结束,其负责协调ENCODE的数据分析。Birney说一些绘图工作大约完成了一半,更深入地确定基因组所做的每件事物的特征有可能还只完成了10%。第三阶段现在正在进行,将填补人类的指令手册,提供更多的细节。
许多接触到这一庞大数据流的人对于其远景感到非常兴奋。ENCODE已经阐明了基因组的一些黑暗角落,创造了了解遗传变异如何影响人类性状和疾病的机会。探索借助这一计划揭示的无数的调控元件,将他们的序列与来自其他哺乳动物的进行比较有希望重新改编科学家们对于人类进化的理解。
然而一些研究人员想知道到哪一点才算是够了。“我看不见失控的列车很快地停下来,”英国牛津大学计算机生物学家Chris Ponting说。尽管Ponting对这一计划的目标持支持态度,但他却质疑ENCODE的某些方面是否将为预计超过1.85亿美元的投资提供回报。然而,麻省大学医学院ENCODE团队的负责人Job Dekker却表示实现ENCODE的潜能将需要一些耐心。“有时候需要一段很长的时间才能知道你能从所有给定的数据集中学习到多少,”他说。
即便在人类基因组序列完成前,国家人类基因组研究所(NHGRI), 美国基因组科学的主要资金管理机构,就已经主张用一种系统性的方法来鉴别DNA中的功能性片段。在2003年,它邀请科学家们提出了只在1%的基因组上获得这样的信息的试点项目,帮助确定哪些实验技术有可能对整个事情起最好的作用。
上一篇: 2篇Nature文章解析肺癌致病基因
下一篇: 人类的后基因组时代