完成人类基因组序列完成图
⑴ 从当前物理图谱生成的克隆产生完成的序列,覆盖基因组的常染色质区域大于96%。大约1Gb的完成序列已经实现。剩下的也已经形成草图,所有的克隆期望达到8~10倍的覆盖率,大约2001年中期(99.99%的正确率),使用已经建立的和日益自动化的协议。
⑵ 检测另外的库来关闭gaps。使用FISH技术或其他方法来分析没有闭合的Gaps大小。22,21条染色体用这种方式。2003年已经完成。
⑶ 开发新的技术来关闭难度较大的gaps,大约几百个。
基因组序列工作框架图(Working draft):通过对染色体位置明确的BAC连续克隆系4-5倍覆盖率的测序(在BAC克隆水平的覆盖率不应低于3倍),获得基因组90%以上的序列,其错误率应低于1%。工作框架图可用于基因组结构的认识、基因的识别和解析、疾病基因的定位克隆,SNP的发现等。
草图的作用
1、草图,许多疾病相关的基因被识别
2、SNP(人与人之间的区别),草图提供了一个理解遗传基础和人类特征进化的框架。
3、草图后,研究人员有了新的工具来研究调节区和基因网络。
4、比较其它基因组可以揭示共同的调控元件,和其他物种共享的基因的环境也许提供在个体水平之上的关于功能和调节的信息。
5、草图同样是研究基因组三维压缩到细胞核中的一个起点。这样的压缩可能影响到基因调控
6、在应用上,草图信息可以开发新的技术,如DNA芯片、蛋白质芯片,作为传统方法的补充,目前,这样的芯片可以包含蛋白质家族中所有的成员,从而在特定的疾病组织中可以找到那些是活跃的。
2001年2月12日,美国Celera公司与人类基因组计划分别在《科学》和《自然》杂志上公布了人类基因组精细图谱及其初步分析结果。其中,政府资助的人类基因组计划采取基因图策略,而Celera公司采取了“鸟枪策略”。至此,两个不同的组织使用不同的方法都实现了他们共同的目标:完成对整个人类基因组的测序的工作;并且,两者的结果惊人的相似。整个人类基因组测序工作的基本完成,为人类生命科学开辟了一个新纪元,它对生命本质、人类进化、生物遗传、个体差异、发病机制、疾病防治、新药开发、健康长寿等领域,以及对整个生物学都具有深远的影响和重大意义,标志着人类生命科学一个新时代的来临。
众多发现
1、分析得知:全部人类基因组约有2.91Gbp,约有39000多个基因;平均的基因大小有27kbp;其中G+C含量偏低,仅占38%,而2号染色体中G+C的含量最多;到目前仍有9%的碱基对序列未被确定,19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少等等(具体信息可参见cmbi 特别报道:生命科学的重大进展)。
2、目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶占10.28%,核酸酶占7.5%,信号传导占12.2%,转录因子占6.0%,信号分子占1.2%,受体分子占5.3%,选择性调节分子占3.2%,等。发现并了解这些功能基因的作用对于基因功能和新药的筛选都具有重要的意义。
3、基因数量少得惊人:一些研究人员曾经预测人类约有14万个基因,但Celera公司将人类基因总数定在2.6383万到3.9114万个之间,不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。如此少的基因数目,而能产生如此复杂的功能,说明基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义,也说明人类的基因较其他生物体更'有效',人类某些基因的功能和控制蛋白质产生的能力与其他生物的不同。这将对我们目前的许多观念产生重大的挑战,它为后基因组时代中生物医学的发展提供新的非凡的机遇。但由于基因剪切,EST数据库的重复以及一些技术和方法上的误差,将来亦可能人类的基因数会多于4万。
4、人类单核苷酸多态性的比例约为1/1250bp,不同人群仅有140万个核苷酸差异,人与人之间99.99%的基因密码是相同的。并且发现,来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。
5、人类基因组中存在“热点”和大片荒漠。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成分。基因组上大约有1/4的区域没有基因的片段。在所有的DNA中,只有1%-1.5%DNA能编码蛋白,在人类基因组中98%以上序列都是所谓的“无用DNA”,分布着300多万个长片断重复序列。这些重复的“无用”序列,决不是无用的,它一定蕴含着人类基因的新功能和奥秘,包含着人类演化和差异的信息。经典分子生物学认为一个基因只能表达一种蛋白质,而人体中存在着非常复杂繁多的蛋白质,提示一个基因可以编码多种蛋白质,蛋白质比基因具有更为重要的意义
6、男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。所以,可能男性在人类的遗传中起着更重要的作用。
7、人类基因组中大约有200多个基因是来自于插入人类祖先基因组的细菌基因。这种插入基因在无脊椎动物是很罕见的,说明是在人类进化晚期才插入我们基因组的。可能是在我们人类的免疫防御系统建立起来前,寄生于机体中的细菌在共生过程中发生了与人类基因组的基因交换。
8、发现了大约一百四十万个单核苷酸多态性,并进行了精确的定位,初步确定了30多种致病基因。随着进一步分析,我们不仅可以确定遗传病、肿瘤、心血管病、糖尿病等危害人类生命健康最严重疾病的致病基因,寻找出个体化的防治药物和方法,同时对进一步了解人类的进化产生重大的作用。
9、人类基因组编码的全套蛋白质(蛋白质组)比无脊椎动物编码的蛋白质组更复杂。人类和其他脊椎动物重排了已有蛋白质的结构域,形成了新的结构。也就是说人类的进化和特征不仅靠产生全新的蛋白质,更重要的是要靠重排和扩展已有的蛋白质,以实现蛋白质种类和功能的多样性。有人推测一个基因平均可以编码2-10种蛋白质,以适应人类复杂的功能。
模式生物:酵母(yeast)、大肠杆菌(Escherichia coli)、果蝇(Drosophila melanogaster)、线虫(Caenorhabditis elegans)、小鼠(Mus musculus)、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。
目前基因组学的研究出现了几个重心的转移:一是将已知基因的序列与功能联系在一起的功能基因组学研究;二是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因转向探索发病机理;四是从疾病诊断转向疾病易感性研究。
在后基因组时代,如果在已完成基因组测序的物种之间进行整体的比较、分析,希望在整个基因组的规模上了解基因组和蛋白质组的功能意义,包括基因组的表达与调控、基因组的多样化和进化规律以及基因及其产物在生物体生长、发育、分化、行为、老化和治病过程中的作用机制都必须发展新的算法以充分利用超级计算机的超级计算能力。
美国和英国科学家2006年5月18日在英国《自然》杂志网络版上发表了人类最后一个染色体——1号染色体的基因测序。
在人体全部22对常染色体中,1号染色体包含基因数量最多,达3141个,是平均水平的两倍,共有超过2.23亿个碱基对,破译难度也最大。一个由150名英国和美国科学家组成的团队历时10年,才完成了1号染色体的测序工作。
科学家不止一次宣布人类基因组计划完工,但推出的均不是全本,这一次杀青的“生命之书”更为精确,覆盖了人类基因组的99.99%。解读人体基因密码的“生命之书”宣告完成,历时16年的人类基因组计划书写完了最后一个章节。 人类基因组计划中还包括若干个模式生物体基因组计划,中国重点支持的水稻基因组研究计划亦可划入这一范畴。模式生物体一直就是生命科学领域研究的基本模型,加之它们与人类相比基因组结构简单、单位DNA长度上基因密度高, 易于基因的识别,而且从低等至高等的各个模式生物是研究基因分子进化的绝佳材料。各模式生物体之间的比较性研究将有助于人类基因的结构与功能的阐明。对于在整体水平研究基因的功能,模式生物体更有着无法取代的地位。
中国的基因组研究工作起步较晚,而且是基础差、底子薄、资金少,与国际上这几年HGP的惊人速度相比,中们的差距很大,并且这种差距有进一步加大的可能。中国生命科学界应在如下几个方面共同努力:
⒈ 尽快收集和利用中国宝贵的多民族基因组资源和遗传病家系材料, 并阻止这些资源盲目流向国外。
⒉ 集中人力、物力和财力,建立互相配套的、集分子遗传学、 自动化技术和信息技术为一体的中心,才能卓有成效地开展工作。
⒊ 根据中国国情和原有工作基础,做到有所为有所不为, 走“短平快”和出奇制胜的道路,直接楔入基因组研究中最为关键的部分-基因识别,如走“cDNA计划”道路,尽可能地克隆一大批新基因,在人类8万~10 万个基因中占有一定的份额。同时,由于基因组DNA测序是一项劳动和技能密集性工作,如能引进技术, 培训一支高水平的技术队伍,完全有可能将人类基因组测序的一部分工作吸引到中国。
⒋ 充分利用国际基因数据库中已有信息,建立生物信息技术, 推进中国基因组研究工作,并在基因组转录顺序的认识及基因功能推测方面多做工作。
⒌ 多渠道筹措资金,在维护知识产权的前提下开展国际间合作。
历史已将中国当代科学家推上了人类基因组计划这一国际合作和竞争的大舞台,他们责无旁贷地要为供养自己的国家和人民负责,为21世纪中国的科学、技术和产业负责,唯有高瞻远瞩地认清当前的形势和不辞劳苦、不计得失地拼搏,才有可能在国际人类基因组计划中占有一席之地,有着交换和分享数据的资本,共同品尝人类基因组这一全人类的“圣餐”。
中国1994年启动HGP,现已完成南北方两个汉族人群和西南、东北地区12个少数民族共733个永生细胞系的建立,为中华民族基因保存了宝贵的资源,并在多民族基因组多样性的研究中取得了成就,在致病基因研究中有所发现。定名为中华民族基因组结构和功能研究的HGP为“九五”国家最大的资助研究项目之一(700万元),为中国在下世纪国际HGP科学的新一轮竞争中占据有利地位打好了基础。
截至2019年2月,已有约4.2万种生物的基因组被测序。2000年前后进行的人类基因组计划,更是被称为人类自然科学史上最伟大的创举之一。注:本视频根据2019新人教版教材制作。