caipiaozhihuishou:DNA研究:

来源:百度文库 编辑:偶看新闻 时间:2024/06/12 03:20:04
http://www.kiz.ac.cn/dws/dws/zuowen2.doc
我看生物学
—— 一位大三学生
1.生物学发展的历史及现状(1)
自然科学起源于古希腊,生物学也不例外。当时实验作为科学尤其是生物学的一种手段尚未为人们所重视。早期的希腊哲学家认识到一些生理现象如运动,营养,感觉,生殖等等都需要加以解释,并认为只要对之加以思考(就像他们对待哲学问题一样)就能解决。这种错误的思想一直维持到文艺复兴时期实验科学从哲学中解放出来。
达尔文以前对生物学贡献最大的亚里士多德。他是对生物进行分类的第一人---虽然正式的分类法后来由林奈提出;他首次认识到比较法对于生物学的重要性,而比较法即便是在现代也是贯彻生物学研究始终的一条主线;更重要的是,他从哲学上提出了生物学不仅仅满足于回答“怎样”(生物体如何实现其功能的?)的问题,还要解决“为什么”(为什么生命现象会有这么多的目的性?)的问题。而这个“为什么”也就是现代进化生物学家们所提出的最重要的问题。
在文艺复兴时期,实验方法走进了生物学。当时解剖学盛极一时,维萨纽斯发明了新解剖工具,并出版了《人体解剖》一书。这一时期生物学最重大的发现来自哈维,提出并论证了血液循环学说,这在很大程度上得益于当时比较先进的解剖技术。另外著名的解剖学家Borelli曾在他的《动物的运动》一书中论述了关于行动的研究,如利用力学原理分析了血液循环和鸟的飞行问题。这大概是生物学与物理学的第一次结合。
正如伽利略用他的望远镜使物理学的触须伸向天空一样,引导生物学进入微观世界的是列文虎克和他的显微镜。这两个例子说明了仪器在科学研究中可能发挥的巨大潜力。这时期林奈提出了分类法,博物学也达到了前所未有的高峰,并与生物学一向的主流---解剖学结合起来,互相促进。这个时期生物学的主要兴趣很明显是生物有机体的描述、比较和分类。博物学和解剖学的积累,尤其是比较解剖学方面的数据,为后来的达尔文进化论奠定了基础。
1859年,根据其对戈拉帕哥斯岛和南美动物区系的研究和一些解剖学和博物学的资料,达尔文提出了进化论。进化论的革命性有两点:第一,所有有机体都可能来自共同的祖先;第二,进化是有原因的,首先产生遗传变异,然后对变异的个体进行自然选择,从根本上否定了拉马克的自发进化学说。
19世纪实验科学方面的一个重大进展是施莱登和施旺的细胞学说,这得益于显微镜的发明。另一个重大进展是孟德尔的遗传学说,遗传学在贝特森、摩根等人手中迅速的发展成一门宏大而成熟的科学。其中值得一提的是麦克林托克用经典遗传学的手段发现了转座子。19世纪中期,综合遗传学的理解和对种群进化的认识,形成了一个统一的进化学说---综合进化论。一些主要的进化生物学的概念如物种形成、进化趋势等可以在遗传学上得到新的解释和认识。
生物学的重大发现之一就是沃森和克里克发现DNA双螺旋结构。在那个时代,DNA作为遗传物质已经为Avery等证明,因此一个重要的问题是:DNA分子如何携带控制发育过程的全部信息?当时结构生物学手段刚刚建立起来,沃森和克里克利用X衍射信息重建了DNA双螺旋结构并指出了碱基配对的可能性。这是一次科学家非凡的洞察力和精巧的实验技能的完美结合。DNA双螺旋结构宣告了分子生物学时代的来临,在20世纪七八十年代,中心法则以及其内在的分子机制建立起来后,分子生物学在更大程度上作为一种有力的手段被应用,如阐明分子进化或者发育的机制等。中心法则确立后,很多有前瞻目光的科学家寻找生物学的新的出路,如Sydney Brenner提出用线虫研究发育和神经, Seymour Benzer提出用果蝇做神经和行为等。
纵观生物学发展的历史,所有学说和理论的提出都是有其时代背景的,如比较解剖学和博物学为达尔文进化论的提出建立了基础;遗传学的兴盛预示了DNA双螺旋结构的发现;分子生物学的建立使在分子水平研究进化与发育等。就像渐变进化论一样,生物学的发展也是渐变的。
2.生物学科研手段
生物学作为一门实验科学主要是建立在解剖学的基础上的。收集各式各样的标本,对人体和动植物进行解剖观察,曾是生物学的主导手段。达尔文的进化论同样是建立在细致的观察的基础上的。列文虎克用自制的显微镜第一次观察到了细胞,以及之后细胞学说的建立,体现了精确的仪器在生物学研究中的巨大威力。在分子生物学尚未建立以前的经典遗传学时代,将宏观现象(突变体)与微观世界(染色体)联系起来的正是显微镜。当时果蝇的巨大染色体(足以在光学显微镜下看到清晰的分带)为遗传操作和分析提供了很大的便利。在神经生物学上,著名的神经解剖学家Cajal曾用高尔基染色法对大量的神经系统组织标本进行显微观察,提出了神经元学说,并以超人的洞察力指出了神经系统信号传递的许多基本性质。
遗传和生化是进行功能性生物学研究的两大手段。然而在摩尔根的时代,经典的遗传学更着重于探索遗传的机制,即遗传物质是怎样传递的。遗传学真正作为一种对基因进行大规模的功能性研究和分析始于Nusslein-Volhard对影响果蝇体节分化的基因的一次gene screen(2),首次将基因的功能与发育联系起来。几种模式生物的确立极大的方便了系统使用遗传学手段研究基因的功能以及相互之间的作用。现代遗传学可以分为两类:forward genetics和reverse genetics(3,4)。前者是依据从表型到基因型的思路,寻找影响某一生物体功能的基因,而后者则是从基因到表型,看某一感兴趣的基因是否对生物体的功能造成影响。reverse genetics一般是对一些重要的基因的同源基因进行验证。最近发展出来的modifier screen和clonal screen,前者是研究信号通路的很有力的手段,后者则用于一个基因的多种功能。现代遗传学已经基本上可以做到在特定的一小群细胞中以特定的时间表达或抑制表达某个基因。
生化手段与遗传学手段恰恰相反。它是首先建立一个功能性的检测体系,然后用传统的层析方法纯化蛋白。生化方法较遗传学方法优势在于能够揭示许多重要蛋白的新功能,而在gene screen中重要蛋白的突变体往往在胚胎期就死亡了,因而看不到成体的表型。王晓东关于cytochrome C在细胞凋亡中的作用就是一个很好的例子。gene screen是发现不了cytochrome C的,因为cytochrome C是电子传递链上如此重要的一个分子。他首先建立了一个in vitro的细胞凋亡的体系,然后试着加一些小分子物质如核酸等,看能否加快细胞凋亡的进程,结果发现了ATP和dATP,而且dATP的效果比ATP强一千倍(5)。依靠生化纯化蛋白的手段,他分别纯化出了cytochrome C,Apaf-1和caspase-9。
在现代生物学研究中,遗传、生化和分子互相渗透,在基因功能性研究和细胞信号通路的阐明中发挥了巨大的作用。
显微镜在细胞学说的建立中曾发挥过关键的作用。然而因为分辨率太低的原因,在很长一段时间内被生物学家们冷落。而今显微成像技术有复苏的趋势。促使显微成像技术再次倍受生物学家们关注有两个原因:一个是激光共聚焦显微镜的发明;另外一个是荧光标记技术的成熟。激光共聚焦显微镜最早由Minsky发明,有效的克服了普通光学显微镜因成像平面受到邻近平面发出的光的干扰而造成图像模糊不清的现象。随着计算机技术的进步,光学成像和图像处理技术进一步提高,激光共聚焦显微镜真正走上了生物学研究的舞台。荧光标记技术在生物学上的应用同样经过漫长的道路。尽管荧光标记的抗体在1941年就被应用在生物学研究上,但当时普遍认为抗体只能应用在对感染等免疫学的研究。直到后来人们才意识到,一些针对其他蛋白如actin或tubulin的抗体可以用相似的办法来制备。当这个观点为人们所普遍接受后,免疫荧光染色马上被应用到生物学其他领域。科学家们由此可以观察到细胞骨架的精细结构、胞内蛋白的定位。荧光技术同时在动态观察胞内Ca2+变化等方面得到应用。而当GFP发现后,科学家们更可通过基因工程技术将GFP标记的特异性蛋白导入细胞内来实时地监测生理状态下生物大分子的动态变化。Svoboda使用双光子荧光显微技术活体研究神经系统的可塑性应该真正是这方面的扛鼎之作。双光子成像的最大好处是激发波长在偏红外区域,可以穿透很厚的标本,同时对标本损伤很小,适于活体观察,光漂白作用也小。他们首次用这项技术观察到新形成的树突棘数目与小鼠barrel cortex发育过程中的可塑性之间的直接关系(6)。 成像方面胞内单分子监测越来越受到重视,FRET(能量共振转移)、TIRF(全内反射)等技术的不断成熟,使在活体状态下观察单个分子的运动成为可能。
总之,技术的进步可以说是推动实验生物学发展的主要动力。但是我觉得,进行有创造性的生物学研究的一个特点是,始终抓准最基础和最重要的问题,以正确的技术和合适的标本进行回答。Hodgkin, Huxley巧妙地运用电压钳技术,用特定的离子(K+,Na+,Cl-)进出轴突膜上的离子通道来解释动作电位的产生,最终诺贝尔奖授予他们而非发明膜片钳的人;Rod MacKinnon发现只有结构生物学能够彻底地解决钾通道的问题时,马上由一位电生理学家变为结构生物学家;王晓东也是一个突出的例子,他成功的关键在于,正确的运用技术(生化而非遗传)解决了关键的问题(细胞凋亡的上游信号通路)。成为科学家而非科学匠在于是不是能够驾驭技术而不致成为技术的奴隶。有时关键的问题是什么,大家都比较清楚,优秀的科学家还应能判断出何时能解决这些问题。生物学,或者说实验科学,本身就是一门解决问题的艺术。
4.我所感兴趣的神经发育科学
神经发育科学的主旨在于研究神经细胞如何分化成具有轴突和树突的神经元,细胞迁移和轴突长出是如何被诱导,特异的神经元是如何识别而形成功能性的突触,连接是如何在发育进程中被修剪和精细化的。
神经发育生物学中我最感兴趣的是神经元在发育过程中的极性(7)。极性包括两个方面:一个是神经细胞在形态发生中极性的形成---神经细胞在发育初期会伸出很多的神经突,其中某个神经突在发育后期会特化为轴突,其余神经突则特化为树突。轴突和树突在神经元信号传递中的功能是截然不同的,因此极性的建立、加强和维持就显得特别重要。我们可以问如下的问题:神经细胞最初的极性是如何建立的?有什么分子参与这一过程极性是如何影响轴突和树突的长成的?轴突特异性蛋白和树突特异性蛋白如何在胞内定位?树突的分支比轴突复杂的多,这是为什么?不同神经元树突的形态很不相同,调控树突分支的分子机制是什么?神经元的极性在成体中又是如何保持的?这些都是很重要且有趣的问题。另一方面是极性在神经细胞迁移和轴突导向中的作用,轴突导向的过程为两类分子---短程分子和长程分子所介导。这两类分子在轴突生长锥附近形成梯度分布,排斥或者吸引正在生长的生长锥。例如ephrin就是结合在细胞膜上的,而且在神经系统的某些区域形成梯度分布,可以排斥正在生长的轴突。其他的分子比如netrin或者semaphorin,以扩散的形式分泌,可作为长程的吸引或排斥分子。这些胞外的信号分子造成胞内某些分子活性的极性分布,如CDC42和PI3K等(8),这些分子的活性进一步影响细胞骨架的重新分布,如actin和tubulin单体在生长锥的一边多聚化,在另一边解聚,从而引起轴突生长锥的转向。相当有意思的一个问题是,胞外信号分子如此微弱的浓度梯度是如何在胞内进行信号放大以指引生长锥正确的转向?
对于神经细胞轴突和树突的极性形成,一个有趣的比较是,轴突对应于上皮细胞的apical side,树突对应于上皮细胞的basolateral side(9)。比如最近发现在上皮细胞的极性确立中期重要作用的mPar3/mPar6/aPKC在神经细胞的极性形成中也有作用(10)。时松海等发现mPar3/mPar6/aPKC以及被活化的PI3K集中在发育中的神经细胞轴突的顶端,而异位表达mPar3/mPar6/aPKC或者抑制PI3K的活性都能有效的抑制轴突的长出,轴突特异性蛋白tuj1不再表达。轴突形成的下游效应分子是微管和微丝。Bradke等作了一个有趣的实验(11):他们将微丝特异性药物cytochasin D局部地加在一条即将特化成树突的神经突上,发现它被诱导形成轴突。因此,有可能cytochasin D使微丝去稳定,有利于轴突的形成。但是在生理条件下,上游的信号分子如何调控微丝和微管的动态变化以建立神经元极性仍然是一个待解决的有趣的问题。微管与神经元极性的关系始于对一个微管结合蛋白CRMP-2的认识。人们发现在它特异的集中在轴突的顶端,当升高CRMP-2的表达时,有更多的轴突长出。最近的一片待发表的文章指出CRMP-2的上游调节分子为GSK-3(12),而在以前的工作中证明了GSK-3在神经元迁移中的作用(13)。由此可见,在这两类极性的建立和发生中有些分子是保守的,如果认识到微管和微丝在轴突形成和轴突导向中的同样重要的作用,就更能深刻的理解这一点。最近证明某些胞外分子也能影响轴突的形成,如果让神经元在铺有polylysine和laminin(或者NgCAM)条形间隔的培养基上生长,那些接触laminin或者NgCAM的神经突较接触polylysine的神经突更易特化为轴突(14)。
经过二十余年的探索,已经证明相同的信号通路在轴突导向和不同的细胞迁移中(如肿瘤形成(tumoriogenesis)和血管形成(angiogenesis)中的细胞迁移、肿瘤细胞迁移(tumor metastasis))被使用(15)。有关细胞迁移的领域,有很多杰出的科学家在进行孜孜不倦的探索,因为这实在是一个非常有趣的问题。只要稍微发挥一下想象力,就不难通过比较的方法找到对问题的突破口。比如chemokine一向是介导白细胞迁移的一类趋化分子,通过G蛋白耦联受体(GPCR)向胞内传递信号。最近发现轴突导向同样可以由GPCR所介导,并为SDF-1(属于chemokine的一种分子)所排斥(16)。又比如Slit最先是发现在轴突导向和神经元迁移中起排斥作用的, Wang Biao等的研究结果表明Slit2在肿瘤细胞中表达,而Slit的受体在血管上皮细胞中表达,肿瘤细胞释放Slit2吸引血管上皮细胞,促进血管形成,因此Slit-Robo信号通路在肿瘤血管形成中同样起作用(17)。既然胞外信号分子会影响轴突导向和细胞迁移,很容易想到的事情是:内因会不会影响神经元对胞外信号分子浓度梯度的反应?Poo Mu-ming的一系列开创性的工作证实了第二信使在轴突导向中的作用。他们发现胞内Ca2+的浓度直接影响轴突生长锥对于胞外信号分子的反应,特异性阻断Ca2+进入胞浆内以降低胞内Ca2+浓度,可以使原先netrin-1对于轴突的吸引作用变为排斥(18)。cGMP和cAMP也有类似的作用,提高胞内cyclic neucleotides的浓度可以使轴突对胞外信号分子的排斥效应变为吸引效应(19)。进一步的研究发现cAMP、cGMP和Ca2+是有crosstalk的,cyclic neucleotides能够调节L型Ca2+通道的通透性,升高和降低胞内Ca2+的浓度,进而调节轴突对外界信号的吸引或者排斥作用(20)。这些工作使我们对于第二信使在轴突导向中的作用有了比较完整的理解,并使对其他现象的深刻理解成为可能。如最近发现Sema 3A有对树突有吸引作用,这与它对轴突的排斥作用恰恰相反。对这个现象的解释是,guanylate cyclase (SGC)在轴突和树突中的不对称分布造成了cGMP浓度在轴突和树突中的不同,因而造成了轴突对同一种胞外信号分子的不同反应(21)。
发育生物学可以说是实验生物学的一个核心问题,而神经发育更是核心问题中最为神奇的地方和激动人心的发现的源泉。我对神经发育中的轴突导向和神经元极性确定方面的课题感兴趣的原因有两个:第一,细胞极性的问题本身是一个从对称走向不对称,从无序走向有序的问题,探索这一问题本身有着科学的美感,是很有趣的问题;第二,轴突导向反映细胞也是有智慧的,对不同的外界环境做出不同的反应,而正如外因和内因决定一个人的成长一样,外部环境和内在因素共同决定着轴突导向,因此在探索过程中将神经元拟人化去理解我觉得特别重要,也很有意思。神经发育科学中有很多有趣的和重大的问题尚待解决,因此只要保持一颗好奇心,是不难找到用武之地的。
[参考文献]
1. Ernst Mayr 生物学思想发展的历史 涂长晟 等译
2. Wolfgang Driever and Christiane Nusslein-Volhard (1988)  A Gradient of bicoid Protein in Drosophila Embryos. Cell, 54, 83–93
3. Melissa D. Adams and Jeff J.Sekelsky (2002) From sequence to phenotype: Reverse genetics in Drosophila melanogaster. Nature review genetics, 3,189-198
4. Daniel St Johnston. (2002) The art and design of genetic screens: Drosophila Melanogaster. Nature review genetics, 3,176-188
5. Li, P., Nijhawan, D., Budihardjo, I., Srinivasula, S.M., Ahmad, M.Alnemri, E.S., and Wang, X. (1997). Cytochrome c and dATP-dependent formation of Apaf-1/caspase-9 complex initiates an apoptotic protease cascade. Cell 91, 479–489.
6. Joshua T. Trachtenberg, Brian E. Chen, Graham W. Knott, Guoping Feng, Joshua R. Sanes, Egbert Welker & Karel Svoboda(2002) Long-term in vivo imaging of experience-dependent synaptic plasticity in adult cortex. Nature, 420, 788-794
7. Jan, Y.-N., and Jan, L.Y. (2003) The control of dendrite development. Neuron 40, 229–242.
8. Anne J. Ridley, Martin A. Schwartz, Keith Burridge, Richard A. Firtel, Mark H. Ginsberg, Gary Borisy, J. Thomas Parsons, Alan Rick Horwitz (2003) Cell Migration: Integrating Signals from Front to Back. Science, 302, 1704-1709
9.  Dotti, C.G., and Simons, K. (1990). Polarized sorting of viral glycopro-teins to the axon and dendrites of hippocampal neurons in culture. Cell 62, 63–72.
10. Shi, S.H., Jan, L.Y., and Jan, Y.N. (2003). Hippocampal neuronal polarity specified by spatially localized mPar3/mPar6 and PI 3-kinase activity. Cell 112, 63–75.
11. Bradke, F., and Dotti, C.G. (1999). The role of local actin instability in axon formation. Science 283, 1931–1934.
12. Yoshimura, T., Kawano, Y., Arimura, N., Kikuchi, A., and Kaibuchi, K. (2004). GSK-3 regulates phosphorylation of CRMP-2 and neuronal polarity. Submitted.
13. Sandrine Etienne-Manneville & Alan Hall.(2003) Cdc42 regulates GSK-3b and adenomatous polyposis coli to control cell polarity. Nature 421,753-756
14. Esch, T., Lemmon, V., and Banker, G. (1999). Local presentation of substrate molecules directs axon specification by cultured hippocampal neurons.  J. Neurosci. 19, 6417–6426.
15. Yi Rao, Kit Wong, Michael Ward, Claudia Jurgensen, And Jane Y. Wu.(2002). Neuronal migration and molecular conservation with leukocyte chemotaxis. Genes & Development   16:2973-2984
16. Xiang, Y., Li, Y., Zhang, Z., Cui, K., Wang, S., Yuan, X., Wu, C., Poo, M., and Duan, S. (2002) Nerve growth cone guidance mediated by G protein-coupled receptors. Nat. Neurosci. 5, 843-848.
17. Biao Wang, Yang Xiao, Bei-Bei Ding, Na Zhang, Xiao-bin Yuan, Lu Gui, Kai-Xian Qian, Shumin Duan, Zhengjun Chen, Yi Rao, and Jian-Guo Geng (2003). Induction of tumor angiogenesis by Slit-Robo signaling and inhibition of cancer growth by blocking Robo activity Cancer Cell, 2003, Vol. 4
18. Kyonsoo Hong, Makoto Nishiyama, John Henley, Marc Tessier-Lavigne & Mu-ming Poo (2000) Calcium signalling in the guidance of nerve growth by netrin-1. Nature, 403, 93-98
19. Hong-jun Song, Guo-li Ming, Zhigang He, Maxime Lehmann, Lisa McKerracher, Marc Tessier-Lavigne, Mu-ming Poo (1998) Conversion of Neuronal Growth Cone Responses from Repulsion to Attraction by Cyclic Nucleotides. Science, 281, 1515-1518
20. Makoto Nishiyama, Akemi Hoshino, Lily Tsai, John R. Henley, Yoshio Goshima, Marc Tessier-Lavigne, Mu-ming Poo& Kyonsoo Hong (2003) Cyclic AMP/GMP-dependent modulation of Ca2+ channels sets the polarity of nerve growth-cone turning. Nature, 423,990-995
21. Polleux, F., Morrow, T., and Ghosh, A. (2000). Semaphorin 3A is a chemoattractant for cortical apical dendrites. Nature 404, 567–573.
我看基因组学与进化
—— 一位大二学生
随着人类基因组计划(human genome project)的顺利实施以及人类基因组测序工作的完成,生物科学的发展进入了“后基因组时代”。由此一门崭新的生物科学——基因组学开始从幕后走到台前,向世人展现其非凡的魅力。
一、基因组学发展历史回顾及现状分析
基因组是指细胞中一套完整的单体遗传物质,通常为DNA,也有些病毒的基因组为RNA。原核生物只有一个染色体,它包含有该生物的全套基因,构成其基因组。而真核生物则不然,随着生物进化程度的增加,基因组的数目一般来说也随之增加。病毒DNA分子含10 ~10 bp,细菌基因组DNA含10 ~10 bp,而人的可达10 bp,约3万个基因。在原核生物中,基因组大部分是有基因组成,且在编码其基因过程中,有基因重叠现象,如PX 174需编码9个蛋白质,而其基因组仅有5kb左右,基因组中存在基因的完全及不完全重叠。大肠杆菌基因组DNA是单个双链环状DNA分子,约4.7×10 bp大小。此外有些细菌还有质粒DNA,是染色体基因组以外的DNA结构,含有遗传信息,能自主进行复制并传给下一代,也可以表达。少数质粒DNA既可以插入整和到宿主染色体DNA中,也可以在特殊的重组过程被切割下来。
真核生物的基因组DNA不同与原核生物,都是线形双链DNA,同时由于其含有细胞器,如在线粒体及叶绿体中也有环状双链DNA。真核生物基因组很复杂,结构中除含有重复序列外,还有间隔序列,即基因组的非编码序列,包括位于编码区外显子之间的内含子,以及基因与基因之间的序列。由于间隔序列的存在,常常使一个完整的基因被分隔成几个不相连接的区域。
当人类基因组DNA序列的最终草图与2003年4月发表时,许多人说,人类DNA中由30亿个A、T、C、G四种碱基构成的长链代表着人类遗传的天书,细胞的源代码,生命的蓝图。但事实上,这些比喻都误导了我们。基因组是存在与染色体中并控制一个生物体如何发育的全部遗传信息,它不是从上一代传到下一代的静态文本。更确切地说,基因组是一个复杂得让人望而生畏的生物化学机器,和所有的机器一样,它在三维空间里运转,而且它也有独特的、动态的、相互作用的部件。编码蛋白质的基因只是组成其中的一个部件,并且通常只是很小的一部分,在每一个人类细胞的全部DNA中不到2%。但在过去的50年时间里,分子生物学的中心法则把这些基因看作遗传性状的贮藏库。因此,基因组的构想被认为是控制遗传性状的蓝图。
而基因组学——这门新兴的学科将具有更为广阔的应用前景。当前基因组学研究的重心正在由“结构”向“功能”转移。一个以基因组功能信息的提取、鉴定和开发利用为主要内容的所谓“后基因组时代”(post-genomics),即功能基因组学时代已经到来。人类基因组计划(HGP)的完成,为世界奉献了一部蕴涵着人体生物信息奥秘的由DNA序列写就的巨著。如何破译这些DNA序列中的基因结构与功能信息,并进一步了解真核细胞中一切生命活动的分子细节,是生命科学界面临的迫切挑战,也是基因组学所要解决的问题。
二、基因组结构与遗传语言
人类基因组计划完成的下一步更为艰巨的任务是读懂基因组的工作语言——遗传语言的破译。人和动物基因组结构是在长期进化过程中形成的,其功能则需要在发育过程中才能表现出来。基因组DNA荷载的遗传信息的特点是信息结构和物质结构的紧密联系。活细胞内DNA信息的表达是受位于染色质结构上的一系列核酸和蛋白质相互作用控制的。因此,对基因组结构和遗传语言的研究,必须结合发育和进化的研究进行。通过对人和其他动物(线虫、果蝇、小鼠等)基因组的总体结构(基因在染色体上的排序及各组分间关系)和DNA序列的精细比较,将可能发现许多新的调节基因和在进化上保守的有重要功能的区域;在借助转基因动物,还可以进一步检测这些序列功能。此外,更为繁重的任务是需要与数学家、逻辑学家、非线性物理学家和计算机科学家合作,对浩如烟海的序列资料进行比较分析和综合的基础上,去破译记载在基因组DNA上的“遗传语言”,从而阐明控制发育的遗传程序在染色体上的构建和操作规则。以及在进化过程中发生的变化。最终的目标是找到某种简明的数学形式来表述: 记载在基因组DNA一维结构上的遗传信息如何控制生物体的三维形态发育;以及复杂性不断增加的动态发展过程。这无疑是对数学(系统理论、大组合复杂性和拓扑学等)和非线性物理学的一大挑战。
根据研究方法和侧重点的不同,遗传语言研究又可分为下述几个方面:
1基因信息学
适应基因组计划和蛋白质工程的需要,建立对基因序列数据的储存和处理的计算机基因信息管理系统。如:
(1)进行序列联配(Sequence aligment)(整体、局部、多重和柔性联配);
(2)基因分析,包括功能位点(剪接、蛋白质结合序列、启动子、加强子等)、调控区的搜寻和预测、以及蛋白质折叠和三维结构的预测等;
(3)基因组结构分析,包括大尺度联配、发育程序、进化“遗迹”等方面研究。
2基因组信息结构的复杂性
利用非线性物理和数学等多学科方法,把基因组全序列作为一个整体系统,研究其信息结构的特性(数据信息与调控信息、序列频数、分布图式、长程关联、分形维数和自相似性等);与自复制、自修复、自调控等功能相关的操作方式(程序、中心指令集等),揭示基因组信息结构的复杂性及其构建和操作规则。
3语言学研究(Linguistic approach)
把基因组DNA序列作为一种由“ATCG”四字母构成的书面语言,用语言学方法,对DNA序列进行形式的比较分析和语义学研究,以发现其“词法”和“句法”规则。目前以色列已编纂了第一部遗传语言词典(《Gnomic—A  Dictionary of Genetic Code)}),收集了800多个有生物学意义的“单词”。
4实验研究
利用人工染色体(MAC)作载体,将重组的“词”和“句”输入到转基因动物受精卵内,检测其“语义学”功能。这是对上述理论研究结果进行验证的必要的方法。
人类基因组结构和遗传语言的研究将是21世纪自然科学的前沿和竞争的焦点,对未来生物学、医学和生物技术的发展有根本的意义。目前国内随着“水稻基因组计划”的顺利实施及参与人类基因组的研究,已经在计算机基因信息管理系统和基因信息学方面开始工作;理论研究方面也有人向国家自然科学基金会提出有关基因组信息结构的复杂性和动力学研究的建议;实验研究方面,中国科学院细胞所,早已开始动物染色体人工合成和个体表达系统研究,并设想将此系统用于遗传语言的研究。
三、基因组怎样为进化做准备
著名作家和癌学家刘易斯·托马斯(Lewis Thomas)曾经写道:“DNA对稍稍出错的包容,真是奇妙的事。没有这个特性,我们会仍是厌氧细菌,更不会有音乐。”像许多其他学者—诺贝尔奖金获得者巴巴拉·麦克琳托克(Barbara McClintock)是著名的例外—托马斯认为,遗传的改变,也即新物种的进化,源于一些基因的个别、微小、随机的突变。但是,大量增长的论据表明,生物学家之主流必须从很不同的观点来考虑基因组,以及它们进行的与进化有关的变化的类型。
研究表明,导致进化性变化的突变,既不微小,也不像许多生物学家长期来设想的那样稀少。有时,它们涉及DNA的相对较大的片段—像可移位元件(Transposable element),麦克琳托克原先在玉米中发现的DNA片段的移动,它们甚至能采取遗传物质全盘打乱重组或复制的方式。所有这些变化,能影响基因的表达,或者,使复制出的基因自由地发展新功能。
再者,这些变化可以是非完全随机的。例如,研究人员已经发现,DNA的有些片段,根据其性质,较之其它片段,更常被复制,或者移动至另一位置。他们并力争搞清,复制和维持DNA的一些酶,将变化导人基因组的某些特定部位,形成提高进化效率的突变热点。诚如芝加哥大学细菌遗传学家杰姆斯·夏皮罗(James Shapiro )指出,“细胞是自身基因组的工程师。”
诸如此类的发现,纽约市生物技术顾问林恩·卡波拉尔喻之为“词形转换”。过去,研究人员曾设想,基因组向突变率最小、防止随机遗传变化的方向进化。但是,新发现使他们相信,最成功的基因组可能是那些已经计划到能根据需要作出迅疾而重大变化的基因组。诚如麦克琳托克在她1983年接受诺贝尔奖金时的演讲中所说,基因组是“一高度敏感的细胞器,在环境严峻的时刻,能启动自身的重组与修复功能。”
四、基因组学与演化生物学进一步发展的关系
比较基因组学的初步研究表明,从细菌演化至高等生物(如哺乳类) ,首要的要算基因数目的增加. 在生殖道支原体,Mycoplasma genitalium 约含470 个基因,而人类却有30 000~40 000 个基因. 那末,基因数目是如何增加的呢 也就是说,新基因是如何产生的呢 李文雄(W.- H.Li) 提出了4 种新基因产生的方式: ①基因重复; ②域(domain) 的组合; ③基因共享; ④基因的水平转移.最新补充了第5 种,即同功替代,并已从蚯蚓血红蛋白(hemerythrin) ,血蓝(hemocyanin) 和珠蛋白在演化过程中的替代,以及从序列、蛋白质结构和功能作了分析,证实其在新基因产生上的意义. 有人对血蓝蛋白的起源和走向进行了较详细的分析,已从M. jannaschii 的基因组中通过CLUSTAL W 寻找到蚯蚓血红蛋白的起源,并正在进行其走向的分析. 看来,基因组全序列的数据,是解决新基因产生的最重要根据.
Margulis 的共生观念富有创造性和洞察力,对传统进化论是一个极大的挑战,如果能从比较基因组学着手,无疑是最理想的验证其原生生物在多细胞真核类演化作用的观点. 遗憾的是,目前原生生物基因组全序列数据还是空白.
尽管古生物学研究已步入对古DNA(ancient DNA) 的探索,并认为是从分子水平研究演化生物学的一条重要途径,但是很显然,这方面研究可以说还处于萌芽状态.若以现存的活化石如海豆芽(lingula) 基因组全序列作为分析对象,不失为一条可替代的途径.
随着分子生物学技术的迅猛发展,不同生物的基因组全序列可望在不久的将来会很快地积累成海量数据。生物信息学上所编写的软件程序也会随之而大力发展。面临这样大好的机遇,研究演化的专家绝不能随着计算机的快速发展,将其作为一个黑箱,不加选择地盲目使用一些程序,以致可能得出极有害的结果。 Nei 和Kumar于1998年出版的著作《分子进化和系统发育》( Molecular Evolution and Phylogenetics)对此作了详尽分析,并指出理解程序所依据的算法(algorithum) 是何等的重要.
综上所述,可见只有通过比较基因组学的成就才能从微观水平对宏观上已取得很大进展的非线性演化生物学进行验证;当然结构生物学的宝贵数据也是重要的验证依据. 同样,演化生物学的发展反过来也作用于基因组学的进一步发展. 目前许多生物化学家、分子生物学家正从演化角度考虑同源基因、副源基因并分析结构—功能关系.
五、新基因的起源
大量的基因组数据已经揭示不同种生物之间的基因数目存在巨大的差异,这表明基因组进化的一个至关重要的过程,即新基因的起源。但是人们却很少有机会去探究具有新功能的基因是如何起源和进化的。对古老基因的研究,基因起源的某些机制的普遍重要性。最近对一些仍处于进化早期阶段的新基因的研究已经揭开了某些意想不到的分子和进化过程 .
不同种生物中基因数目的变化表明新基因的起源存在一个普遍的过程。关于这个过程的问题有两个水平需要弄清楚。
第一,在单独新基因的水平,产生新的基因结构的最初分子机制是什么?一旦新基因在自然种群中的一个单独基因组中产生,它怎样扩散到整个物种中去并得到固定?并且,一旦新基因产生后,它又是如何进化的?
第二,在基因组水平,新基因起源的频率如何?如果新基因的起源不是很稀少的事件,那么在这个过程中潜在的模式是什么?,支配任何这些模式的进化和遗传学机制是什么?以往关于研究新基因起源的努力是零散的,并且集中在复制基因和嵌合基因的进化,尽管有些已经有几亿年的历史了。
但是,一个更为有效的方法是直接观察那些仍处于进化早期的新基因,这是非常有利的,因为许多关于新基因起源的细节随着漫长的进化年代都丢失了。对于古老基因的研究则说明了一些新基因产生的分子机制的古老性。
为此我们要明确的是:单独的一些基因是通过怎样的机制产生的,并且在基因组水平分析新基因进化的速率和模式。
1.               新基因的来源(Sources of new genes )
目前,人们已经知道有几种分子机制涉及新基因结构的产生,但对这几种机制的了解程度不一。
①外显子洗牌(exon shuffling)
来源于不同基因的两个或多个外显子异位性地被组合在一起,或是一个相同的外显子通过复制创造了一个新的外显子-内含子结构。目前已知有两种机制可以导致外显子的异位重组(ectopic recombination):非常规重组(illegitimate recombination)和逆转录转座的外显子插入。有基因组的数据表明,外显子洗牌,也就是通常说的结构域洗牌,经常重组编码各种蛋白质结构域的序列从而创造新的嵌合蛋白质(chimeric protein)。
②基因复制(Gene duplication)
通过这个经典的机制,基因的复制本可以进化出新的生物学功能,而祖先拷贝仍保持原来的功能。许多新的基因功能都是通过基因复制进化来的,而且对不同种生物的发育程序的进化起了巨大的作用.
同样,在染色体片断和基因组水平的复制对人类的新功能的产生和进化也起了重要的作用。
③逆转录转座(Retroposition)
这种机制可以通过反转录表达的亲代基因(parental gene)在新的基因组位置创造一个基因复制本。因为逆转录转座的基因组复制本通常不包括亲代基因的启动子区,因此必须着招募一个新的5端调控序列才能行使其功能,否则就会退化为一个假基因。
所以一个有功能的逆转录转座基因呈现出一种嵌合结构-逆转录转座的编码区域和一个新的5端调控序列.
或是逆转录转座的编码区域和一个从整合靶位点附近招募的新的基因片断-这会导致新的嵌合机制具有和亲代基因不同的生物学功能。
④可移动元件(Mobile elements)
Makalowski等最早描述了Alu元件可以整合进人类衰减加速因子基因(DAF)的蛋白编码区。他们发现基于可移动元件的多样性并不仅限于人类基因组或是Alu家族(见表1)。对人类基因序列和脊椎动物基因的进一步分析表明,可移动元件整合进核基因从而产生新的功能可能是一个普遍的机制。
⑤侧向基因转移(lateral gene transfer)
在原核生物中,基因通常在不同生物间转移。尽管这种侧向的、或水平的基因转移可以导致同源基因的交换,但是有证据表明它可以招募新的基因并提供新的表型;比如使良性细菌转变为病原体。
最近,侧向基因转移的现象也在一种原生生物richomonas vaginalis中观察到,另人惊奇的是,在显花植物的线粒体中也观察到了五个这种基因转移事件。
这说明,基因的侧向转移可能在真核生物基因的进化中起了重要的作用。同样,转座元件的水平转移可能携带某些基因或基因片断,这对受体生物新基因的形成起了一定的作用。
⑥基因融合/分裂(gene fusion/gene fission)
通过中止密码子和基因上游转录终止信号的删除突变和点突变,两个相邻的基因可以通过通读转录(readthrough transcription)融合为单个基因。
相反,一个基因也可以分裂为两个单独的基因,尽管这种基因分裂发生的潜在的分子机制尚不清楚。许多基因融合和分裂事件在原核生物的基因组中被鉴定出,并且已有报道在更高等生物中也存在基因融合事件。
比如,Thompson等人鉴别出了一个人类融合基因,KUA-UEV,在这个基因中,肿瘤易感基因(UEV)的E2泛素连接酶变体结构域和一个最近被鉴别出的基因KUA通过通读转录和编码区可变剪接的机制融合在一起。
⑦从头起源(de novo origination)
尽管从原先非编码区域变为新基因的这种真正的从头起源很稀少。但是有很多基因的一部分蛋白编码区序列是从头起源的。比如,果蝇精细胞特异性的肌动蛋白中链基因sadic,原先内含子的一部分转变为一个编码蛋白质的外显子。
混合机制(Combined mechanisms)
新基因可以通过上述机制产生,既可以是单个机制在起作用,也可以是多种机制的共同作用。
以jinwei基因为例,它是第一个得到仔细阐述的年轻基因。jinwei基因的起源突出表明了几种新基因产生的分子机制在共同起作用。jignwei基因并不是仅有的直接观察到的年轻基因系统,其他的例子包括sphinx基因和sdic基因,它仅存在于果蝇属中的一个种,并且基因的年龄要比和其他同属亲缘种进化分离的时间要短,不到三百万年。
2. 新基因的进化(Evolution of new genes )
新生基因的命运(The fate of a newborn gene.):关于基因复制的命运的经典观点可以追溯到J.B.S.Haldane和R.A.Fisher的工作。他们认为随着不断的突变,基因复制对的一个成员最终失去功能,大多数基因的复制本最终以假基因的形式消亡。但是,最近一个亚功能化(subfuctionalization)的模型为高等真核生物中编码基因组中存在的众多的基因的复制本提供了一个可能的解释。尽管新功能化(neofunctionalization)也很重要.
通过对年轻基因的分析,人们对新基因起源的进化驱动力和分子机制的了解取得了一定的进展。对单个新基因的分析为我们提供了所涉及过程的许多细节,并为后续的研究提出了问题。单个新基因的分析扩展到对新基因形成的速率和模式的基因组水平的分析已经近一步加深了对这个过程普遍性的了解。一个和通过这些方式的新基因形成有关的一个很明显的特征是新的序列,结构和表达的快速进化。
大部分这些进化的改变是在正向达尔文选择下的适应性变化。就如几个在酵母和大肠杆菌中进行的新基因的选择性实验所证实的那样。这些研究表明新基因的产生并不是人们原先认为的是很稀少的事件。此外,关于的果蝇的逆转录转座基因从X染色体"逃逸"的发现也说明了新基因进化的一种普遍机制。
然而,关于新基因进化的基因组过程人们还知之甚少,因为还没有鉴别得到足够数目的具有新功能的年轻基因。
此外,新基因功能产生的速率仍待研究,而这是衡量生物如何以多大的速度改变他们的遗传多样性和功能复杂性以适应多变的外界环境的一个极好的标准。
另外,新基因的种系分布将会为新基因的产生,速率和变异速率提供一个总体的轮廓。关于产生速率的随机过程模拟将有助于理解形成的过程。实验和计算基因组分析的方法鉴别新的基因功能都是卓有成效的。
同时,十分紧迫的是实验检验新基因的生化和表型功能,这有助于理解在形成和进化过程选择是如何起作用的。尽管进一步的研究和对这次问题的理解有赖于对单个新基因仔细的理论和功能分析-这需要和过去半个世纪进化和分子生物学家那样不懈的努力-而且就我们所拥有的序列数据库和实验条件而言,现在拥有比十年前要好的多。
随着基因组学自身的不断发展以及相关学科和生物技术水平的不断提高,我们有理由相信,基因组学在21世纪的科学发展历程中必将大放异彩,如一盏明灯为人类探索生命起源与进化照亮前路。让我们能够充分利用基因组这一自然赋予生命的神奇天书,造福人类,造福所有生命。
我看生物学与其它学科的交叉
—— 一位大三的学生
让我们看两个在生命科学史上有着重大影响的事件作为开始。
19世纪,孟德尔以当时科学家无法理解的方式,将数学和生物实验结合起来,发现了被后人称为“性状分离定律”和“自由组合定律”的遗传规律。几十年后,他的工作得到了人门的认可,而数学和遗传学研究至此也很好的联系起来,成为许多发现的基础。但遗憾的是,由于同时代的伟人达尔文没能重视这种研究手段,又缺乏和孟德尔必要的沟通,使得遗传学不能在当时向前再进一步。
20世纪50年代,沃森和克里克发现了DNA的双螺旋结构,使得生物学的发展进入新的阶段。但这一发现,也有数学家和物理学家的必不可少功劳,正是数理化生科学家的共同努力,才产生了这一重大成果。
两个同样伟大的成果都是在采用了非正统生物学研究手段下获得了成功。而其他生物学上的成果和他们一道,说明了这样一个道理:生命科学需要利用其它学科中的思想和研究手段。
同时,也有许多新的研究手段和方法在上世纪诞生。如模拟进化的遗传算法,模拟人脑结构的神经网络算法,模拟人类思维的模糊控制等。再加上生物计算机,计算机免疫学等一系列带有仿生性质的科学,共同构成了当前研究的又一个热点。这也说明,其它的科学也在吸收生物学的灵感,共同促进科学事业的发展。在生命科学吸收其它科学的思想和研究手段同时,又将生物学思想带入其它学科。
在今年5月下旬,我以” Evolutionary genomics ”为检索词(语言:中,英文;限制为综述)在Web of Knowledge上检索,共查出的13篇综述中,从摘要来看,大多都用到了数学方法。
所有这些也都说明了,生命科学现在正在,将来也会更深入的与其它学科进行交叉。而且事实已经证明,这种交叉会产生很好的效果。一个方面,这种交叉会产生新的科学和技术,带来科学技术的全面进步(而且往往这种技术有很强应用价值),而另一方面,也是生物学家更感兴趣的一个方面,这些科学和技术又会反过来促进生命科学的发展。
我对学科交叉的理解
当然,关于学科交叉的问题也谈论了很多年了,但是,在这里,我也还想谈一下这个问题。(作为一名本科生,我时常能感觉到以前的一些想法是非常幼稚的,依此类推,我现在的想法在你们看来也可能会非常幼稚。在此种情况下,我将他们写出来,一是说明我现在真实的思维水平,这也应当是你们要求写作文的目的,二是表明我一直在关注这类问题)。
按照我的体会,我把学科交叉分为两个层次。一是思维层次,一是技术层次。所谓思维层次,是利用其他学科中的思维方式,思维习惯,和一些模型,想法来解决自己的问题。如仿生学中来自于生命科学的灵感,孟德尔来自于概率统计中的灵感(这在今天看来应当属于普通的技术,但所有技术的第一次使用均要有思想,灵感)。当然技术层次,也就是利用一些技术手段来处理生物学问题,如统计中的回归,聚类,判别分析,物理中的X衍射,电镜等。
思维层次要求将相关学科的知识有一定的领悟,这样才能融会贯通,找到灵感。同时应当学会以其他学科的思维方式来看待本学科的问题。而技术层次只需对相应技术的作用,适用范围等了解清楚就可以了,用时可以辅助于相应的资料和工具,不会花太多精力。当然,至于重要性,应该说都很重要,前者如果好的话会引起质变,推进科学的发展,而后者虽然更多的是从量上的积累,但依然重要,一是没有什么想法会是完全的创新而没有继承(孟德尔种豌豆的方法,DNA结构发现时的X衍射等都是继承前人的),二是因为任何技术和思想只有当人们使用和认可时才有价值,正如DNA结构的确重要,但这要在后人对其的进一步运用和研究中体现出来。
由上可以看出,要在学科交叉的领域进行研究,也应当分为两种类型。一种类型是偏向应用的,而另一种类型偏向于理论方面。我认为,两种不同的研究方向也应当采取不同的策略。
如果只是想利用该学科的技术,而且往往是别人使用过的,则没必要花费太多的精力,也没有必要对该学科进行系统的学习。如前所述,需要把握好该技术的作用及使用范围,有时甚至不用对该技术的原理进行理解。这就相当于在编程序时调用别人已经编好的模块一样,所做的只是把接口弄好,而不必考虑该模块的内在的实现问题。
但是如果是要从理论上有所突破的话,就有一定的难度,但这往往是研究中的重要问题。一方面,如果仅使用别人的技术的话,很难谈的上原创性,这就要求自己有所创新。当然这种创新也应当包括使用技术的重新整合,但要实现这种整合,就应当对自己使用的技术有较好的认识,因为往往还需要对该技术进行修改,以更好更特异的适应自己的问题。当然我认为这应当是生物科学工作者在这方面的主要模式。
如果能够对该学科有进一步认识,从而能创造出一种技术来处理该特异的问题,则更是令人鼓舞的。比如如果能够创造一种新的算法来很好的解决一个问题,比如怎样由蛋白质的一级结构来准确的预测三级结构,那简直更了不起了。如能推而广之形成理论,就产生质变了。
但是,作为一名本科生,或者说一般生物学工作者,当时间和精力有限而不可能系统的学习该学科的知识时,我认为最好的方式是理解该学科的思维方式。不同的思维方式很重要,不同学科的学生对同一个问题的理解往往有比较大的差异,而将其他学科的理解方式引入生物学往往是创新的源泉。在其它学科(数学,计算机科学,工程科学)中很普通的手段,若引入生物学就可能产生创新。所以我觉得这一点更重要。
在这种理解上的方法论意义
而要将其它学科中的思维方式引入生物学,我觉得有两个方法比较好。
一是通过对一些学科最基本问题的学习。这种学习的目的不在于学习知识,方法和手段,而在于体会这一学科是怎样构建的,他最常用的思考方式是什么,其看待问题的一些最基本的观点。而且自己要勤于思考,勤于体会。通过这种方式,增加自己的潜力,同时又有了进一步学习及和其他同学交流的基础。如果没有这种工作,今后需要类似的工作,往往不知道如何下手。我的一个体会是,通过一个学期对离散数学的学习(包含图论,群论,集合论的最基本问题),使自己有了一定的感觉,以至今后在看数据结构,数据库,甚至于生物学理论时,都能产生一些联想,加深理解。在此基础上,今后再从事类似的研究,至少会有眼熟的感觉。如果什么都不知道,肯定会非常郁闷。
另一个不可缺少的部分是交流讨论。在有了以上基础之后,讨论会更有效率。不可能一方对另一方工作什么都不懂,还能讨论吧。同时讨论应当是务实有效的,而且应当处理好交流之间的接口。现在有些讨论交流,更多的是谈目的和意义,而涉及到问题本身的内容反而不多。我不认为这是好的方式。我在阅读一些中文综述的时候也发现,作者在意义和背景上花了很多笔墨,而在问题方法本身却一笔带过,使我门本科生读起来很痛苦。
另外,这还应当有好的学术风气和个人的严格要求。因为学科交叉往往要求有独立思考和快速学习的能力,这就要求从事人员有一定追求,不能应付了事。在与川大的一些师兄师姐交流时发现,现在硕博士的论文具有原创性的比较少。往往是别人在一个物种上用过某一种方法,自己则再换一个物种用类似的方法再作一遍,发文毕业。我想这种应付的态度是不可能做出具有原创性的工作的,这与风气和体制有关,也难怪中国论文总量这么大,但影响因子高的却少的可怜。
学科交叉的目的
生物学与其它学科的交叉,一方面的目的解决当前出现的各种问题,促进新的学科和方法的产生,推动社会的全面进步(这也是社会对生命科学如此看中的原因)。而另一个更崇高的目的是揭示更多的生物学规律,完善生物学的理论,探讨大自然的奥秘。在19,20世纪,物理学通过数学的帮助,建立了自己的理论体系,从而又促进了社会的全面进步。在21世纪,我们也期待生物学在数理科学的帮助下(虽然也有一些反对意见),揭示生命的奥秘,形成系统的生物学理论,从而更好的促进社会的全面进步。
当前,这种努力的一个方向是从大量的核酸,蛋白质数据着手进行努力。这些数据的出现,给我们提供了很好的材料。同时,各种数学和计算机处理手段的发展,也为我们分析这些数据提供了便利。用包括统计,仿生计算等方法可以有效的提取一些特征和规律,便于我们进一步分析。而同时,另一个方向则是根据现在发现的规律,构建各种模型,来模拟和预测生物学现象。显然两个方向可以结合起来。但同时,这些理论性质的研究都必须同实验结合起来。要么是利用实验来验证,要么是先做出预测,从而增加实验的目的性和效率,以至不太盲目。
由上可以看出,学科交叉可以为生物学带来更好的发展。我们也对生命科学与其他学科的交叉充满期待。
我看进化生物学
——进化与基因组学
—— 一位大三的学生
提要:
一、             思辩——进化论
二、             博物学家的观察与实验室里的实验
三、             基因论——分子生物学的进入
四、             中性学说
五、             基因和基因组的起源与进化
六、             非线性的延伸
被自然和艺术所吸引的年轻人相信,以其热切的欲望,很快就可以进入自然和艺术之宫那最深的圣殿。然而,经过漫长行程的成年人明白,自己并没有到达圣殿的入口。
歌德:《圣殿柱廊·引言》
生物最本质的特征是进化,进化的理论是整个生物学的核心、灵魂与精髓。Mayr曾经说过 “进化论是生命科学最大的和最统一的理论”。“在自然中, 再也没有什么比生命和生命演化更有意义和更令人感兴趣的了, 撇开了进化, 一切都无从谈起”(Dobzhansky)。十九世纪达尔文进化论的创立, 使得人们对复杂的生物界的发生和发展有了一个系统的科学认识。
实际上,不仅科学家需要理解进化,公众也需要理解进化。如果不至少理解进化的某一些方面,就无法理解我们周围的生命世界:无法理解人类的独特性,无法理解极乐鸟、蝴蝶和鲜花的美丽,无法理解所有生物对生态环境的适应性,无法理解从35亿年前最简单的细菌到恐龙、鲸、兰花和巨大的美洲杉的逐渐进化,无法理解遗传疾病及其可能的治疗方法,无法理解通过遗传工程生产出来的农作物及其可能的危险,等等。进化问题是世界上最令人着迷也最令人困惑的问题。
从十九世纪达尔文进化论的创立到现在,对于进化的作用原理已经积累了大量的新的知识。我们常常不由自主地感叹:如果笔锋清晰而深刻的达尔文能够再亲自为我们撰写一部新的关于进化思想的书,该有多好啊!然而,达尔文早在1882年就已经去世了。但是,今天我们依然有许多的学者和科学家在继续着他们的研究和总结,以至于达尔文主义不仅被应用于解释生物的进化,还被广泛应用于对整个世界的理解,如科学、哲学、语言学、经济学等。
一、             进化论——思辩
对于未知和令人迷惑的现象,人们总是想急于做出解释的,如:谁或者什么创造了这个世界?世界的将来会怎样?我们人类是如何起源的?很早的时候《圣经·创世纪》给出了一些传说来解释这些问题,看看电影《上帝也疯狂》,也了解原始部落对于事情的解释。
然而,正是这些荒诞的推测和解释催生了进化论。因而,进化论开始就是带有思辩色彩的。17世纪天文学和地质学的研究动摇了《圣经》,1809年拉马克提出了一种较为系统的进化理论。然而,由于当时科学发展的局限性, 使得其学说中的许多内容仅限于假说和推理, 同时他的学说错误地估计了动物的意志和欲望在进化中的作用。
1859年11月24日,在经过二十年小心谨慎的准备之后,达尔文出版了《物种起源》。进化生物学,一门崭新的学科从此诞生了!甚至可以说整个生物科学,开始于那一天。然而,细心的思考,达尔文的进化论在最开始时,也还是思辩占主要的。尽管当时科学界有了“充分的证据”来证实它的正确性,如动植物培养、化石记录、解剖比较、退化器官、胚胎发育和生物地理分布这几类。但是,此后这种理论的思辩也逐渐成为人们攻击的对象,因为科学不是哲学,它需要的不仅仅是思辩,还有实验,只有后者才真正的被科学认同。
早期的进化论者对达尔文的一些理论的拒绝:
共同由来
渐变论
群体的成种事件
自然选择
拉马克




达尔文




海克尔



部分
新拉马克主义者




T.H.赫胥黎




德弗里斯




T.H.摩尔根



不重要
由于观察和实验受到条件和能力的限制,正如过去许多理论的认识仅仅是客观真实的一种近似那样,也还有许多问题尚不能由这一理论作出回答,需要通过更多的观察和实验来进一步解决,并最终将理论转换为科学。
于是,此后150多年来,人们一直都在争论着达尔文的进化论,有人反对,有人拥护,有人修正。进化论从诞生的那天起就充满了争论,达尔文自己把《物种起源》称为“一部长篇争辩”。今天的达尔文主义是在不断的进行修正后的进化理论。随着历史的发展和科学的进步,生物进化思想从早期的萌芽,到自然选择学说、新达尔文主义,从现代综合理论,到分子进化的中性学说,再到新灾变论和点断平衡论等。今天, 当我们追溯进化学说发展的长达近二个世纪的历史进程,在感叹达尔文主义这一革命思潮带给我们的冲击和启迪的同时,我们更多感受到的是这一领域中出现的新思潮、新观点以及它们所展示的新视角和引发的新思考。
二、             博物学家的观察与实验室里的实验
当代的生物学的几个特征:一是确信所有的科学问题最终都可以在分子层次上加以研究。这种观点并不否定其他组织层次(如细胞、器官、个体和群体层次)的研究价值。事实上,在这些较高组织层次上的研究具有同样的重要性,还原论早在20世纪70年代就已经被许多生物学家抛弃了,机械论更早就陷入了危机,但是此前分子生物学的革命鼓励了分子生物学家去探讨范围更广、层次更高的相互作用之前应该先理解生物学现象的分子基础。另外一个特征是高度重视实验。20世纪,生物学家一直在努力使严格的实验分析在他们的研究领域中占据主导地位。这意味着要采用一种严格的方法来形成假说,进而可以预测某些实验的结果,此时实验就不再仅仅是强调操作,而是一种思考方法。
重视实验和生化分析使现代生物学家渐渐放弃了过去博物学家的“单纯的观察”和“就式的描述方法”,但实际上,现代的研究者不仅必须象过去细致的显微镜学家或野外博物学家一样地观察和描述细节和异常的情况,而且现在的生物学家要做到的远不止是观察和描述生物体或生命过程,还要求有恰当的实验分析方法和在各个层次上研究生物学过程的意图,尤其是在分子相互作用水平上的研究。实际上,也只有如此,生物学才成为了一门严格意义上的科学,象物理和化学一样。
而显然达尔文学说在开始和后来的发展中都不同程度的遇到了一些本质和方法上的问题:本质的问题主要在于达尔文断言有小的、可遗传的变异发生,并保留在群体中,但是这并没有直接的证据。然而通过自然选择而进化的整个机制都依赖于这种观点。在方法上,自然选择的机制在当时并没有用实验来加以检验,达尔文仅仅是把人工选择试验(由动植物驯养者所进行的)看成是自然选择的一种模式,并不能证明自然选择都是这样进行的。如果达尔文知道孟德尔的实验,就不会在遗传问题上陷入绝境了。事实上,在达尔文逝世(1882年)前后,生物学界普遍接受拉马克主义,而怀疑自然选择学说。
荷兰植物育种学家德弗里斯(De Vries)则运用杂交繁殖形成变种的方法,为进化论的研究引入了全新的研究方法——实验法,以及凡事都必须用实验加以证明的思想。这一点恰恰是达尔文的缺点。
实际上,不仅仅只是思辩和观察,只有实验被广泛的应用于进化的研究之中,进化理论才成为了进化生物学,一门严格意义上的学科。
三、             基因论——分子生物学的进入
1909年,丹麦生物学家W.Johsnnsen根据希腊文“给予生命”之义,创造了基因(gene)一词,并用这个术语代替孟德尔的“遗传因子”。
美国遗传学家摩尔根对基因学说的建立作出了卓越的贡献。他以果蝇为材料进行遗传学研究。摩尔根和他的助手们第一次将代表某一特定性状的基因,同某一特定的染色体联系了起来,创立了遗传的染色体理论。随后遗传学家们又应用当时发展的基因作图技术,构建了基因的连锁图,进一步揭示了在染色体载体上基因是按线性顺序排列的,从而使得科学界普遍地接受了孟德尔的遗传原理。摩尔根指出:“种质必须由某种独立的要素组成,正是这些要素我们叫做遗传因子,或者更简单地叫做基因”。
尽管由于摩尔根学派的出色工作,使得基因学说得到了广泛的承认,但是直到1953年Waston-Crick NDA双螺旋模型提出之前,人们对基因的理解依然缺乏准确的物质内容。此后分子生物学的辉煌就出现了。
1900年,孟德尔遗传定律被重新发现。人们对物种的遗传与变异有了更深入的了解。颇出乎人意料的是,在这一次遗传学革命中,达尔文成了被抛弃者。因为人们受新观念的影响,认为物种可以通过突变产生。因此达尔文被否定了,其实主要是他的渐变论观点被否定。而且,他的自然选择学说仍然受到极大忽视。更多人接受的是拉马克进化观,或一些与达尔文的自然选择观相背的观念。这一时期持续到20世纪30年代。
直到20世纪30-40年代,才出现了新的转折,进入了进化论的综合时期。这一时期达尔文的众多观点受到了肯定,包括渐变论,尤其是自然选择学说。这一时期的达尔文主义者认为生物的进化是逐渐的,自然选择是生物进化中的重要机制。
50年代后,随着DNA双螺旋结构的发现,生物学进入分子生物学阶段。随着这一新学科的出现与迅猛发展,一些分子生物学家对达尔文的观点提出了新的置疑。如分子生物学家虽然接受达尔文的自然选择说,但却认为选择的靶子不是个体,而是基因。这一派的观点在道金斯的《自私的基因》中有集中表述。再如,日本遗传学家Kimura提出中性学说,认为在分子水平上,生物进化不受自然选择的作用,而是按一定的速率随机地突变,对生物的生存没有好处也没有坏处。这都导致对达尔文理论的新的置疑与否定。
四、             中性学说——高度的数量化
1968—1971年间, 日本遗传学家Kimura与美国King 和Jukes等人几乎同时提出了一种新观点, 即“中性突变漂变假说”, 简称“分子进化的中性学说”,即认为达尔文理论的核心部分适应性自然选择不是分子水平进化的主要动力,是中性突变基因的随机固定造成了分子水平上物种间和物种内的变异。这场进化理论的变革,始于哈佛大学Richard Lewontin和Jack Huby于1966年在芝加哥大学开创的分子进化的电泳研究。他们运用自己创造的分子技术,观察到以前的进化科学家从来没有想象过的现象:果蝇的任一个体的多于10%的基因编码的蛋白质分子是不一样的。运用遗传载荷理论计算由于对差异的选择,每一雌果蝇为保持物种的不至灭绝必须产生十亿个以上的后代,而这在现实中是绝对不可能的。因此,Lewontin和Huby指出自然选择理论不能解释产生分子差异的原因。此后短短十年,世界上许多实验室运用电泳技术调查了一千多个生物物种,证明Lewontin-Huby的实验结果是普遍成立的。
面对Lewontin-Huby实验揭示的与原有正统理论不相容的自然现象,Kimura提出分子进化的中性学说。该学说的主要观点如下: (1) 基因突变是无所谓“好”与“坏”的“中性突变”。(2) 这种突变不受自然选择的作用, 只是通过在群体中的“遗传漂变”被固定和积累, 使群体的基因频率发生改变, 从而导致种群分化, 直至形成新的物种。(3) 分子进化的速率取决于蛋白质或核酸大分子的种类, 不同种类的大分子, 其氨基酸或核苷酸的替换速率不同, 但相同种类的大分子, 其替换速率则相同。同生物学的其他理论相比,中性进化理论的重要,不仅在于其基本观念的变革,而且在于这一理论的独有特征:高度的数量化。尽管中性进化论赖以建立的遗传载荷计算只适用于非常特殊的适合度模型,但这一理论所得出的一系列精确的数学预期,可以由观察实验印证,从而对理论本身进行精确的检验。
中性学说并不否认自然选择在决定适应性进化过程中的作用,在考虑自然选择时,必须区别两种水平:表型水平和分子水平。自然选择作用的是生物个体,而非单个基因或者蛋白质,但是,尽管如此,分子生物学家还是在争论之中。
五、             基因和基因组的起源与进化
上个世纪90年代以前,人们忙于寻找基因的性质。基因是什么?断裂基因的发现对传统的基因概念是一个巨大的挑战,为此Walter Gilbert提出基因是一个转录单位,它由内含子和外显子交替组成;实际上基因是一个以不同来源的外显子为构件的嵌合体,处于沉默的DNA基质(内含子)之中。此后,又相继发现了重复基因,基因家族,重叠基因,模糊基因等新概念。关于基因的调控表达有出现了操纵子,启动子,终止子,增强子,衰减子等模型。
但是,无论基因的概念如何完善,我们依然没有机会探究基因的起源——基因究竟从何而来?今天,人类已经知道许多有关自身存在的环境各个层次单位的起源过程。在宇宙水平上, Stephen Hawking的《时间简史》,描述了扣人心弦的宇宙起源图景。对地球的起源及演化,从19世纪英国地质学家耐依尔到今天的地球物理学家已对其40亿年的演变过程进行了详细的描述。在生命的层次上,自19世纪中叶达尔文到现在,人类已经知道物种起源的许多奥秘。在特殊情况下,已能在实验室重现一个自然界已存在的物种起源的遗传演变的全过程。
然而,直到1990年,人类却一直没有机会探究基因这一生命的最基本单位的起源之谜。随着分子生物学技术的进步,以分子生物手段研究进化问题在80年代后才成为可能。真正的进展在后面会详细的介绍,正是这些进展让我们重新开始用一种新的视角去理解基因,特别是它的起源。研究一个新基因的起源过程,应该包括两个相互衔接的步骤。首先,我们要知道一个新的基因结构在自然界的某一生物个体产生的突变步骤。其次,我们需要知道这一单一个体的新基因扩散到一个物种所有个体的固定过程。前者需要阐明分子突变的分子生物学机制,后者需要涉及复杂抽象的数学过程。而在过去的研究中,这是生物学中两个互不交叉的领域。
目前不会大量测定不同近缘物种基因组序列,在筛选到候选的新基因后,使用现代分子生物学技术和计算科学模拟,对新基因的结构、功能、起源和分子演化模式进行分析,总结和推断新基因产生的最一般规律,来描述一幅关于基因起源的详细图景。
新基因产生的途径有许多:外显子重组、基因重复、转座、逆转座、水平基因转移、基因分裂与融合等等,但是内含子相位在真核生物基因组核基因的普遍非随机分布。基因内含子相位的对称分布,揭示了外显子重组的普遍性。至少一半以上的真核生物基因,曾经历了类似“精卫”基因的起源过程。于是,“精卫”基因起源所代表的机制从特殊到普遍意义都开始得到了证明。最近,王文研究员等在果蝇中第一次阐明了基因分裂是如何实现的。
实际上,新基因的起源和进化研究还包括对基因组中大量的非编码序列的研究。基因组中大量的非编码DNA是如何进化的,我们依然不清楚。
基因的结构和概念在研究中也似乎在逐步改变:DNA 中碱基序列与蛋白质中氨基酸序列的共线性关系再次被打破。外显子改组等都如同当初mRNA选择性剪辑一样,使DNA 中碱基序列与蛋白质中氨基酸序列失去共线性关系。
外显子改组是研究多年的一种模式,基因在进化中可以洗牌,而且最近发现不仅外显子间可以重组,外显子内也可以重组,那么值得一提的是内含子内是否也可能发生重组呢?因为外显子内含子之间从来都不是绝对的:一个基因的外显子可能是另外一个基因的内含子。这再次给我们留下了疑惑。
六、             非线性的延伸——生命的独特
歌德曾经说:“总有一天,机械论和原子论概念会在人们聪慧的头脑中完全被推翻,所有现象都呈现为动态的和化学的现象,从而进一步证实自然界的神圣生命。”是的,我们印证了他的预言,机械论和原子论已经早早的被许多科学家否认了。生物学是一门描述性的学科,与物理学的明显差异是自发性问题,这种差别总是存在的——哪怕是数学和计算科学在此广泛应用,这种差别也还是不会消失的——因而生物学不会成为物理学的分支,哪怕是在遥远的未来也是如此。
上个世纪40年代薛定谔在《生命是什么?》中提倡用统计物理和量子力学的观点探讨生命的本质,指出生命运动服从一般物质运动规律。他曾经无数次的在各种场合宣扬这种观点,鼓励了一大堆的物理学家转向生物学研究,到生命中去寻找新的物理学,这诚然促进了分子生物学的发展,然而,新的物理学是不会找到的,至少在现在和不久的将来是不可能的。
Katt梦想的未来生物学领域中的牛顿,使用公式,通过遗传学分析和发育分析的方法,来推导蝴蝶双翼的图案,这或许永远也只是一个梦想。因为自然界最复杂的系统——有机体是不可能通过常规的物理学和物理化学手段来处理的。非线性的体系必须用非线性的理论来解决。
曾经有人指出:进化导致有序化,与“熵定律”相冲突;因为按照熵理论,进化变化应该导致混乱度的增加。但实际上二者并不冲突,因为进化发生在一种开放的体系中,生物的熵可以降低(伴随着环境熵的增加),而太阳可以为此提供能量。非平衡热力学顺便的解决了物理学家对生物进化的疑问。可以说,生物学是非线性、非平衡科学的延伸。
感兴趣的某些问题:
1.    新基因的起源和基因的结构
2.    人类起源与学习记忆相关基因
3.    性染色体与性别决定基因的进化
4.    分子钟存在的问题
5.    优生学与人类未来
6.    基因组的不稳定性与生物老化
7.    动物再生能力与其进化的关系
…………(详细情况见读书报告)
我看进化生物学
—— 一位大三的学生
科学史学家经常将“达尔文革命”与“哥白尼革命”相提并论,视为历史上的同样重要的事件,在这种事件中,一种科学理论引起了整个文化价值的改变。在上述两种情况中,传统的基督教世界观的重要方面都被全新的解释取代了.。
-皮特·J·鲍勒 《进化思想史》
达尔文思想大大推进了进化理论,也是达尔文时期,人们才开始了在真正科学意义上的进化的研究。
进化生物学发展的历史
1.1 达尔文学说
1859年,英国生物学家和生物进化论的奠基者达尔文,在其巨著《物种起源》中提出了生物进化的自然选择学说。该学说的要点是群体中的个体具有性状差异,这些个体对其所处的环境具有不同的适应性;由于空间和食物有限,个体间存在生存竞争,结果,具有有利性状的个体得以生存并通过繁殖传递给后代,具有不利性状的个体会逐渐被淘汰(达尔文把自然界这种留优汰劣的过程称为自然选择);由于自然选择的长期作用,分布在不同地区的同一物种就可能出现性状分歧和导致新物种的形成。
1.2 突变学说
人们对达尔文学说的争论,促使荷兰遗传学家德·弗里斯(de Vries)提出了物种形成的突变学说(1903)。该学说受到当时的许多生物学家的欢迎,因为它是在对美洲物种夜报春花(Oenothera lamarchiana)试验研究的基础上提出的,似有过硬的试验证据。首先,他在该物种的自然群体中观察到几种变型。然后,在多代繁育试验中发现,该物种总能连续产生少数变型;这些变型或能真实遗传,或能分离成该物种和自然群体中原观察到的那几种变型。由于某些变型与原物种差别很大,故定为新物种,而新物种的形成很易用单突变解释。但后来证明,德·弗里斯所用的材料实为一永久杂种,他所发现的所谓新物种只不过是这一永久杂种的分离产物。
在德·弗里斯突变论的启发下,摩尔根根据他试验得到的许多突变体实受孟德尔基因控制,从而认为:在进化中,突变的作用大于自然选择的作用──前者创造变异,后者只保留现存的有利变异;少数有利变异会在群体中逐渐占优势,而进化是群体中更为有利的基因替换原有基因的过程。因此,摩尔根这一进化学说往往叫突变学说,但最好叫突变-自然选择学说,因它没有否定自然选择在进化上的作用。
1.3 综合进化学说
在20世纪20~30年代,英国学者费希尔(R. A. Fisher)、霍尔登(j. B. S. Haldance)和美国学者赖特(S.Wright),综合了选择论和基因论的成就,运用群体遗传学的理论和方法,对突变、选择和遗传溧变引起群体等位基因频率的变化,在数学上进行了深入的理论研究后得出:选择对群体等位基因频率的影响,要比突变有效得多。这一理论成果很快为许多实验遗传学家所接受。
综合进化学说的主要论点有:突变是随机的,是生物进化的原始材料,但由于对等位基因频率变化的影响很小,在进化中作用很小;自然群体存在的遗传变异足以对不同环境的自然选择作出反应,自然选择是影响生物进化的主要因素,决定着生物进化的方向;由于自然选择,处在不同环境下的有利基因分别被固定,最终可使不同环境下的生物出现生殖隔离而形成新物种。由于综合进化学说的基本观点仍是自然选择,所以又叫新达尔文学说。
1.4 分子进化学说
分子进化一般涉及两方面内容:一是重建物种或基因的进化历程,即重建分子系统发育树;二是研究生物大分子(如DNA和蛋白质)的进化机制。
利用不同的分子技术(如序列分析、电泳分析和DNA杂交),对蛋白质和核酸分析的主要发现:
①特定的蛋白质或基因,只要功能不变,每年每位点的进化速率((用氨基酸或核苷酸替换率表示)为一常数。
②氨基酸或核苷酸替换率高。
这些结果都是自然选择学说不能解释地,木村资生(1968)为了解释分子进化的试验结果,提出了分子进化的中性学说。后经许多学者的探讨修正,修正后的中性学说的主要论点:
①大多数无害突变基因在选择上是中性的(selectevely neutral)。所谓选择上的中性基因系指不影响个体适合度的那些突变基因。
②中性基因在群体中的固定主要是由随机遗传溧变引起的。
③功能上次要的基因比功能上重要的基因的进化速率快。
④新基因主要是通过基因重复和不等交换产生的。通过序列分析发现,许多基因具有重复序列和多基因家族,从而导致中性学说论者得出上述新基因产生的论点。该学说认为,现有的功能基因对生物必不可少,新基因的产生不能靠原有基因的突变(自然选择学说认为新基因是现有基因突变的结果),而是靠基因重复──一个维持个体生存,一个成为中性的就能累积突变,将来进化成适应新环境的具有新功能的基因,或成为遗传上非活化序列保存在基因组中。
中性学说强调了中性突变和随机遗传漂变在分子进化中的作用,所以又叫中性突变-随机遗传漂变学说。
事实上,自然选择学说和中性进化学说有他们地共同点,那就是大多数突变是有害的,会很快从群体中消除,对生物进化没有什么影响。
而他们的主要分歧在于:①在无害突变基因中,对有利突变和中性突变的相对比例持相反观点──前者认为有利突变相对比例相当大,后者认为中性突变相对比例相当大。②在进化中,突变、选择和随机遗传漂变的相对重要性也持相反观点──前者强调选择,后者强调突变和遗传漂变。我认为这些不同随着今后对分子进化和表型进化关系的深入研究,也许会在更高一级的认识水平上统一起来。
我看进化生物学发展的现状和存在的问题
2.1理论方面
我认为在生物进化研究中,所要阐的不外乎两个问题:一是进化历程,二是进化机制。至20世纪60年代中叶,主要是由古生物学家、胚胎学家和系统学家研究第一个问题,群体遗传学家研究第二个问题。在研究生物进化历程时,一般把物种作为进化单位,从化石、胚胎发育以及形态和生理性状比较中,以确定生物进化系统发育树。
发展至今,进化生物学所要研究的也不外于这两个方面,不过在方法和策略上有所改变。
“进化的理论在达尔文那里有了很大的进步。现在的进化论已经成为生物学整个领域的所有理论的核心。这个理论包括了达尔文的一些正确观点。进化论与“人类基因组”计划有什么关系?人类是在“进化”历程上最高级的生物。因此所有生物的进化史,在某种意义上,都刻写在人类基因组这本“天书”之中。”(摘自北京华大基因研究中心网站)
正如这段话所说,现在生物进化的研究已经不再只是研究化石、胚胎发育以及形态和生理性状比较了,比较基因组学和进化基因组学在进化生物学的研究中已经而且还将起到重要的作用。
要知道物种之间是如何进化的,就要知道他们之间的基因(组)有那些差异,即说明是什么,另一方面就要知道为什么,即知道新的基因是如何产生的,最终如何导致新物种产生。
比较不同物种的基因组后,就可以根据生物信息学的方法来构建系统发育树,由此我们就可以知道物种之间的进化距离等,知道他们到底有多么“亲”。在这一方面,已经有很多的科学工作者正在从事者方面的研究。在很早的时候科学家就通过线粒体基因组的比较和Y染色体的比较发现了许多关于人类起源新的问题-人类都是起源于非洲的,张亚平院士在《Phylogeographic differentiation of mitochondrial DNA in Han Chinese》通过研究线粒体基因组的情况,对东亚我们汉族人的起源问题进行了阐释。宿兵老师则在Y染色体比较上做了比较多的工作。
另一方面是新基因起源的问题。中性学说认为新基因主要是通过“基因重复和不等交换”产生的。在新基因起源方面,也有许多科学工作者做了很多研究。王文老师和龙漫远教授合作,已经取得了不少的成就。最近王文老师实验室发现并命名了“猴王基因”,并首次证明了生物学界早已有的“基因分裂”的猜想。,“猴王基因”的分裂过程是通过复制产生两份基因拷贝,这两份拷贝再经过互补退化最终实现分裂。
2.2进化研究可能会有很大的应用前景
我认为基因组和后基因组时代进化生物学的研究将有很大的应用前景,这从宿兵老师最近发表在2004年13卷第11期的Human Molecular Genetics上的关于小脑基因(microcephalin)的文章中可见一斑。虽然研究的初衷并非应用(毕竟小脑症并不广泛),但终究使人们对于小脑症有了更深的了解-从进化的角度。
在张建之教授2003发表在《Trend in Genetics》上一篇名为《Why are some human disease-associated mutations fixed in mice?》中,解释了一些关于人类致病基因在小鼠中却不会致病的问题,我相信这方面问题的最终揭密,将对人类疾病治疗会有很大的帮助的。也学这些疾病就再也不是并不广泛的小脑症了。
我认为王文老师目前正在研究的毒素基因起源问题也将会有很大的应用前景。
2.3存在的问题
①基因组学大大促进了进化的研究,但是目前我们对这个世界上物种基因组的了解还极少。真正大规模的从基因组的角度来研究来研究进化还难以实现。
②研究表明,基因在发挥其功能时往往不是“单独行动”,而是一些基因在一起共同行使其生物学功能(基因网络),在基因组进化中,也应当讨论基因网络的进化。这增加了从分子方面研究进化的难度。在谷迅教授发表于2003年《Trend in genetics》上的一篇题为《Evolution of duplicate genes versus genetic robustness against null mutation》的文章中有这样一段话:
Molecular biologist know that mutations without a phenotype are not exceptional.Yet in many wet laboratories ,natural or laboratory-generated null mutations are still used routinely to explore the function of individual genes.The wisdom of this approach is challenged in the post-genomics era because complex network ranging from biological systems to the Internet show extraordinary robustness against random perturbations…… 谷迅教授的这段话正说明了这个问题。
③数学和计算科学已经在进化生物学中发挥了出色的作用,但我认为进化生物学应该有更多的数学的参入。目前已经有很多软件用于进化分析,如Phylips9596,用于进化树的构建。我所了解的还有DIVERGE等软件,但是数学在进化生物学中的应用还主要是数据的处理,我认为数学最终应该用来构建进化生物学的模型(数学模型),达到理论的统一(或许是真个生物学界理论的统一),也许这个目标还很遥远,但我认为这应该能够最终实现的。
我所感兴趣的问题。
3.1人类起源的问题(特别是人脑)。
人类与大猩猩的基因组差别如此之小,但却和大猩猩有着如此大的差别。人把世界建设和改造(或者也许是破坏)成了这个样子,的确很神奇。我觉得人和其他灵长类最大的差别就在于脑子,是脑及其中间发生的思维改变了人类的命运。
而人脑如何进化而来,又涉及到人类基因组和其他灵长类基因组的比较,看人类基因组中调节人脑发育和进化的基因网络是如何工作的。
3.2新基因的产生。
进化事实上是基因的进化。了解新基因的产生,在说明时候产生,如何产生,对于解决进化生物学问题有很大的帮助。目前随着更多物种基因组测序工作的完成,对于新基因起源问题将会有很大的帮助。而且,我觉得新基因产生机制研究还有很广泛的应用前景。
3.3如何用计算机和数学来模拟生命过程,当然包括生物进化。
数学不仅能帮助人们从已有的生物学实验和数据中抽象出模型和进行解释,它还可以用于设计和建造生物学模型。
在这方面科学工作这已经做了不少的工作。2000年《Science》上报道了普林斯顿大学的科学家设计的一个自然界不存在的控制基因表达的网络,这个网络可以周期性地调控大肠杆菌内一个外源基因的表达。这些科学家认为:“这种‘网络的理性设计’,可以导致新型的细胞工程和促进人们对自然界存在的调控网络的理解。”2000年,发现p53的生物学家之一莱文尔(A. J. Levine)和数学家一起,建立了一个解释p53调控线路的数学模型。
在进化生物学方面,这方面的研究还比较少(或许是我没有看到),不过谷迅教授的“基因网络进化”的研究以及触及到了这些问题。我相信这方面将是进化生物学研究中的有一个亮点。
The head of NRGHI Francis Collins说过这样一段话:“When I give  talks to young scientist seeking advice about areas of future scientific excitement computational biology is my number one recommendation”。
以上是我大学三年专业课学习以及课外阅读后对生物进化的理解,我认为进化生物学的研究在基因组和后基因组时代会有历史的飞跃,而且,我还认为,生命科学所有领域的理论将会有一个大统一,而这统一的支点就是生物进化的研究,进化就是历史,历史的分析将会对其他分支学科起到启发作用。
近期阅读相关文献:
1.Xun Gu , Evolution of duplicated genes versus genetics robustness against null mutations,Trend in genetics,Vol 19 No.7 July 2003
2.Lizhi Gao and Jianzhi Zhang,Why are some human disease-associated mutations fixed in mice,Trend in genetics,Vol.19No.12 December 2003
3.Jianying Gu and Xun Gu, Induced gene expression in human brain after the split from chimpanzee.  Trend in genetics ,Vol.19 No.2 February 2003
4.Manyuan Long ,WenWang ,Jianming Zhang,Origin of new  genes and source for N-terminal domain of  the chimerical gene ,jingwei,in Drosophila.Gene  238(1999)135-141
5.Bar-Or R L, et al. Proc Natl Acad Sci USA, 2000, 97:11250
6.Elowitz M B, Leibler S. Nature, 2000, 403:335
7.Gardner T S, et al. Nature, 2000, 403:339
(5,6,7三篇是关于计算机模拟方面的)
8.Long, M., C. H. Langley  1993.  Natural selection and the origin of jingwei, a chimeric  processed functional gene in Drosophila.  Science  260: 91-95.
9.Wang, W., F. G. Brunet, E. Nevo, M. Long 2002. Origin of sphinx, a young chimeric RNA gene in Drosophila melanogaster. Proc. Natl. Acad. Sci. USA.. 99: 4448-4453.
10. Long, M., M. Deutsch, W. Wang, E. Betrán, F. Brunet, J. Zhang  2003. Origin of new
genes: Results from experimental and computational analysis.  Genetica 118: 171-182
11.Long, M., E. Betrán, K. Thornton, and W. Wang. 2003. The origin of new genes: glimpses
from the young and old. Nature Reviews Genetics. 4: 865-875.
12.Ke YH ,Su B,No independent origin of modern humans in East Asia:a tale of 12000 Y chromosomes.Science(2001)292:1151-1153.
13.Yao Y-G,Kong Q-P,Bandelt H.J.  Kicisild T,Zhang Y-P,Phylogeographic differentiation of  mitochondrial DNA in Han Chinese. American Journal of Human Genetics,2002,70:635-651
14. R.L. Cann, M. Stoneking, A.C. Wilson. 1987. Mitochondrial DNA and human evolution. Nature 325: 31.
模式生物酿酒酵母的研究进展
—— 一位大三的学生
摘要:模式生物体的基因组成和结构相对于人类基因来说,比较简单,在基因组测序时可以为人类基因组计划提供借鉴,更重要的是对这些模式生物体的功能基因的认识可以为认识人类基因组的功能提供更多的帮助,所以模式生物在人类基因组计划中发挥着越来越重要的作用。本文以酿酒酵母(Saccharomyces cerevisiae)为例,讲述了模式生物的三个阶段:大片段DNA克隆库的构建、DNA测序阶段、酵母蛋白组功能图谱绘制完成。酵母作为模式生物的作用:基因与进化、基因与疾病、基因识别。
关键词:酿酒酵母;模式生物
2003年人类基因组DNA测序工作已经全部完成,但人类基因组计划的目标绝不只是限于DNA的测序,而是对人基因组序列的诠释问题进行解释,包括所有基因的结构和功能,特别是那些与疾病相关的基因的突变所造成的功能改变,是各国科学家、政府和民众最为关心的,而与此相关的模式生物基因组计划成了大家共同关注的焦点。模式生物基因组计划最初确定的模式生物有:大肠杆菌、酵母、拟南芥、线虫、果蝇和小鼠等共六种[1],对这些处于生物演化不同阶段的生物体的研究是认识人基因组结构和功能绝对不可缺少的,在后来的发展中逐渐加入了其它一些模式生物种类,如河豚鱼、斑马鱼、文昌鱼等。此外,一些具有重要生产价值的农作物,如水稻基因组等的研究也加入到模式生物基因组计划中来。由于这些模式生物体的基因组成和结构相对于人类基因来说,比较简单,在基因组测序时可以为人类基因组计划提供借鉴,更重要的是对这些模式生物体的功能基因的认识可以为认识人类基因组的功能提供更多的帮助。
模式生物基因组的基本情况
种群
物种
基因组尺寸
(百万对)
基因数
序列测定
完成时间
原核生物
支原Mycoplasma
0.58
470
1995
大肠杆菌
E. coli k12
4.6
4,300
1997
绿脓杆菌Pseudomonas
aeruginosa
6.3
5,500
2001
真核生物
(单细胞)
酿酒酵母
S. cerevisiae
12
6,200
1996
裂变酵母
S. pombi
14
4,900
2001
幽门螺杆菌Helicobacter pylori
1.7
1,500
2001
多细胞
线虫C. elegans
100
18,400
1998
果蝇drosophila
140
13,600
2000
脊椎动物
阵风鱼
Fugu rubripes
400
30,000?
人类
3,000
40,000?
2003
小鼠
3,300
40,000?
2007
植物
拟南芥Arabidopsis
125
25,000
2000
水稻
560
30,000?
2005
玉米
5,000
30,000?
小麦
17,000
30,000?
2,900种物种的基因组尺寸信息 :http://www.genomesize.com/
模式生物中酿酒酵母(Saccharomyces cerevisiae)是一种低等的单细胞真核生物。酿酒酵母(以下简称酵母)能以稳定的单倍体和二倍体的形式存在,且在实验条件下较为方便地控制单倍体和二倍体之间的相互转换。1个酵母菌可以同时兼容几种不同的质粒。以指数增长数目,酵母菌每90min繁殖一代,生物学特性与真核生物相似,当人们发现了1个功能未知的人类新基因时,可以迅速地到任何1个酵母基因组数据库中检索与之同源的功能已知的酵母基因,并获得其功能方面的相关信息,从而加快对该人类基因的功能研究。因此本文将以酵母为例,介绍模式生物的研究与发展。
1 模式生物的三个阶段
1.1 大片段DNA克隆库的构建
酵母菌是一种低等真核生物,它对于研究真核细胞的DNA复制, 基因的结构与功能以及外源基因的表达都是十分有用的。构建适合于酵母菌,主要是酿酒酵母的分子克隆载体始于70年代末期,现已建立起各种各样的酵母克隆载体[2]。
如果根据载体上有无酵母菌的复制起点,可将所有的酵母载体分为两大类:复制型和非复制型。非复制型载体又称整合型载体,用YIp表示。复制型载体又可根据复制子的来源分为两类:附加体型用YEp表示;染色体复制型用YRp表示。如果在YRp质粒中还插入一些其它DNA序列,如着丝粒DNA,染色体末端DNA(常称端粒DNA),这种载体常被用于建立人工染色体,称之为YAC载体。并且酵母菌载体上的遗传标记基因都是来自酵母菌本身,比如ARG4,HIS3,LEU2,TRP1和URA3等。
1.1.1 酵母整合型载体(YIp)
这类载体没有酵母菌的复制起点,因此它们不能在酵母细胞中进行自我复制,但是这类载体上含有来自酵母菌的其他DNA序列,且十分稳定的。这类载体主要用于基因功能和表达调控的研究以及复制起点DNA片段顺序的分离。
1.1.2 酵母人工染色体载体(YAC)
酵母人工染色体载体[3]pYAC4能容纳更大外源DNA片段的载体。于是用非随机方法构建了酵母基因工程宿主菌用于外源基因的表达。在这个载体中,染色体所需的基本结构都存在:适合酵母菌的DNA复制起点(ARS1),染色体分裂时所需要的着丝粒片段(CEN4),维持染色体成为线状的端粒结构(TEL)以及各种标记基因或结构基因,如色氨酸合成酶基因(TRP1),组氨酸合成酶基因(HIS4),尿嘧啶合成酶基因(URA3)。该载体的克隆位点是EcoRI位点(E)。能使此载体成为线状的限制酶是BamHI(B)。
1.2 DNA测序阶段
1.2.1 染色体物理图谱
在HGP的前5年里(1990~1995),主要是进行物理图谱的构建,以指导测序。酵母菌的物理图谱改进方法就是在Olson构建了YAC克隆库后,由于YAC的克隆容量可达几百~1000kb,有可能先把DNA克隆依其在染色体上的位置进行重叠排序,然后对已经排序的克隆进行DNA测序,称之为“自上而下”路线。被排序了的克隆图称为“物理图”。物理图有STS图、限制酶图谱。STS:sequence tagged sites,序列标记位点。它在染色体上有唯一的位置特征,用它来识别YAC克隆能得到确定的克隆排序。这类以DNA链上核苷酸对数为尺度的染色体图,以特定序列(序列标记位点)为表记所绘制的染色体图称为STS图谱。限制酶图谱:限制酶都有特定的识别序列和切割位点,把这种序列作为标志在DNA链上作图。
1.2.2 DNA测序工作
斯坦福大学酵母基因组数据库(SGD)在Yeast Deletion Project中解读了6000多个啤酒酵母的可译框,但是大约三分之一的基因功能当时还不能被完全揭示。该研究中心于1993年,由NGGRI建立,是NIH基因组研究中心之一。他们分析基因功能的一个有力手段是分析缺失该基因的突变株的表型。为了简化这种分析手段,该中心系统地将酿酒酵母大约6200个已知的开放阅读框通过PCR介导的基因敲除方法分别进行基因敲除,除了选择性标记以外,还在置换序列两端加入了2段独特的20个碱基的分子标签。这标签使在同一培养体系中培养筛选多个缺失突变株成为可能。1996年4月,在国际互联网的公共数据库中公布了酿酒酵母(Saccharomyces Genome Database)的完整基因组顺序,它被称为遗传学上的里程碑。因为首先,这是人们第一次获得真核生物基因组的完整核苷酸序列;其次,这是人们第一次获得一种易于操作的实验生物系统的完整基因组。酵母是一种较好的模式生物,通过对其基因组的深入研究将有助于人们了解高等真核生物基因组的结构和功能。
1.2.3. 数据整理的过程
在酿酒酵母测序计划开始之前,人们通过传统的遗传学方法已确定了酵母中编码RNA或蛋白质的大约2600个基因[4]。通过对酿酒酵母的完整基因组测序,发现在12068kb的全基因组序列中有5885个编码专一性蛋白质的开放阅读框。这意味着在酵母基因组中平均每隔2kb就存在一个编码蛋白质的基因,即整个基因组有72%的核苷酸顺序由开放阅读框组成[5]。而在线虫基因组中,存在一个编码蛋白质的基因[6]是平均每隔6kb,在人类基因组中则需平均每隔30kb或更多的碱基。因此说明酵母基因比其它高等真核生物基因排列紧密。酵母基因组的紧密性是因为基因间隔区较短与基因中内含子稀少。酵母基因组的开放阅读框平均长度为1450bp即483个密码子,最长的是位于XII号染色体上的一个功能未知的开放阅读框(4910个密码子),还有极少数的开放阅读框长度超过1500个密码子。在酵母基因组中,也有编码短蛋白的基因,例如,编码由40个氨基酸组成的细胞质膜蛋白脂质的PMP1基因。此外,酵母基因组中还包含:约140个编码RNA的基因,排列在XII号染色体的长末端;40个编码SnRNA的基因,散布于16条染色体;属于43个家族的275个tRNA基因也广泛分布于基因组中。
序列测定揭示了酵母基因组中大范围的碱基组成变化。多数酵母染色体由不同程度的、大范围的GC丰富DNA序列和GC缺乏DNA序列镶嵌组成[5、,7]。酵母的遗传重组即双链断裂的相对发生率与染色体的GC丰富区相耦合[8],而且不同染色体的重组频率有所差别,较小的Ⅰ、Ⅲ、Ⅳ和Ⅸ号染色体的重组频率比整个基因组的平均重组频率高。
基因序列的分析中,据Bassett的不完全统计,到1996年7月15日,至少已发现了71对人类与酵母的互补基因,这些酵母基因可分为六个类型:(1)20个基因与生物代谢包括生物大分子的合成、呼吸链能量代谢以及药物代谢等有关;(2)16个基因与基因表达调控相关,包括转录、转录后加工、翻译、翻译后加工和蛋白质运输等;(3)1个基因是编码膜运输蛋白的;(4)7个基因与DNA合成、修复有关;(5)7个基因与信号转导有关;(6)17个基因与细胞周期有关。现在,人们发现有越来越多的人类基因可以补偿酵母的突变基因,因而人类与酵母的互补基因的数量已远远超过过去的统计。
1.3 酵母蛋白组功能图谱绘制完成
德国与加拿大科学家[9、10]在2002年初公布了酿酒酵母的部分蛋白质组图谱,并根据这一图谱发现了蛋白质复合体之间的交换作用具有动态特性。对此,科学家认为,具体弄清这种特性可能有助于找到人体组织、器官和细胞等发生病变的机理。德国方面用同源重组的方法标记了约1700个蛋白,其中1143个与人类相关,经质谱(MS)分析鉴定了232个蛋白复合物和344个蛋白质可能的细胞功能。加拿大方面对10%的预测诱饵蛋白(bait protein)进行了分析,在覆盖全基因组25%的范围内找到了3617个相关蛋白。德国海德堡Cellzome AG第一次描述了酵母蛋白质组的功能图谱。这幅图谱绘制了酿酒酵母中的蛋白质的完整网络及其相互作用,这个蛋白质的相互用网络是影响细胞在不同环境下的活性的基础。这幅图谱描绘了1.440种酵母蛋白质的功能和相互作用,这些蛋白质形成232个直接影响生物学活性的多元复合物。酵母的基因组在1996年就被测定了,但是有将近一半的基因的功能还是未知的。他们的目标是破解蛋白质组的功能结构,这样就能够在分子环境内了解基因的功能,而各种细胞内的过程也可以看作是各种分子结构之间和谐作用的结果。这个小组利用同源重组的方法分别改变了酵母基因组中的1.700种基因,并用双重的分子标签标记这些被改变的基因。这些基因表达出的蛋白质能够用这些标签钓出来。由于这些蛋白质能够与其他蛋白质形成复合物,人们通过回收标记的蛋白质所发现的通常是由这些相互作用的蛋白质形成的复合物。这些基因的表达都受内源的启动子控制,因此在蛋白质装配和回收的过程中,细胞内的自然生理环境几乎没有受到什么影响。他们利用基质辅助的激光离子化解离飞行时间质谱(MS)确定分离得到的每一个蛋白质,然后用生物信息学方法分析整个网络结构。无疑该项目的完成将加速新药物的开发过程。
2 酵母作为模式生物的作用
2.1 基因与进化
酵母在比较基因组学中,发挥着重要的作用。由于酵母是最小的真核单细胞生物,在进化史上有无可比拟的作用。酿酒酵母基因组中有30%~35%,约2000个基因属孤儿基因,阐明这些基因的功能,将大大推进对最简单的单细胞真核生物生命过程的认识,因而引起许多遗传学家的重视。上世纪70年代[11],由于对各大类生物的分子生物学研究积累了大量研究资料,C.R.Woese对各大类生物的16SrRNA寡核苷酸序列分析,于1977年提出三原界(Urkingdom)学说(后来改称三个域): 真核生物原界:原生动物、真菌、植物和动物;真细菌原界:古细菌外的其它原核生物;古细菌原界:产甲烷细菌、嗜盐细菌、嗜热嗜酸细菌.1990年,他为了避免把古细菌也看作是细菌的一类,又把三界(域)改称为:Bacteria(细菌)、Archaea(古生菌)和Eukarya(真核生物),并构建了三界(域)生物的系统树。但随着新的微生物基因组测序并与其他真核生物基因组的比较,对Woese的生命树提出了怀疑,特别对生命树中关于三域关系的论述。首先,并不是所有的基因进化都以相同的速度和方式进行,所以从某一个基因(如rRNA)得到的进化树很可能与另一个基因的不同。以前人们倾向于将rRNA树等同于生命树,但从全基因组来看,很快会遇到来自其他基因与rRNA树不一致的生命树。另外,假如现在的系统发育树是正确的,那么无法解释在真核生物34个科中,当回溯到早期细胞进化时,有17个科的蛋白质似乎是来自细菌,而只有8个科与古细菌表现出更大的相似性。在酵母基因组中,与细菌匹配的基因是与古细菌匹配基因的两倍。随着更多基因组序列的完成及新软件的开发,将使人们追踪不同基因遗传性的能力得到提高,更多地发现三域间的联系,从而对进化能有一个更好的、整体的理解。
2.2 基因与疾病
人类的许多重要疾病如早期糖尿病、小肠癌均是多基因遗传性疾病,揭示涉及这些疾病的所有相关基因是1个困难而漫长的过程,酵母基因与人类多基因遗传性疾病相关基因之间的相似性将为提高诊断和治疗水平提供重要的帮助。通过连锁分析、定位克隆然后测序验证而获得与此类疾病相关基因。例如,人类遗传性非息肉性小肠癌相关基因与酵母的MLH1、MSH2基因[12],运动失调性毛细血管扩张症相关基因与酵母的TEL1基因,布卢姆氏综合征相关基因与酵母的SGS1基因,都有很高的同源性。遗传性非息肉性小肠癌基因在肿瘤细胞中表现出核苷酸短重复顺序不稳定的细胞表型,而在该人类基因被克隆以前,研究工作者在酵母中分离到具有相同表型的基因突变(msh2和mlh1突变)。受这个结果启发,人们推测小肠癌基因是MSH2和MLH1的同源基因,而它们在核苷酸序列上的同源性则进一步证实了这一推测。布卢姆氏综合征是一种临床表现为性早熟的遗传性疾病,病人的细胞在体外培养时表现出生命周期缩短的表型,而其相关基因则与酵母中编码蜗牛酶的SGS1基因具有很高的同源性。与来自布卢姆氏综合征个体的培养细胞相似,SGS1基因突变的酵母细胞表现出显著缩短的生命周期[13]。Francoise等研究了170多个通过功能克隆得到的人类基因,发现它们中有42%与酵母基因具有明显的同源性,这些人类基因的编码产物大部分与信号转导途径、膜运输或者DNA合成与修复有关,而那些与酵母基因没有明显同源性的人类基因主要编码一些膜受体、血液或免疫系统组分,或人类特殊代谢途径中某些重要的酶和蛋白质[14]。
表1 与定位克隆的人类疾病基因高度同源的酿酒酵母基因
人类疾病
人类基因
人类cDNA
GenBank登记号
酵母基因
酵母cDNA
GenBank登记号
酵母基因功能
遗传性非息肉性小肠癌
MSH2
U03911
MSH2
M84170
DNA修复蛋白
遗传性非息肉性小肠癌
MLH1
U07418
MLH1
U07187
DNA修复蛋白
囊性纤维变性
CFTR
N28668
YCF1
L35237
金属抗性蛋白
威尔逊氏病
WND
U11700
CCC2
L36317
铜转运器
甘油激酶缺乏症
GK
L13943
GUT1
X69049
甘油激酶
布卢姆氏综合症
BLM
U39817
SGS1
U22341
蜗牛酶
X-连锁的肾上腺脑白质营养不良
ALD
Z21876
PAL1
L38491
过氧化物酶转运器
共济失调性毛细血管扩张症
ATM
U26455
TEL1
U31331
P13激酶
肌萎缩性脊髓侧索硬化
SOD1
K00065
SOD1
J03279
过氧化物歧化酶
营养不良性肌萎缩
DM
L19268
YPK1
M21307
丝氨酸/苏氨酸蛋白激酶
勒韦氏综合症
OCRL
M88162
YIL002C
X47047
IPP-5-磷酸酶
I-型神经纤维瘤
NF1
M89914
IRA2
M33779
抑制性的调节蛋白
此外, 与酵母11号染色体上有明显同源的人类着色性干皮病也可以说明该问题。早在1970年Cleaver等就曾报道,着色性干皮病和紫外线敏感的酵母突变体都与缺乏核苷酸切除修复途径(nucleotide excision repair,NER)有关[15]。1985年,第一个NER途径相关基因被测序并证实是酵母的RAD3基因[16]。1987年,Sung首次报道酵母Rad3p能修复真核细胞中DNA解旋酶活力的缺陷[17]。1990年,人们克隆了着色性干皮病相关基因xPD,发现它与酵母NER途径的RAD3基因有极高的同源性[18]。随后发现所有人类NER的基因都能在酵母中找到对应的同源基因。重大突破来源于1993年,发现人类xPBp和xPDp都是转录机制中RNA聚合酶Ⅱ的TFⅡH复合物的基本组分[19]。于是人们猜测xPBp和xPDp在酵母中的同源基因(RAD3和RAD25) 也应该具有相似的功能,依此线索很快获得了满意的结果并证实了当初的猜测[20]。
2.3 基因识别
通过使用特定的酵母基因突变株,对人类cDNA表达文库进行筛选,从而获得互补的克隆。如Tagendreich等利用酵母的细胞分裂突变型(cdc mutant)分离到多个在人类细胞有丝分裂过程中起作用的同源基因[21]。在20世纪70年代中期,Nurse发现酿酒酵母CDC2基因。他的研究发现,这种基因在控制细胞分裂中(G2→M)起关键作用。后来,他发现CDC2还有许多功能。它同Hartwell早年鉴定出的酿酒酵母启动基因(控制G1→S)相同。后来研究发现CDC2基因能调控细胞周期的不同时相。1987年Nurse分离出人对应的基因,后来称为CDK1(细胞周期蛋白依赖性激酶1)。这种基因编码一种蛋白,它是细胞周期蛋白依赖性激酶(CDK)类的一种蛋白。Nurse的研究表明,激活CDK依赖于可逆性磷酸化。这些磷酸化集团与蛋白相联或分离。根据这一发现,在人类发现了6种不同的CDK分子。利用此方法,人们还克隆分离到了农作物、家畜和家禽等的多个新基因[22]。目前中国利用酵母进行了重组乙肝疫苗早已经投入市场。同时人类cDNA克隆与酵母中功能已知基因缺陷型进行遗传互补可以确定人类新基因的功能[12,23],但是这种互补实验会受到酵母基因组中其它丰余基因的影响。如果构建的酵母最小基因组中所保留的基因可以被人类或者病毒的DNA序列完全替换,那么替换后的表型将完全取决于外源基因,这将成为一种筛选抗癌和抗病毒药物的分析系统。
3 结语
酵母作为高等真核生物特别是人类基因组研究的模式生物,其最直接的作用体现在生物信息学领域。随着DNA测序工作的完成,蛋白质组图谱的构建,越来越多的科学家意识到各种模式生物的重要性,为人类基因组的研究奠定了基础。当人们发现了一个功能未知的人类新基因时,可以迅速地到任何一个酵母基因组数据库中检索与之同源的功能已知的酵母基因,并获得其功能方面的相关信息,从而加快对该人类基因的功能研究。研究发现,有许多涉及遗传性疾病的基因均与酵母基因具有很高的同源性,研究这些基因编码的蛋白质的生理功能以及它们与其它蛋白质之间的相互作用将有助于加深对这些遗传性疾病的了解。此外,人类许多重要的疾病,如早期糖尿病、小肠癌和心脏疾病,均是多基因遗传性疾病,揭示涉及这些疾病的所有相关基因是一个困难而漫长的过程,酵母基因与人类多基因遗传性疾病相关基因之间的相似性将为我们提高诊断和治疗水平提供重要的帮助。同时,对蛋白三维结构的研究,设计与目标蛋白具有高度亲和性、可特异结合的新型药物,即新药的研制与开发也将向我们展示了一个全新的世界。
参考文献
[1]惠俊爱,王绍明,张霞. 模式生物及其研究进展.生物学通报 2002.37(8):4-7.
[2]董利.后基因组时代的生物信息学.国外医学.生理.病理科学与临床分册 2001.Aus.21(4):327-330
[3]Wach A, Brachat A, Pohlmann R, Philippsen P. New heterologous modules for classical or PCR-based gene disruptions in Saccharomyces cerevisiae. Yeast. 1994 Dec;10(13):1793-808.
[4]Mortimer RK, Contopoulou CR, King JS. Genetic and physical maps of Saccharomyces cerevisiae. Yeast. 1992 Oct;8(10):817-902.
[5]Dujon B. The yeast genome project: what did we learn? Trends Genet. 1996 Jul;12(7):263-70.
[6]Hodgkin J. Epigenetics and the maintenance of gene activity states in Caenorhabditis elegans.Dev Genet. 1994;15(6):471-7.
[7]Sharp PM, Wolfe KH.Identification of a Candida utilis gene encoding ribosomal protein L7: evidence for two divergent subclasses of the eukaryotic ribosomal protein L7 family.Nucleic Acids Res. 1993 Jul 25;21(15):3577.
[8]Zenvirth D, Arbel T, Sherman A, Goldway M, Klein S, Simchen G. Multiple sites for double-strand breaks in whole meiotic chromosomes of Saccharomyces cerevisiae.
EMBO J. 1992 Sep;11(9):3441-7.
[8]Gavin AC, Bosche M, Krause R, Grandi P. Functional organization of the yeast proteome by systematic analysis of protein complexes. Nature. 2002 Jan 10;415(6868):141-7.
[9]Ho Y, Gruhler A, Heilbut A. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometry. Nature. 2002 Jan 10;415(6868):180-3.
[10]陆德如.微生物基因组研究.微生物学报.1997.37(4):323-325.
[12]Oliver SG.  Yeast as a navigational aid in genome analysis. 1996 Kathleen Barton-Wright Memorial Lecture. Microbiology. 1997 May;143 ( Pt 5):1483-1487.
[13]Sinclair DA, Mills K, Guarente L. Accelerated aging and nucleolar fragmentation in yeast sgs1 mutants. Science. 1997 Aug 29;277(5330):1313-6.
[14]Francoise F. Treatment of yolk sac tumor of the testis in children. Prog Clin Biol Res. 1985;203:639-42.
[15]Mitchell DL, Cleaver JE, Lutze LH. Excision of cyclobutane dimers in genomic and episomal DNA in human cells.Photochem Photobiol. 1994 Sep;60(3):221-4.
[16]Reynolds P, Higgins DR, Prakash L, Prakash S. The nucleotide sequence of the RAD3 gene of Saccharomyces cerevisiae: a potential adenine nucleotide binding amino acid sequence and a nonessential acidic carboxyl terminal region. Nucleic Acids Res. 1985 Apr 11;13(7):2357-72. .
[17]Sung P, Prakash L, Weber S, Prakash S. The RAD3 gene of Saccharomyces cerevisiae encodes a DNA-dependent ATPase.Proc Natl Acad Sci U S A. 1987 Sep;84(17):6045-9
[18]Weber CA, Salazar EP, Stewart SA, Thompson LH. ERCC2: cDNA cloning and molecular characterization of a human nucleotide excision repair gene with high homology to yeast RAD3. EMBO J. 1990 May;9(5):1437-47
[19]Schaeffer L, Roy R, Humbert S, Moncollin V, Vermeulen W, Hoeijmakers JH, Chambon P, Egly JM.DNA repair helicase: a component of BTF2 (TFIIH) basic transcription factor.
Science. 1993 Apr 2;260(5104):58-63.
[20]Quimby BB, Alano A, Almashanu S, DeSandro AM, Cowan TM, Fridovich-Keil JL. Characterization of two mutations associated with epimerase-deficiency galactosemia, by use of a yeast expression system for human UDP-galactose-4-epimerase. Am J Hum Genet. 1997 Sep;61(3):590-8.
[21]Kotani S, Tugendreich S, Fujii M, Jorgensen PM, Watanabe N, Hoog C, Hieter P, Todokoro K. PKA and MPF-activated polo-like kinase regulate anaphase-promoting complex activity and mitosis progression.Mol Cell. 1998 Feb;1(3):371-80.
[22]Taylor RM, Hamer MJ, Rosamond J, Bray CM. Molecular cloning and functional analysis of the Arabidopsis thaliana DNA ligase I homologue.Plant J. 1998 Apr;14(1):75-81.
[23]Oliver SG. From DNA sequence to biological function. Nature. 1996 Feb 15;379(6566):597-600.
Genomics and Molecular Evolution
—— 一位大三的学生
Introduction
Along with the completion of the draft of whole genome sequence of human and other model organisms such as E. col, Arabidopsis etc., biological science is booming with the advent of post-genomics era. At the same time, molecular evolution enters its “Golden Age”, because the huge data obtained from several projects of sequencing genomics supply the condition and environment to study the phylogenesis among the model organisms as well as inner the genome and gene families.
However, the major task of the post-genomics, identifying functions of all genes is still many years ahead. In fact, even the much simpler task of mapping all the genes, such as the physical map, genetic map and QTL map, should become available in a few years. Thus, the ultimate goal of Human Genomic Project (HGP), linking all the functions with sequence and identifying the evolutionary history of life is the fundamental task of new biology, in which, the latter is the task and target of molecular evolution applying in human genomics.
Besides the application of genomics and molecular evolution in human genomics, the fundamental theories of them are still in challenging. To extract useful biological information from the strings of As, Ts, Cs and Gs still faces the difficulty in theory and algorithm about computation (computational genomics). On the other hand, although functional genomics reveals some of linkage of genes to functions, and it is widely used in today’s research, it has intrinsic problem when we concerning the network of gene regulation.
In the past almost half of century, molecular biology dramatically changes the face of every aspects of biological science. Although traditional evolutionist are reluctant to recognize the importance of the sequence data of nucleic acid and protein, these data are the core components of experimental and theoretical genomics and evolution, and then, shaping the new research area of evolutionary genomics gradually.
Genomics and Post-Genomics
Human Genomic Project
It is inevitable to refer to Human Gnomic Project when we consider the genomics. Science 1990, collaborators from China, the US, France, German and Japan began the work of sequencing human genome. At the same time, Celera Genomics, a private venture company leading by Dr. Craig Venter also engaged in this project. Until 1991, draft version of human genomics came into being under the collaboration of both groups. Although this project cost huge money from all over the world, the potential effect and meaning are invaluable. Through the research, the technology of sequencing is greatly developed and this technology illuminates most areas of biology radically.
Proteomics
Proteomics is the genetics of protein. As in the genome, the structure of gene remains unchanged while mutating in DNA sequence; however in the protein sequence, it varies from different kinds of cell to different environment. Protein is expressed in a dynamical level and stands for the activity of the specific cell. As it is said, proteomics plays the vital role in post-genomic era.
Analysis of protein usually employs 2D-gel and then we uses mass spectrum to determine its character and the level of expression. But its limitation, such as the low level of expression, too large or too small the size of the protein, constrains its prevailing use. Protein microarray as the alternative method can compensate the limitation; it, nevertheless, also gives false results because of its over-sensitivity.
Functional Genomics
Functional genomics represents a new phase of genome analysis. It provides a fertile ground for creative thinking in developing innovative technologies that make use of the vast resource of structural genomics information. Specifically, functional genomics refers to the development and application of global (genome-wide or systemwide) experimental approaches to assess gene function by making use of the information and reagents provided by structural genomics. It is characterized by high throughput or largescale experimental methodologies combined with statistical and computational analysis of the results.
However, in my point of view, sometimes, it seems that functional genomics has been trapped in a rigid form which requires only mechanical steps. Following the established technical routine: candidate genes, cloning and sequencing, mutation selection, knock-out or over-expression, physical or cytological analysis, and at last the conclusion that which gene is connected with such a specific regulation way and resulting such a phenotype.
Bioinformatics
Bioinformatics seems gives us another angular to view the genome. In the early history of this discipline, it mainly focused on alignment, and then it widen its boarder to prediction, predicting the structure of nuclei acid, protein or gene initially and now predicting the biological way of regulation. It also care for analysis, that is, doing some work of data mining. Still, even now, bioinformatics has its coverage of almost every aspect, including comparative genomics and molecular evolution. From the angular of algorithm and depending on the computational capacity, we can now treat data obtained from each area of research, however huge it will be, and then give the automatic conclusion or suggestion.
Molecular Evolution
Molecular evolution began with the hypothesis of molecular clock, or neutral theory of evolution, in which the rate of replacement of amino acid or nucleotide nearly conserved in the process of molecular. Based on such a hypothesis, we can speculate the history of divergency between different orgnism and the evolution of one species or population. This hypothesis arose controversy about the existence and the precise of the molecular clock: First, it is hard to imagine a constant rate of evolution which shapely conflicts with the early research about the evolution of phenotype in that the rate of revolution is determined by the environment and natural selection and thus can not be constant. Second, the mechanism of maintenance of this constant rate is still unclear. Third, much species of the phylogenesis speculated from the hypothesis are significant different from the original and then are rejected by most scholars.
后基因组学(Post – Genome)
—— 一位大三的学生
摘要:随着人类基因组计划的实现,生命科学进入了一个后基因组时代. 在这个时代里,生命科学关注的范围越来越广,涉及的问题越来越复杂,采用的技术越来越高。但不可否认的是后基因学是生命科学未来的研究和发展方向。而对于后基因的研究也必将给人类的生存和发展带来不可估量的帮助。本文就后基因学的相关内容进行了概述。有些则是个人不成熟的观点。
关键词:后基因组学     比较基因组学     蛋白质组学
一、关于后基因组学
基因组(Genome) 是1924 年提出用于描述生物的全部基因和染色体组成的概念。1986年由美国科学家Thomas Roderick 提出的基因组学(Genomics) 是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录本图谱) , 核苷酸序列分析, 基因定位和基因功能分析的一门科学自从1990 年人类基因组计划实施后,基因组学发生了翻天覆地的变化,发展成为一门生命科学的前沿和热点领域。
而随着基因组学研究技术的不断发展,而2001年人类基因组图谱的再版,基因组测序已经变得轻而一举,基因组学也已经不再像曾经那样深不可测。但是基因组测序、破译基因密码只是认识生命的第一步。人们从基因的表达方式已经知道,基因是通过指挥蛋白质的合成来表现生物性状的。基因只是设计师或导演,在生命舞台上表演的是蛋白质分子,只有它才能表现生命的功能,一个解析蛋白质的任务摆到了科学家面前,这就是“后基因组学”。
“后基因组学”的实质是将基因组研究的重心由基因组的结构(如DNA 序列测定、基因定位) 向基因的功能转移,尽快读懂读通和鉴定基因组中基因,了解这些基因的功能,以及基因表达的规律。因此“后基因组学”也被称为“功能基因组学”( Functional Ge2nomics) ,而基因组学的前期工作相应地被称为“结构基因组学”。目前,绝大多数从事人类基因组计划工作的机构已经实施由结构基因组学向功能基因组学的战略移。结构与功能的统一是生命科学界普遍存在的规律,实现从结构基因组学向功能基因组学的战略转移是科学界自觉运用自然辩证法的又一例证。结构基因组学向功能基因组学的转变亦是实现经济效益的必然之路。仅仅完成基因组的测序工作并没有什么经济价值,只有通过弄清楚研究基因的结构与功能,才可能在基因诊断、基因治疗、基因工程药物等方面取得进展。而这正是各国科学界与商界急于开展功能基因组学研究的原因。
二、后基因组学的研究内容
功能基因组学研究中的核心问题包括基因组的多样性与进化规律,基因组的表达及其调控,模式生物体基因的研究,它是结构基因组学的延伸与拓展。
个人认为后基因组学研究的内容可以概括为比较基因组学和蛋白质组学两个方面。前者是,在结构基因组基础上,进行包括了基因的鉴定、调控表达,基因组的多样性及进化规律等各方面的研究。后者,则是更进一步的对前者研究的延伸,是在蛋白质水平上研究这个生物基因组在生命的各个方面(如遗传、变异、生长、发育)所起到的作用。
1、  比较基因组学(comparative genomics)
比较基因组学是通过憝系统发育中代表性物种之间全方位基因和基因家族的比较分析,构建系统发育的遗传图谱,揭示基因、基因家族的起源和进化过程中法砸化和多样化的机制。
“再多一些,再多一些。”这是“收获”了许多新基因序列的比较遗传学家对自己在2004 年的寄望。他们的研究在过去一年中取得了突飞猛进的发展。对于控制生物体基因活动的调控序列以及决定现代基因组形成的进化动力科学家们有了更新的认识。对此,美国凯斯西储大学的比较遗传学家伊文·艾迟勒总结说:“过去,基因组比较随意性很强,有点像家庭手工作坊。现在,全基因组比较更加规范化而且具有更深远的寓意。”
追踪调控基因序列的“印记”涉及到对几种相关物种的基因组进行比较。经过大量的对比分析,最终将保守的调控元件从遗传获得的“嘈杂”基因序列中识别出来。如果比较物种中包括远近时期的进化亲缘,这种类型的分析将提供特别的讯息。通过人类大块基因序列与其他灵长类、鸭嘴兽、鸡、鱼等种类多样的脊椎动物序列的比对研究,科学家已经识别出人类基因组中的潜在调控元件。在经过与其他各种脊椎动物基因序列的比对之后,已经从31000个减少至仅25000个以下。比较分析也提示给我们一些关于基因组进化的信息。经历无数的年代,基因组跳跃,增添和缺失最终产生新的遗传基因和整个基因家族。而跨越物种间的基因比对使确定这些变化发生的时期成为可能。譬如,科学家已经将各种人类基因序列与其他灵长类动物的同等序列进行了比较。结果揭示了人类基因进化的关键因素。诸如9 染色体,尽管被认为一代代地退化下去,但科学家发现它似乎有自己独特的“绝招”复制重要的男性特有基因以保护它们不被丢失。现在,研究人员希望设计实验以探察比较基因组学的预测是否准确。
2、  蛋白质组学(protemics)
基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,它有自身的活动规律,因而仅仅从基因的角度来研究是远远不够的,必须研究由基因转录和翻译出蛋白质的过程,才能真正揭示生命的活动规律,由此产生了研究细胞内蛋白质组成及其活动规律的新兴学科——蛋白质组学(protemics)。蛋白质组(proteome)是由澳大利亚Macquarie大学的Wilkins和Williams于1994首先提出,并见于1995年7月的“Electrophonesis”上,指全部基因表达的全部蛋白质及其存在方式,是一个基因、一个细胞或组织所表达的全部蛋白质成分,蛋白质组学是不同时间和空间发挥功能的特定蛋白质群体的研究。它从蛋白质水平上探索蛋白质作用模式,功能机理、调节控制、药物开发、新陈代谢途径等提供理论依据和基础(成海平等,2000)。蛋白质组学旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式(修饰形式)、结构、功能和相互作用方式等,它不同于传统的蛋白质学科,是在生物体或其细胞的整体蛋白质水平上进行的,从一个机体或一个细胞的蛋白质整体活动来揭示生命规律(李林,2000)。但由于蛋白质具有多样性和可变性,复杂性,低表达蛋白质难以检测等,应该明确其研究的艰难性。总体上研究可以分为两个方面:对蛋白质表达模式(或蛋白质组成)研究,对蛋白质功能模式(目前集中在蛋白质相互作用网络关系)研究。对蛋白质组研究可以提供如下信息:从基因序列预测的基因产物是否以及何时被翻译;基因产物的相对浓度;翻译后被修饰的程度等(赵俞华等,2000)。
由于蛋白质数目小于基因组中开放阅读框(ORF,open reading forum)数目,因此提出在特定时间、特定环境和试验条件下基因组活跃表达的蛋白质为功能蛋白质(Functional proteome),功能蛋白质只是总蛋白质组的一部分。功能蛋白质组学研究是位于对个别蛋白质的传统蛋白质研究和以全部蛋白质为研究对象的蛋白质研究之间的层次,是细胞内与某个功能有关或某种条件下的一群蛋白质。
对蛋白质组成分析鉴定,要求对蛋白质进行表征,即分离、鉴定图谱化,包括两个步骤:分离蛋白质;鉴定。双向凝胶电泳(2-DGE)和质谱(MS)是主要的技术。近年来,有关技术和生物信息学在不断并迅速开发和发展中。蛋白质组研究技术体系包括:样品制备;双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis,2-D PAGE);蛋白质的染色;凝胶图像分析;蛋白质分析;蛋白质组数据库。其中三大关键是:双向凝胶电泳技术,质谱鉴定,计算机图像数据处理与蛋白质数据库(成海平,2000)。
三、后基因组学的意义
后基因组学的研究其意义实在是太重大了。个人认为其实后基因组学的研究,其实早就开始了。我们知道人类最先开始研究的生命活性物质就是蛋白。而之所以认为后基因组学才刚刚开始,主要是在人们开始大量研究基因组,并且完成了相应的研究,所以习惯性的将后续的研究称之为后基因组学。在后基因组时代研究的一个重要焦点会是研究基因功能到底是怎样,生物学家一直研究基因功能已多年了,但他们的研究进展缓慢花费昂贵,并且是针对单个基因. 而通过从基因组使用有效的试剂可以改变以上情况,在后基因组时代,在其他事当中将会是可能的: ①在基因组大规模执行基因功能实验,由此命名为功能基因组学. ②研究大量基因,可能很多时候是同时研究.③开始研究大量功能协同基因以确定其他基因.理解这些基因的关系将是提供一个巨大的洞察力去了解基因是如何参与人类的健康和福利.
四、后基因组时代所面临的问题
1、研究模式及重点发生显著变化,要及时调整研究思路
通过上述分析,可以发现与结构基因组时代相比,后基因组时代的研究模式和研究重点发生了显著变化(表1) ,概括地说,一是由结构研究转向功能研究;二是由单基因研究转向基因组研究;三是由单一基因组转向多种基因组研究。这些本质性的变化,要求在研究的思维方式上有根本性的转变,即要由分析式思维向系统性思维转变。从科学方法论看,结构基因组时代主要用的是分析式思维。这是因为结构基因组时代的研究重点主要在分析基因组的结构及核苷酸序列测定、寻找基因,并试图对复杂症状疾病的分子机理开展研究,从一个或多个候选基因中进行联系和寻找发病原因与机制,并企盼从中找到诊断、治疗和预防的办法。这些研究虽已取得不少重要结果,但总的来看仍有很大的局限性。一方面,研究发现不论是单基因疾病还是多基因疾病,在发病过程中都涉及到多个基因的表达,以及这些基因在时空上的调控和分子间相互作用等复杂过程。要搞清一种疾病的发生发展或某种健康状态的机理,必须从基因组这个整体水平上去研究涉及疾病或健康状况的所有基因的变化规律,而不是只研究某个基因。另一方面,后基因组时代将着重研究基因组的功能,这里“功能”是以“结构”为基础的一种综合性质的表现,包含了决定功能表现的遗传背景、遗传信息的传递过程、分子间的相互作用和调控等内容。因此必须用“综合”或“系统”的眼光去研究“功能”,而不再是“零打碎敲”的研究模式。此外,人体和生物体都是由细胞组成的多层次的复杂系统,其生长、发育和功能活动都是系统行为,只能通过对系统的分析和综合才能真正了解。
2、生物信息量剧增,要重视生物信息的利用
人类基因组计划已使人体基因组约30 亿对碱基完成测序。除此之外,还有细菌、线虫等多种模式物种的基因和蛋白质数据正在以科学史上从未有过的高速度增长。迄今已经完成了约60 多种生物的全基因组测序工作。现在,碱基数据的总量每8 个月翻一番。截至目前,登录在GeneBank数据库中的DNA 序列总量已经超过73 亿碱基。生物学数据的积累并不仅仅表现在DNA 序列方面,与之同步的还有蛋白质一级结构即氨基酸序列数据的增长。每个月至少测出150 种蛋白质的结构。迄今为止,已有一万多种蛋白质的空间结构以不同的分辨精度被测定,而这种增长速度本身也在加速。有人估计,有史以来所说过话的信息量总和为5 ×1018 ,而现今生物信息数据信息量接近或甚至超过这个数量级,由此构成了生物信息的海洋。因此有人把后基因组时代称为“数据导向”的时代。这些以DNA 序列和蛋白质序列为主要内容的生物信息,是基因组计划的重要成果但获得这些信息并不是基因组计划的最终目标。有人把基因组序列形容为“天书”,也有人把这些信息比喻为“金矿”。结构基因组时代主要是数据的收集整理(data management) ,后基因组时代的重点将是数据的发掘利用(data mining) 。也就是说,后基因组时代是要破译这部“天书”,要发掘有用的生物信息并加应用和推广。利用生物信息不仅能对生命起源、进化等重大生物学问题进行分析研究,也能发现新基因、新药、新的诊断和治疗措施等。也正是因为生物信息中蕴藏着巨大的经济效益,许多公司和研究机构都斥巨资开展生物信息学研究,力图在生物信息的利用研究方面抢占“先机”和“地盘”。由于生物信息的共享性,给广大生命科学工作者提供了一个难得的发展机遇。也可以说在后基因组时代,大家基本处在同一个起点上,谁能抓住机遇,充分掌握和利用好生物信息,谁将在后基因组时代取得领先地位。
3、新兴技术不断出现,要重视建立重要技术平台
当基础理论研究深入到一定程度后,技术的发展往往成为继续发展的“瓶颈”和关键条件。原计划15 年完成的人类基因组计划,所以能提前完成,主要应归功于大规模DNA 测序技术和生物息技术的发展。在后基因组时代,由于综合性、整体性和动态性研究的需要,不仅要从基因组和蛋白质组两个层面开展研究工作,还要对细胞、组织乃至个体、群体进行研究;要阐明细胞内的全部互相耦联的调控网络和代谢网络,细胞间的全部信号传导过程,从受精卵发育至成体的全部生理、病理的基因表达的变化等等。这些都需要有高通量、大规模的研究技术才能完成。因此建立和利用高通量、大规模的技术平台也是后基因组时代的重要特征之一。后基因组时代的主要研究工作将是:生物信息的发掘研究;基因组表达研究包括基因表达概况研究、蛋白质组研究和蛋白质- 蛋白质相互作用研究;动物体内基因功能研究,即利用有效的模式生物体,观察基因达被阻断或增加后在细胞和整体水平所产生的表型变化;以及基因组多样性研究,主要研究不同个体间基因组之间的差异及其与进化、遗传及疾病易感性等的关系。要完成上述研究工作,需要许多高通量、大规模的研究技术平台,特别值得引起重视的有: ①生物信息学技术平台,该技术平台主要由数据库技术、计算机网络技术及应用软件的开发和应用三大部分组成; ②微阵列技术和基因表达系列分析技术; ③蛋白质组学技术、双杂交技术、蛋白质芯片技术; ④转基因和基因剔除技术、表型诱变技术和比较基因组学技术。⑤突变检测技术或单核苷酸多态性检测技术。这些都是进行后基因组研究的基本技术平台。要适应后基因组时代发展的需要,必须结合自身研究的工作,引进或建立好这些基本的技术平台,这也是衡量一个科研单位在后基因组时代研究实力的重要标志之一。
3、  新基因的发现
随着基因测序技术的完善,对于基因序列的研究已经非常的容易。所以我们不难发现对于基因的定位、新基因的发现已经成为后基因组学研究的关键所在。目前,新基因研究技术还远远不够成熟和完善。因此个人认为,后基因组学的研究还是任重而路长。是今后后基组学研究的方向,本人也立志想在这一方向进行研究。
结束语:蛋白质组——后基因组组的关键词
上世纪末,人类基因组序列草图的完成宣告了一个新的纪元——“后基因组时代”的到来。在这个后基因组时代里,蛋白质组学则是其中流砥柱之一,是研究的重心所在。正因如此,《自然》、《科学》在公布人类基因组序列草图的同时,分别发表了述评与展望,将蛋白质组学的地位提到前所未有的高度,认为蛋白质组学将成为新世纪最大战略资源争夺战的重要“战场”,是新世纪生物医学前沿研究的战略制高点。
参考资料:
成海平,钱小红. 蛋白质组研究的技术体系及其进展[J].生物化学与生物物理进展,2000,27(6):584-588
解涛,梁卫平,丁达夫. 后基因组时代的基因组功能注释[J].生物化学与生物物理进展,2000,27(2):166-170
李宝健. 展望21世纪的生命科学[J].生命科学,2000,12(1):37-40,43
李林. 蛋白质组学的进展[J].生物化学与生物物理进展,2000,27(3):227-231
李伟.印莉萍. 基因组学相关概念及其研究进展[J].生物学通报,2000,35(11):1-3
王大成. 后基因组时代中的结构生物学[J].生物化学与生物物理进展,2000,27(4):340-344
吴学军,柴建华. 比较基因组学和人类基因组研究[J].生物工程进展,2000,20(1):57-59
赵俞华,王秀琴,刘芝华等. 功能基因组学的研究内容与方法[J].生物化学与生物物理进展,2000,27(1):6-8
Collins FS, Green ED, Guttmacher AE, Guyer MS. A vision for the future of genomics research. Nature, 2003, 422: 835-847
我的生物学观念的“进化”
—— 一位大四的学生
序:这篇文章是我一段时间以来科学思想与生物学观念的总结和思考。怀着对进化生物学的热爱和对参加“进化基因组学”培训班的向往,写下此文。由于缺乏有效的交流和指点,文中定有许多偏颇和谬误之处,请各位老师和专家不吝指教。
从小立志当一名物理学家。在经典物理学的熏陶和怀抱中长大,深深为过去几个世纪中物理学所取得的惊天动地的成就所震撼,为牛顿、爱因斯坦等物理大师书写和展现世界终极奥妙的手法所折服,为物理世界所展现出来的宇宙立法规则的庄严宏伟而敬畏不已。那个时候曾经执着而武断地相信:物理学就是科学世界的代言人,物理学的世界观必然且唯一地逼近宇宙的真实。
一个偶然的机会,我步入了生命科学的领域,并且学习研究的对象是万物之灵长、地球的主宰。虽然为未能继续儿时的梦想而带有一丝感慨和遗憾,但也为窥探到另一个世界的神奇和美妙而兴奋不已,尽管这种欣慰和兴奋来自反复的思索和观念之间苦苦的斗争。过去近十年物理学对我思想潜移默化的影响使我用一种既自然而又思维定式的观点看待所面临的生物世界:
世界一定存在它的不变的本质吗?
就像万有引力是普适的,量子力学是原子世界亘古不变的统治者一样,世界万物是可以不断变化的,但支配这种变化的物理定律是不变的。用一种更加开阔和动态的眼光来看,如果承认大爆炸宇宙学所提供的创世图景,我们的世界来源于大约180亿年前的一次大爆炸,宇宙物质的形成和演变仍然遵从于不变的物理定律。也就是说物理定律是可以先验于物质而存在,那么物理定律是如何“进化”的呢?这个问题的答案已经超越了现代物理学本身所能够回答的范围,尽管物理学家作为权宜之计暂时将它归功于宗教,但丝豪没有影响他们对“物理定律不变”的信仰。但当我尝试用这样的观念看待生物学世界,力图挖掘出一种可以感知的生物世界的不变的本质作为自己自然观的基石的时候却困惑不已:世界呈现出令人吃惊的多样性,《动物世界》所展现出来的物种及其生活形态的丰富和多样令人惊叹不已。“世界上不存在完全相同的两片树叶”,跟在粒子世界物理学家所做的全同性假设之上的统计学分析截然不同;其次是世界的复杂性,物理学所做的种种简化和假设似乎已经不足以满足我们对这个世界真实的感觉了。当正在注视我这篇习作的时候,光线进入眼球依次穿过角膜、瞳孔、虹膜、晶状体到达视网膜,又依次穿过视网膜中的神经结细胞、水平细胞/无长突细胞、双极细胞到达视锥和视杆细胞,光子以一种不甚清楚的机制与视锥和视杆细胞中的视紫红质发生化学反应并引起电冲动并沿视神经到达视觉皮层,以我们远远无法理解的编码方式“成像”,才使我们看到这张纸上的方块字。当第一次初步了解这个过程的时候,我被深深地震慑住了,由衷地感叹生物世界极度的精巧和复杂。还有我们的大脑—一个以万亿神经元(当然还有数目远胜于它的胶质细胞)及其联接构成的网络和其独特的学习、记忆功能,远远超过了任何大型计算机或人工智能所能够模拟的范畴。如果把意识问题也看作一个生物学问题的话(尽管很多心理学家和生物学家不这么看),我认为它已经复杂到让目前任何学科望其项背的程度了。举上述例子,我想说的是由于生物世界独特的多样性和复杂性,我还没有找到一条如同物理世界中的定律一样的理论,来对这些现象给出一个统一的、绝对的、永恒的描述。在《物理学的进化中》中爱因斯坦说:“当一门学科发展到能够用数学语言客观地描述的时候才标志着其真正的成熟”--- 这种物理学革命取得巨大胜利时的预言式的警句,也许永远不可在生物学上得到验证:或许生物学是超越物理学世界观的;或许我们的生物学知识的积累还不够丰富,对生物学世界的观察和描述还不够详尽,还没有概括出一种所谓的“大统一”理论将生物世界进行整合。但是,在这种理论出现之前,我们就没有必要坚持它出现的必然性;或许,我们应该用另外一种观点来看待生物学的独立、自成体系的世界,物理学世界观的“张冠李戴”的作法是可笑的。
这是个概率的世界么?
牛顿力学在天体问题上的巨大成功,极大的鼓舞了“决定论”的物理学世界观的确定。那个时代的人执着地认为,世界是就像一部由上帝上好了发条的闹钟,精确而有条不紊地运转着。爱因斯坦曾断言“上帝是不会执骰子的!”但是在微观世界中,量子力学向我们描述了一个崭新的图景:概率才是真实的,自由意志是客观存在的,上帝本来就是执骰子的!复杂性理论中的混沌理论也告诉我们,“墨西哥的一只蝴蝶翅膀的扇动可以引起太平洋的风暴”,初值条件的极小的涨落将导致结果的巨大差异,我们的世界也不像一台闹钟,按设定的程序一成不变地运转着。我的这个物理学的世界观恐怕是目前唯一在生物学世界没有遭到反抗的了。生命的起源是一个奇迹,也许就是一个偶然,在一个合适的条件下,一种或几种关键的生物分子相遇了,组成了最初的原始的生命形式。我们的身体结构如此精巧有序,以至很多人认为进化是有目的和方向的,总是朝着最好的路径前行。但基因的每一次突变也许是随机的,产生了很多的表型,在自然选择的力量下,不利于基因生存和繁殖就被淘汰掉了,保存下来的一般是对基因或物种有利的。印象中有个生物学家说过,如果让进化重新再来一次,或许生命完全不像现在这个样子。虽然生物世界具有概率的特征,但仅仅用概率二字概括生物学的世界又远远不能令人满意。我开始体会到为什么爱因斯坦创建了量子力学又成为量子力学坚定的反对者—因为将一个精致宏伟的物理世界归因于机率的统治是无论如何不能够接受的。
还原论?整合论?医学给于我的思考
当仅仅从物理学的世界寻找生物学的世界观受到挫折时,我又将视角投向我所属的医学领域。西方医学是伴随着西方科学的分析传统发展起来,它的疾病观很简单:聚焦病因、病位。找出病位上的病因是诊断、治疗的基础。这是典型的还原论思想的应用。还原论在我眼中有两层含义:一是组成性的,另一种或许可以称作功能性的。前者指将事物层层分解,找出其最基本的结构。如同物理学中原子分解为原子核和电子,原子核又解构为质子、中子,当电离能量进一步升高,质子、中子又可以分解为夸克和胶子……似无穷尽,但这又是粒子物理学家所津津乐道的事。后者我理解为一种方法和信念,即将一个事物的整体功能还原为各个组成部分的功能,这也许就是“分析” 的方法和技巧。从显微镜的发明开始,西医对于人体就有了系统-器官-组织-细胞-大分子的划分,闭眼一想,现在所有的临床实践和医学基础研究都在沿用这个还原性的模型,对病理、生理现象都力求从分子水平上阐述。如对肿瘤的研究,试图找出并阐明癌基因和抑癌基因以及分子水平上对细胞功能的信号调控,希望开发和设计新的药物对肿瘤的发生进行人工干预;再者,我感兴趣的神经生物学中对于学习和记忆的研究,常常落眼于从亿万神经元联结处的突触的可塑性入手,研究各种递质、受体的三维结构、生物化学以及细胞生物学,希望从分子水平上给予一种理解和解释。应该承认,西方医学在还原论的思想指导下获得了极大的胜利,现在已经形成了一个庞大又不断细化的复杂体系。但这个体系的细节的知识和结论真的能够促使我们对生命、疾病本质的精确和完整的了解么?我对还原论的思想并不是否定的,相反在没有一种更为有效的方法被开发出来并广泛应用之前,还原论的精髓仍是我们认识世界的不可或缺的甚至是唯一的方法论。想起中国古代的一个寓言故事—“盲人摸象”。在盲人没有能力直接观察和全面摸索的情况下,只能各个人负责一部分,给出一个“客观”的解释。这个故事我认为正好传达了分析方法的本质,其最正确的寓意在我看来不是嘲弄那些盲人的愚昧,而是在赞同分析方法合理性的同时向人们呼吁了一种新的方法论的产生--- 整合论。也许我们对事物所做的分析 的努力在揭示现象的同时也割裂了现象,在认识事物本质的同时也隐藏了其本质,所以不仅要分析,而且要整合;不仅要探索个体功能,而且不能无视彼此之间的关系。整合论,在我看来,就是一种以对象的分析为基础,以关系为核心的方法论,是分析方法或还原论的不可或缺的补充。接受的医学教育告诉我,中国古代的中医以整合论为其基本的思想。在我看来,中医首先作为一门哲学,以哲学的理论形态存在,然后再作为一门技术,行经世济人之道,最欣赏的是中医的整体性,它是中国古代哲学家对自然界本原探索思考的产物,他们认为风、雨、雪、电与人类莫不息息相关,人与其所处的环境是统一的不可分割的整体,这就是“天人合一”的观念。因此反映在中医上,对人体的研究最先是整体层次的,其次再是五行子系统。由整体性出发,中国古代医学家在大量的经验事实基础上,建构了“人体结构模型”,处于中心部位的是五脏:肝、心、脾、肺、肾;与五腑:胆、小肠、胃、大肠、膀胱互为表里;五官:眼、舌、口、鼻、耳分别是五腑的窗口;而五脏的状态可在五华:指甲、面色、唇、汗毛、头发上显现,好比开出的五朵花蕾。最后五体:筋、脉、肉、皮、骨又与五脏对应,可将上述结果总结于下:
胆 小肠   胃 大肠 膀胱
眼  肝              指甲
舌      心                      面色
口        脾              唇
鼻           肺        汗毛
耳               肾   头发
筋  脉  肉  皮  骨
以整体思想为基点,以五行子系统为主导,将人体划分为一个经纬分明、联系明确的网络系统。这样整体性已不再停留在一个哲学上的思辩,直接的感知层次上,而是踢开了神秘主义的玄思,进入科学的归纳、具体的实在的水平。我非常欣赏这个网络,因为它是经验的升华,理性的凝结、思维的创造,古代医学家不可能像今天对病人实施系统的解剖,他们面对的好比是一个巨大的黑匣子,只能根据有限的信息,充分发挥自己的想象力,不断跟事实对照,不断修正,不断凝结智慧的结晶,与西方医学纯粹的实验科学不同,理论完全建立在实验事实基础之上,中医赋于了生命更多的主观性与想象力。中医给我们的启示是巨大的,它有丰富的资源还有待于我们去开发和挖掘。生物机体毫无疑问是一个整体,它不仅仅等同于各个部分的功能之和,因为各个部分之间的“关系”或“交流”对生物体的功能的发挥至关重要,甚至可能更为本质。这个整体具有什么样的特征呢?读过大物理学家薛定谔的名著〈〈什么是生命〉〉,受之启发,觉得从如下几方面生命的整体特征是不可缺少的:生命是一个高度自组织的开放系统,不断地与环境进行物质、能量和信息的交换,保持自己的负熵状态以维持保证生存的高度有序结构;另外,生命体具有将自己的基因尽可能精确遗传给后代的机制和繁衍后代的种族延续使命,而这在非生命的物理系统中是看不到的;再次,生命体的遗传并不是完美无缺的,基因的复制进程中存在着变异,变异产生变化,在自然选择作用下导致进化,才有了结构精致的眼球和我们身体中其它的艺术品。
进化论—“生物学的最高理论”
以上从物理学或医学世界观基础上“进化”而来的生物学的世界观也许仍然是支离破碎的,我们也许需要新的或者更为科学的哲学观念。或许只有进化论的哲学思想能够统摄零碎的观念使之达到统一,因为生物世界不可能脱离历史或者时间维度而独立地存在。自古以来,生物学似乎并没有作为一个独立的学科出现。以前只有医学(主要是解剖学和生理学)、植物学(可能主要研究药物)、和博物学,十七、十八世纪的物理学的巨大成就并没有影响到生物学的观念。也许正是因为十九世纪达尔文的贡献,进化论思想在一片争论和批判中进入了生物学领域,并极大地促进了生物学思想的形成。对进化论的兴趣起源于大一时读到的北京大学生物系知名教授张昀写的〈〈生物进化〉〉,书的首页一句“进化论是生物学的最高理论”至今记忆犹新。较为系统地学习和理解进化论思想的是在大二时读到〈〈我们为什么会生病—达尔文医学的新科学〉〉(Evolution and Healing Randolph M Nesse, George C Williams)。具有医学背景的我对书中具体的实例感受良深,也为用进化论思想和观点分析和理解疾病欣赏不已。比如异物感染时机体发热,可能是机体在长期进化进化过程中出现的一种抵抗入侵病原体的方式,临床上如果用阿斯匹林降热的话,可能会延长病程(当然如果发热达40℃以上,对中枢神经系统都有损害了,适当的干预是必不可少的);再有,感染时会出现缺铁性贫血。按照西医传统的哲学观点,应该给予铁剂以纠正贫血,增加机体的抵抗力,但却忽视了机体对铁的“管制”正是进化赋于机体的一项对抗细菌的抵制措施,因为细菌的生长需要铁!临床实践也证实了这一点。由此可见,达尔文的进化论观点能够在历史的宏观的背景知识下,给临床医生提供一种对疾病更为完善和正确的理解。因为当前的医学传统是以个体的治疗和预防为主体,而达尔文医学却从生态学的眼光将疾病看成是由个体组成的种群中的一种表现。我觉得此书是每一个临床医师都应该读的“圣经”(这本书我中方版读了三遍,英文原版读了一遍),它启发了临床实践中的一种哲学观念和眼光的树立---如同书中所说,疾病有两种原因,近因和进化史原因。“近因所解答的是“什么?”和“怎么样?”---是关于构造和机制的问题;进化史方面解答的是“为什么?”--- 是关于起源与功能的问题。”仔细想一想,我们所学的生理、生化是探讨器官和细胞是如何运转和工作的;病理学和病生理学分别探讨疾病时细胞、组织、器官的形态及功能是怎么样的。在我们的头脑中确实没有考虑过“为什么会是这样而不是那样”的问题,似乎把这一切都当作理所当然的了。一切生物学的问题都有其背后深刻而复杂的进化史,也许只有同时获得近因和进化史原因的解释才能够真正而圆满地解决这个生物学问题。
一个科学观念的确立,必须用它的思想和方法来思考和解决一些问题才能够真正深刻地掌握和理解,任何停留在只对其定义的叙述上的举措都是肤浅的。怎样用进化论的观点和思想看待一些科学问题呢?在我的科学兴趣中,是将“发育-癌症-干细胞”这三个概念看成一个整体的。人们对癌症的发生机制进行了长期和富有成效的探索,但为什么会发生癌症呢?从进化的过程中我们能够得到什么解释和新的观点呢?不妨这样想象一下,在条件恶劣的远古时代,单细胞生物面临着极大的生存的威胁,于是自然选择使得多细胞集合体作为一个独立的具有更大的生存和繁衍优势的功能整体保存下来。在这样一个集合体中,某一个细胞在受到各种不可预知的危险因素作用而丧失其形态和功能后,进化赋于其周边的其它细胞以分裂的能力来填补死去细胞的位置从而继续维持集合体的功能。从这个角度来看,分裂能力是多细胞生物在进化进程中经过自然选择所获得的一种维持生命功能的能力。干细胞就是具有这种能力的细胞。这种能力是在一定的条件下才表现出来的,分裂是处在一系列调控的“管制”之中。但如果一个细胞在外界有害因素的作用下,或者在基因遗传性复制和传递过程中,由于内在的缺陷使得这种“管制”失灵,分裂就会失控,最终成为癌症的雏型。所以癌症机制和干细胞机制可能类似,是同一种能力在病理和生理条件下的不同反映而已。如果进一步思考,自然选择的力量为什么没有将细胞这种内在的缺陷在长期的进化进程中淘汰掉而使之尽善尽美呢?也许从种群的角度看,进化发生的前提是变化,如果细胞的内在调控机制和遗传机制完善无瑕,怎么会产生进化呢?若从一个新的角度思考,癌症是否同死亡(凋亡)一样,是生命体结束生命的一种方式呢?如斯,癌症就是进化中获得的通过结束个体生命而促进物种生存和繁衍的一种方式了。尽管进化是一个关于群体的概念,对于个体是谈不上进化的。但从某种意义上说,个体的发育史是过去所有进化事件的浓缩的再现,是物种进化历史的一个部分,我认为关于个体发育的研究对于进化的理解是有深远意义的。另外,发育是一个机体结构和功能重建的过程,对一个个体来讲,其发育史就是生命史,对其生命现象的理解和洞察,从历史的眼光来看是不可缺少的。在发育过程中,机制细胞的分裂机制会以精细的时间次序再现,这就提供了一个理解干细胞和癌症机制的天然的平台,因此“发育-癌症-干细胞”是一个紧密联系的整体。发育生物学是一个好的研究方向,当前研究的热点是从分子水平阐明细胞命运的决定、分化、形态形成等基本问题的细胞和分子生物学机制,但这些过于强调从“近因”上研究。从进化上研究发育问题是我十分感兴趣的。发育的本质不过是调控发育的基因群的时空次序表达的结果,那么从这些调控发育的基因群是如何进化的呢?物种之间是否有同源的呢?(最近我了解到调控眼的发育的基因在双侧对称生物中是同源的,但不知是否还有其它例子)非同源基因又是何时、如何发生歧化的呢?相信这些问题的解答将会有助于对物种的形成和形态的发育的更为深刻的理解。
我的课外研究课题是探讨C-反应蛋白(CRP)在动脉粥样硬化发病过程中的作用。CRP是在异物感染和组织损伤导致炎症反应时血浆浓度快速、急剧升高的主要的急性期蛋白。CRP可以激活补体和加强吞噬细胞的吞噬而起调理作用,从而清除入侵机体的病原微生物和损伤、坏死、凋亡的组织细胞,在机体的天然免疫过程中发挥重要的保护作用。但过去十多年的大规模的流行病学研究和临床试验表明,CRP不仅仅是一种炎症标志物,而且是心血管疾病非常重要的预示因子和危险因子(几乎是最重要的了)。我的研究工作是具体探讨CRP促进人外周血单核细胞分泌趋化因子IL-8的信号通路,是寻求“近因”的解释。从进化史考虑呢? CRP既然能够参于心血管疾病的发生与发展,为什么长期的进化过程中没有将它淘汰掉?我认为:CRP可能是一种进化上的“妥协”。虽然对心血管疾病的发生与发展可能起一个促进作用,但是,炎症发生时,CRP可通过补体的经典途径清除入侵的病原微生物跟体内变性或凋亡的细胞从而发挥保护作用。可能正是因为急性期CRP广泛的清除异物的能力而被保留下来。至少在石器时代,由于生产力低下,人们寿命有限,对于人们生存来说,急性期的损伤(狩猎、耕作、战斗)比慢性的心血管疾病对人们的威胁更大。但是由于时代的进步、社会的发展、卫生条件的改善,急性期的损伤相对整个人类群体来讲,已经不是主要的威胁,而心血管疾病等慢性疾病逐渐上升为危害人类健康的最主要疾病。社会的发展速度可能超过了进化的速度,机体还来不及进化出一种更为深刻的保护机制。
达尔文的〈〈物种起源〉〉围绕两个论题展开:1.描述进化的历史,论证了所有动物拥有共同的祖先;2.发展出自然选择的概念,探讨其对物种进化的作用。前者是叙述历史,后者是研究进化的机制,这似乎也开拓了后世研究进化生物学的模式和方法论。历史性解释是进化生物学的基本组分,对历史的描述既具有历史的预测作用(历史启迪我们较早时期发生的事件可以预测较晚时期的事件的趋势),又为进化机制的研究奠定了基础。达尔文进化机制中的自然选择概念虽然根本而且重要,尽管可以从古生物学、地质学、解剖学、比较胚胎学等著作中提到的和后来的许多学科中找到强有力的证据,但总的说来还是一种表观的、定性的、在时间尺度上缺乏预测性的概念和描述。
“进化基因组学”是一个新兴学科,通过进化生物学和基因组学的结合,用基因组学提供的数据和独立的研究方法为武器,研究基因(组)的进化历史和进化机制,获得分子水平上的理解和知识,所得到的结论由于可能具有实验上的可操作性和重复性似乎更能令人信服。如同达尔文探索物种起源一样,进化基因组学家也对物种的起源感兴趣,只不过他们从基因、分子的进化角度进行研究而不是从表型、形态入手。如通过对线粒体基因组的分析,有研究表明现代人起源于非洲大陆 [1]。新的研究表明,在物种进化过程中,基因的转移,如线粒体和宿主(很早的例子了)、原核与真核生物之间、真核与真核生物之间,在物种起源和进化中起了关键作用[2]。进化基因组学有一个很大的优势,就是可以利用化石、地质记录所得的结论对自己所做的推论进行比较以检验结论的真实性,同时又能够增加更为精细的历史描述。进化生物学与基因组学的结合,不是简单地拼凑下的方法、结论、结果的直接应用,而应该是互相渗透、相得益彰的,既充分吸收进化论的思想方法和研究模式,又借鉴基因组学的所有成果。细胞结构和功能的所有信息都书写在基因组中,但是如何去解读其编码信息,是进化生物学家必须面对和思考的问题。基因组的编码序列不足5%,其精确的序列信息仍然没有确定;其余95%以上非编码序列的结构和功能还远远没有被了解,尽管已经知道了它们可能含有大量对编码序列调控的信息,但它们在进化过程中的作用是什么?调控的具体机制是什么?这些基因组学的问题同样也是进化生物学家所感兴趣的。因此,我认为一个好的进化基因组学的研究者首先必须是一个好的基因组学家,这意味着他不仅对基因组学的知识和进展有全面的掌握,而且具有良好的生物信息学的训练和计算机的熟练应用能力,能够对日益增多的基因组数据进行整理、归纳和分析。而基因组学同样也会因为进化生物学家的贡献获得对基因组的进化进程及其机制更为全面和细致的知识。如基因的内在的分子钟特性使得在基因水平上估计进化的时间尺度成为可能,所得的结果与化石记录的结果相比是一致的,且为进化生物学家对进化的历史增加了新的理解[3].
达尔文时代并没有发展出“基因”的概念。如果说达尔文的进化论研究的是物种表型的进化历史和机制,与之相对应的,“进化基因组学”研究的就是物种基因型的进化历史和机制,这应该更能够反映生命活动的本质。地球生物圈中每一个物种内的生物,经过漫长的进化过程不断地修饰、演化,其结构不断地动态变化,形成了独立于其它物种生物的独特的基因组。对一个物种基因组功能的研究(比如人类基因组),就必须了解它进化上的过去(尽管这受到化石记录和地质记录的限制);同时还必须做横向的比较,研究与其它物种基因组的差别,从这种差别中更深入地研究基因组的结构和功能。正如Francis S Collins及其同事所说的,“如同对现有的几种脊椎动物基因组序列的初步分析就发现了许多以前未被发现的蛋白质编码序列区。哺乳动物之间的序列比对揭示了非编码区内的大量同源现象,而这些区域基本上不能从功能角度上定义。不同物种序列的进一步比对,尤其是那些占据独特进化位置的物种间的比对,会极大地促进我们对保守序列作用的理解。”[4]
正是由于测序技术的进步(包括效率的提高和投入的减少)和基因组数据库的建立,人们才有可能将同物种的基因组(实际上是要研究的目的基因)进行横向的比较,描绘出种系发生的过程,绘制出分子进化树,并研究基因组进化的机制。基因组的进化是所有编码基因和非编码基因的进化的总和。基因进化的机制可能是多种多样的,再一次反映了生物世界的多样性。有的是以基因的复制为主[5],有的是以外显子的转移为主[6],有的则以选择性粘连为主[7]。对每一种基因进化的历史和机制的阐明,都有助于对其结构多样性和功能的独特性的了解。对基因组序列的进化研究是最为基本的,由于存在核苷酸密码子编码的“简并性”,基因结构本身的变化可以不表现为蛋白质结构改变,仅仅从蛋白质结构的比较入手可能会掩盖某些有价值的信息。但是,蛋白质才是生命功能的行使者,对蛋白质结构和功能的进化的研究也是不可或缺的,这就要以建立蛋白质一级、二级、三级结构的数据库为前提条件。现在人类基因组的测序还刚刚完成,同样可获得的只有少数模式生物如鼠、果蝇、C.elegans的基因组,以及其它一些如蚊子、单细胞真核生物的基因序列。而这只是结构基因组研究范畴,功能基因组的研究还刚刚起步。蛋白质的结构和功能的数据库与基因数据库相比更是少得可怜,这就极大地限制了进化基因组学的研究。也许进化基因组学更大的进步有赖于更多物种基因组、蛋白质组的结构的测定、精细的分类以及功能的确定(尤其是与人类在进化上接近的如猩猩等[8])。在现在的数据的获得还不是十分充分和丰富的情况下,如何构建合适的方法和模型以减少误差和错误也是值得研究的问题。对研究“进化基因组学”的知识架构,我认为必须有1.进化生物学的哲学观念和科学方法;2.生物信息学的训练和熟练的计算机应用技能;3. 分析问题、整合数据的思维能力。
在北大曾经听过一个讲座,一个物理学家模拟达尔文式的进化过程(遗传、变异、重组、选择),在试管中进行“分子进化”的操作,结果得到了地球上目前尚不存在的具有特殊功能的蛋白质。这个讲座启发了我许多思考。传统上自然选择的进化是一个漫长的过程,常常要几百万年时间或更长。但实验室的模拟可能只需要几个月、几周、几天或更短。这样,对“进化基因组学”深入了解和分子进化机制的深刻掌握,人们可以使生态系统上的历史不可重复性和不可预测性于分子水平上在实验室中得到重复和验证;其次,这样的研究可以验证或开创进化论的学说。关于进化论,当前争议比较大的是达尔文的自然选择学说和木村资生的中性突变学说。前者是在个体、群体、生态系统的水平上,而后者是在分子的水平上。两种学说都有很多证据支持,很可能如同相对论掌管宏观世界,而量子力学支配着微观世界一样,都是正确的,是对不同尺度的世界的一种客观描述。实验室的进化可操作性为应该能够为建立正确或统一的进化学说提供一个最好的平台;最后,实验室的分子进化的研究,有可能加快进化历程,从而建构出具有崭新特性的生物分子,开辟生物医学工程新的天地!
欣赏Alexander Pop的诗句:
“Nature and Nature’s laws lay hid in night;
God said, Let Newton be!
And all was light.”
我想用改写的诗句结束本文:
“Life and life’s mysteries stay hid in night ;
God said, Let Darwin be!
And we began to see the light.”
参考文献:
1.     Ingman, M., Kaessmann, H., Paabo, S., Gyllensten, U. Mitochondrial genome variation and the origin of modern humans. Nature 408, 708-713, 2000
2.     J. Peter  Gogarten Gene Transfer: Gene Swapping Craze Reaches Eukaryotes  Current Biology, 13, R53–R54, 2003
3.     Sudhir Kumar  S. Blair Hedges Amolecular timescale for vertebrate evolution Nature 1998 392(4):917-920
4.     Francis S. Collins, Eric D. Green, Alan E. Guttmacher & Mark S. Guyer  A vision for the future of genomics research A blueprint for the genomic era. Nature 422, 835–847 ,2003;
5.     Jiangying Gu, Xu Gu.   Natural history and functional divergence of protein tyrosine kinases   Gene 317 ,49–57 ,2003
6.     Manyuan Long, Esther Betrán, Kevin Thornton and Wen Wang  The origin of new genes: glimpses from the young and old. Nat. Genetics. 4(11), 865-875,2003
7.     Richard R.Copley Evolutionary convergence of alternative splicing in ion channels. Trends in Genetics 20(4):171-176,2004
8. S. Blair Hedges The origin and evolution of Model organisms Nat.Rev.Genetics 2002 3(11): 838-849
我看基因组学和进化
—— 一位大三的学生
关于基因组学和进化本人所学有限,仅总结整理如下:
一.         发展历史
1900年         孟德尔定律被重新发现,遗传学诞生
1909年          丹麦遗传学家约翰逊创造了“基因”这个名词,指出基因型与表型的区别
1926年          摩尔根发表了著名的《基因论》
1927年          穆勒用x 射线诱发了果蝇突变,表明基因会受到损伤发生变化
1928年          肺炎双球菌的转化实验说明DNA 赋有特定的遗传性
1953年          沃森和克里克在<>上发表<<核酸的分子结构>>一文,阐明了     DNA的双螺旋构造
1957年          克里克提出了著名的遗传信息流------中心法则
1961年          莫诺和雅各布提出乳糖操纵子模型,讨论基因调控原理
1966年          美国科学家破译生物界通用的64个遗传密码
1973年          美国柯恩领导的小组开创了体外重组DNA并成功转化大肠杆菌的先河,这一年被称为基因工程元年
1986年           美国诺贝尔奖获得者 杜尔贝克首先提出对人类基因组进行全长测序的主张1990年美国政府批准该计划,计划用15年时间耗资30亿美元测定人类基因组约30亿个碱基对的序列,进而破译其中全部基因的遗传信息,后来该计划演变成由美英日法德中六国组成的“国际测序俱乐部”2000年6月人类基因组工作框架已经测序完成,该计划的完成对人类认识自我乃至推动整个生命科学的发展无疑具有极其重要的意义
1997年           英国罗斯林研究所的维尔穆特博士在《Nature》上撰文宣布以乳腺细胞的细胞核成功克隆出一名为多利的绵羊,一年半后克隆牛克隆鼠相继问世,甚至对克隆鼠的再克隆也获得了成功。
1999年  灵长类(猴子)的克隆也顺利诞生,同年底科学家发现只需300个左右的基因即可构成一个最简单的生命。这意味着在不远的将来人类也许可以在实验室里创造生命。
二.             现状概述
基因是1909年被提出的术语,当初它只作为一个抽象代号存在,随着科学的发展它被不断赋予新的科学内涵。所有生物的所有活动无不在基因的控制之下,因此凡是以生物体某一特定属性或生命现象为研究对象的学科在研究这些生命现象的根源时,都会涉及基因,在基因这一层次上寻找原因。因此基因融入了生命科学的各个学科。基因学作为新一代的遗传学,它的发展推动了整个生命科学的前进,同时又被各个学科的发展所促进。
20世纪90年代开始,形成了以基因组为研究对象的基因组学,用于表述研究生物体基因和基因组的结构组成、不稳定性及功能。后来又出现了结构基因组学和功能基因组学的分开。基因组包涵基因与非基因 DNA序列,但非基因 DNA序列要通过两种方式实现其功能:1.突变积累移位、转座等各种方式改变原有基因或形成新基因。2.对基因的表达其调控作用。从这个意义上讲,基因组学与基因学是一个统一的整体,基因组学的研究是以基因学为基础的。
以基因组学为开端,新学科不断涌现:转录物组学、蛋白质组学、糖组学、表型学。这一系列新学科的出现实质反映了当代科学从 DNA、RNA和蛋白质等分子水平上研究遗传学的核心命题:基因型+环境=表型。
目前对生物基因组的研究有人类基因组研究、病原体基因组研究、微生物基因组研究、植物基因组研究、家畜基因组研究、模式生物基因组研究、药物基因组研究、环境基因组研究、肿瘤基因组研究及比较基因组研究等。
三.             问题讨论
1.     基因组的起源:由于RNA 既能催化生化反应又能自我复制,因此最初的生物化学
系统应该是 RNA 。后由于 RNA 的磷酸二酯键不太稳定,将其编码功能转移给了更为稳定的 DNA,最初基因组是由许多个DNA分子组成,每一个DNA分子只确定一种蛋白质。以后在进化过程中,这些基因彼此连接起来生成最初的染色体,这有利于在细胞分裂时基因可均等地分配给子细胞。
基因的进化包括两方面:(1)基因数目增加(2)基因内DNA序列种类的增加和组织结构的复杂化。基因数目增加并不是渐进的,而是两次突然的增加:第一次发生在14亿年前真核生物出现时,第二次激增是寒武纪末出现的最早的脊椎动物
基因组获得基因的四条途径:(1)基因组中现有基因的全部或一部分实现倍增(2)从非编码序列中来(3)从其他物种那里获得
(4)通过基因分裂 。
2.     新基因的产生: 传统遗传学认为基因只能来自基因,基因的突变是产生新基因的
唯一途径。早期研究认为非编码序列为垃圾DNA,但近来Lev-Maor等的工作指出,人类内含子中的Alu序列能够成为编码序列。自20世纪90年代以来,对垃圾DNA,特别是对重复序列有了新的认识。越来越多生物学家认识到重复序列是基因组的宝库;基因组是动态的:新的功能单元在产生,旧的功能单元在灭绝。看来,转位的重复单元并不是无用的分子,它们与周围的基因组向作用而加大了生物体的进化能力。它们作为基因组重组合的热点为基因组对于新的转录调控单元、多腺苷化信号及蛋白质编码序列的缓慢的“准备使用”提供了一个机制。2002年Sorek et al等发现人类基因组中大约5%的变通性接合的外显子来源于Alu序列。因为Alu单元是灵长类动物所特有的,所以这些灵长类或人类所特有的外显子比基因内其他的外显子要年轻。他们也注意到多数的此类“Alu”外显子是变通性剪切的;也就是说,由此基因产生的mRNAs 有的含Alu序列,有的则没有。他们认为Alu单元在不危及基因组完整性的情况下具有增强基因组的编码容量及调控多能性的进化潜力。在不伤害原有蛋白质的情况下,
开发有进化意义蛋白质的另一种途径是基因复制。基因复制是有机体产生新基因的主要途径。基因复制后,其中一个拷贝保持原有功能,而另一个则可进化为新的基因。这是一个缓慢的点突变的过程。存在于基因组中被反复利用的“模块”(如转座子)可以极大地加速这种自然突变过程。                             此外,最近“猴王基因”的研究结果第一次阐明了基因分裂是如何实现的,证实了“基因分裂”的基因起源和进化理论这个重要猜想,另外,新基因的调控序列(如启动子)的起源和发生也是新基因研究中的一个重大问题。此前人们不知道自然界要多长时间,以怎样的方式制造启动子。猴王基因的例子告诉我们启动子可以在很短的时间内产生。
3.多基因的进化:(1)额外的基因拷贝可以在最小选择压力下进化。由于一个基因家族
中只需一个基因行使功能,额外拷贝就不会受功能上的限制。
(2)由于功能上不受严格限制,重复基因就可以发生进化分歧,其
中有些基因就可能成为具有潜在功能的基因。
(3)某些情况下,某种基因保留多个拷贝使其功能加强,从而使一
个基因家族作为一个单位进化。
4.中性学说与进化论的矛盾:木村等人创立的中性说试图在分子水平上或基因水平上
说明生物界进化的实质,使进化论建立在精确的定量的基础上,它的目的是要预测生物进化将要发生的事件。
主要内容是:(1)生物体内产生的突变大多是中性的。
(2)遗传漂变导致中性突变的保留或消失。
(3)中性突变的速率决定了生物进化的速率
自然选择使蛋白质(或 DNA )的小部分具有相对保守性和适应性。中性突变(或DNA)的大部分具有随机可变性和非适应性,两者互为补充,使生物界与环境的关系形成了一个”既有民主,又有集中”的生动活泼的发展局面。进化论与中性学说都有各自的道理,它们有相抵触的部分,中性学说不能否定进化学说,同样,进化论也不能否定中性说,它们的矛盾有待分子生物学的发展来解决。
5。生物进化的分子钟:生物进化是以每年每个密码子在10的负10次方数量级的范围
内发生DNA 的碱基置换。这一点与达尔文的进化论很不同,生物进化与生物的每个世代的时间长短无关,只取决于生物发生的绝对时间,在不同的基因或蛋白质中这个分子中有些快慢,但在所有生物中,同一个基因的分子钟的走时速度是一样的,与生物本身的特性无关。中性说的一大成就是:用这个生物进化的分子钟所推测的生物进化时间与根据古生物化石测定的结果十分相近。
6.C值悖理:从总体上说,生物基因组的大小同生物在进化上所处地位的高低无关,
但每类生物的最小基因组的大小基本上对应于生物在进化上所处地位的
高低。我想,这说明生物进化的总趋势是C值的增加,但进化的过程曲
折而艰辛。每种生物基因组比它所处的生物类的最小基因组所所多的那部
分C值正是它在进化道路上留下的痕迹。环境压力越大,这种痕迹越明
显。两栖动物第一次实现登陆,面临巨大的生存挑战,它们的C值有些
比人类的还大,这也不难理解。这些进化过程的追究有赖于比较基因组学
的进一步发展。
7.生物适应性:对生物的巨大适应性至今无一个理论从分子水平上很好地加以解释,
为什么一种生物甚至可以在为数很少的世代里产生完全不同的新的遗
传性状,有人认为生物无穷无尽的适应性可能是由于基因的多效性产
生的,一个基因可能控制着多个性状,对于环境可以出现各种不同的
反应。我猜想,是否可以用免疫学的发现来推测类比基因组进化,抗
原通过刺激免疫细胞使其基因重排来产生相应的抗体,有多少种抗原
决定簇就有多少种抗体。也许在进化中,有多少种环境压力,就有多
少种基因重排,来产生适应性状。
8.内含子的起源:两种假说:(1)“早现”假说认为内含子是非常古老的,早就出现在
基因中,当今正逐渐从基因组中丢失。
(2)“迟现”假说认为内含子是在近期演化中才出现的,
正在真核基因中逐渐积累。
这两种假说的评判有待内含子功能的揭示
四.学科展望
未来,随着基因学的发展,人类的生活将发生翻天覆地的变化:对受精卵进行定位基因矫正,基因工程药物的种类持续增加,对多种疾病包括癌症和艾滋病将得到有效的预防和治疗,平均寿命延长,基因工程及细胞工程的各种手段将广泛用于各个种植养殖领域。
人类对生命将有另一番认识和理解,能动地改造自然界包括人类自身,创造出自然界从未有过的新的生命体将不再不可想象。