生命遺傳信息與若干數(shù)學(xué)問題

           許玉霞

自1953年沃森和克里克發(fā)現(xiàn)DNA的雙螺旋結(jié)構(gòu),人們對(duì)生命信息遺傳的研究進(jìn)入了一個(gè)嶄新的時(shí)代,相繼發(fā)現(xiàn)了“遺傳密碼字典”、“遺傳的中心法則”等,使人們對(duì)生命是如何一代一代繁衍的,有了初步的了解。但離真正揭開生命信息遺傳之謎還差之甚遠(yuǎn)。

1987年,美國(guó)開始了人類基因組研究計(jì)劃,任務(wù)有兩個(gè):第一個(gè)是“讀出”,即研究出人類基因組的全部核苷酸的順序;

       

      第二個(gè)是“讀懂”,即找出全部基因在染色體上的位置,了解它們的功能。  

      整個(gè)基因組測(cè)序完成后的數(shù)據(jù)可以構(gòu)成一本100萬頁(yè)的書,其上只有4個(gè)字母的反復(fù)出現(xiàn). 如何處理、存儲(chǔ)和分析這些數(shù)據(jù)?這已不是生物學(xué)家本身可以解決的問題,需要其他學(xué)科,特別是數(shù)學(xué)與計(jì)算機(jī)學(xué)科的介入.。首先介紹了分子生物學(xué)的一些最基本的知識(shí),然后著重介紹了目前人類基因組研究中的若干問題及其所用到的數(shù)學(xué)方法與模型。

      1、背景與基本知識(shí)

      生命的基本單位是細(xì)胞,它由細(xì)胞膜、細(xì)胞質(zhì)和細(xì)胞核三者組成,遺傳信息儲(chǔ)存在細(xì)胞核中。人的細(xì)胞核中含有23對(duì)染色體,染色體含DNA(脫氧核糖核酸)和蛋白質(zhì)。DNA經(jīng)螺旋、扭曲、折疊等壓縮到萬分之一并與蛋白質(zhì)一起而組成染色體。

      DNA是一種大分子,由兩股長(zhǎng)鏈以螺旋式構(gòu)成,這種螺旋結(jié)構(gòu)是在1953年由沃森和克里克提出,并獲1962年的Nobel獎(jiǎng),是20世紀(jì)最偉大的科學(xué)發(fā)現(xiàn)之一。

      DNA分子上的一個(gè)個(gè)有生物功能的片段是基因;蛴扇舾砂匆欢樞蚺帕械暮塑账峤M成。核苷酸由磷酸基團(tuán)、脫氧核糖及堿基構(gòu)成,有4種不同的堿基,即:腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶,分別用A, G,C,T表示。核苷酸按其所含堿基的不同也分為4種。在DNA的雙股上,A,T成對(duì)出現(xiàn),G,C也成對(duì)出現(xiàn),每對(duì)稱為一個(gè)堿基對(duì)。

      遺傳密碼在DNA的鏈上,密碼由4種不同的核苷酸按一定順序排列而成,即可看成由4個(gè)字母A,G,C,T排列而成. 據(jù)估計(jì),人類的DNA約含有30億個(gè)密碼,排列組成至少10萬條基因. 決定人體蛋白質(zhì)的20種氨基酸的遺傳密碼已找出,先由A, G, C, T中每3個(gè)字母重復(fù)排列成一密碼子,共有43=64個(gè)密碼子. 每一密碼子對(duì)應(yīng)一種氨基酸;但由于只有20種氨基酸,故這種對(duì)應(yīng)只能是多對(duì)一的,例如AGA,AGG都對(duì)應(yīng)于精氨酸,此種對(duì)應(yīng)關(guān)系已完全確定,稱為遺傳密碼字典。

      使人們驚嘆不已的是,自然界所有的生命形式都共用這本密碼。在確定了三聯(lián)體碼在DNA上線性串接的結(jié)合方式后,發(fā)現(xiàn)了為蛋白質(zhì)編碼的基因結(jié)構(gòu)。這些基因在DNA上所處的位置,稱為DNA的編碼區(qū),約占整個(gè)基因組的3%—5%,其余部分習(xí)慣上統(tǒng)稱為“廢物(Junk)”DNA. 在對(duì)編碼區(qū)上DNA的結(jié)構(gòu)所進(jìn)行的40多年的研究工作中,已造就了幾十名Nobel獎(jiǎng)獲得者。然而,“Junk”DNA中包含的信息也許更多?傊(xì)胞細(xì)胞核染色體蛋白質(zhì)(含氨基酸)、DNA(由核苷酸組成)基因(上有密碼子,即由A,G,C,T組成的三聯(lián)體碼)。

      1987年,美國(guó)開始了人類基因組研究計(jì)劃,任務(wù)有兩個(gè):第一個(gè)是“讀出”,即研究出人類基因組的全部核苷酸的順序;第二個(gè)是“讀懂”,即找出全部基因在染色體上的位置,了解它們的功能。用數(shù)學(xué)的語(yǔ)言來說,人類基因組計(jì)劃的最基本、最直接的結(jié)果是得到一個(gè)由4個(gè)字母(A,G,C,T)可重復(fù)排列而組成的長(zhǎng)度為3×109的一維鏈. 解讀后,人們不僅獲得靜態(tài)的結(jié)構(gòu)信息,而且還能得到動(dòng)態(tài)的四維(時(shí)空)調(diào)控信息. 目前國(guó)際上找到了全長(zhǎng)基因約2萬條, 平均每天能找到9條. 據(jù)報(bào)道,復(fù)旦大學(xué)發(fā)明了一種新技術(shù),每日能找到15條. 科學(xué)家們把此計(jì)劃與40年代的曼哈頓計(jì)劃(研究原子彈、氫彈)和60年代的阿波羅計(jì)劃(宇航、登月)相比。

      2、目前基因組研究中的若干數(shù)學(xué)方法

      (1 )概率統(tǒng)計(jì)方法

      概率統(tǒng)計(jì)是較早進(jìn)入生命科學(xué)研究領(lǐng)域的學(xué)科之一,早在20世紀(jì)40—50年代,F(xiàn)isher和Wright就用它研究過數(shù)量遺傳學(xué)。下面給出幾個(gè)例子說明它在當(dāng)今人類基因研究中的應(yīng)用。

      ※2.1.1 隱馬爾可夫模型(HMM)

      隱馬爾可夫模型(Hidden Markov Models)是由兩個(gè)隨機(jī)變量序列組成:一個(gè)是觀測(cè)不到的馬爾可夫鏈{Yn: n≥0}, 另一個(gè)是可以觀測(cè)到的隨機(jī)序列{Xn: n≥0}。且已知兩者間有如下的聯(lián)系: n,條件概率為已知。{Yn, n≥0}稱為隱馬爾可夫鏈,{Xn, n≥0}稱為其觀測(cè)鏈。

      隱馬爾可夫模型已在語(yǔ)音識(shí)別中得到廣泛應(yīng)用[2,3],80年代末開始應(yīng)用于計(jì)算生物學(xué)。目前,隱馬爾可夫模型在人類基因組研究的許多方面都有廣泛的應(yīng)用,如,DNA序列的陣排列(alignment)[4~6]、尋找基因(genefinding)[7,8]、作基因圖(genetic mapping)[9]、作物理圖(physical mapping)[10]及蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)[11]等. 這諸多應(yīng)用的基本思想都源于如下的Bayes統(tǒng)計(jì)分析:

      考慮隨機(jī)模型M=(S,PM), 對(duì)分別以P(M | s), P(s | M)表示P(x來自模型M | x=s), P(x=s | x來自模型M);則上述諸應(yīng)用問題大多可抽象為如下的識(shí)別問題或判別問題——

      (1)識(shí)別問題:現(xiàn)觀察到一序列s, 問此序列是來自模型M的概率是多少?由Bayes公式,欲計(jì)算P(M | s),需知道兩個(gè)先驗(yàn)概率P(M)和P(s)。但在實(shí)際問題中往往很難做到. 可退一步考慮如下的判別問題。

      (2)判別問題:再考慮另一隨機(jī)模型N=(S,PN),根據(jù)觀察到的序列s, 判斷s是來自M,還是來自N?此時(shí),可由比較兩個(gè)條件概率P(M | s)和P(N | s)的大小來得到答案。仍由Bayes公式可得。

      下面以“多個(gè)DNA序列的陣排列問題”為例子說明如何在DNA序列上建立隱馬爾可夫模型(HMM)。

      設(shè)有r個(gè)DNA序列,其中, 序列a1, a2, …,ar的一個(gè)陣排列定義為:在a1, a2, …, ar中不同的位置分別插入空隙符號(hào)“-”(gap),使其變?yōu)椋獭輒ax{n1, …, nr}, 顯然,對(duì)于給定的序列a1, a2,…, ar可以有許多不同的陣排列。例如,都是序列a=AGGT, b=ATGTG的陣排列。

      引入陣排列的目的在于討論序列之間的相似性,為此,定義函數(shù)和要尋找使d(a1, a2, …, ar)達(dá)到最小的那些排列,稱其為“最優(yōu)的陣排列”。由于所有可能的陣排列的數(shù)目隨序列的長(zhǎng)度及序列個(gè)數(shù)呈指數(shù)增加,例如當(dāng)r = 2, n1 = n2 = L = 1 000所有可能的陣排列的數(shù)目大約為10600[12]。直接進(jìn)行逐個(gè)比較來得到最優(yōu)的陣排列是不現(xiàn)實(shí)的,必須尋找其他的算法。最近,用HHM來解決此問題,得到了較好的結(jié)果(見文獻(xiàn)[4,13])。隱馬爾可夫模型(HMM)可如下建立:隱馬爾可夫鏈Yn取值為M(配對(duì))、I (插入)、及D(刪除)3個(gè)狀態(tài);可觀察到的序列Xn取值為A,G,C,T. 隱馬爾可夫鏈Yn可以看做在DNA序列上運(yùn)動(dòng),在第k步時(shí)(相應(yīng)于DNA序列上的第k個(gè)位置)取值若為配對(duì)狀態(tài)M,則以概率Pk(a | M)在此位置產(chǎn)生字母若為插入狀態(tài)I,則以概率Pk(a | I)在此位置插入字母 若為刪除狀態(tài)D,則將位置k上的字母刪除。隱馬爾可夫鏈Yn的轉(zhuǎn)移矩陣為P( yk+1 | yk )。于是當(dāng)隱馬爾可夫鏈Yn運(yùn)動(dòng)了N+1步后,便可得到兩個(gè)序列,一是狀態(tài)序列:y0(開始), y1, …,yN, yN+1 = ML+1(結(jié)束)(觀察不到);二是字母序列: x1, x2, …, xV, V≤N(可觀察到)。當(dāng)yi是M(配對(duì))或I(插入)時(shí),產(chǎn)生的字母記為xli, 則狀態(tài)序列y=y0,y1,…,yn,yn+1與字母序列x = x1, x2, …, xV的概率分布為(其中, 因此序列x = x1, x2,…, xV出現(xiàn)的概率為)。利用訓(xùn)練集可以將模型中的未知參數(shù)k=0,…, N估計(jì)出來。

      ※2.1.2 物理圖與隨機(jī)區(qū)間覆蓋問題

      作圖是人類基因組研究計(jì)劃中一項(xiàng)主要的任務(wù),通過作圖可確定基因及其他功能區(qū)在DNA序列上的位置。關(guān)鍵的圖是物理圖和遺傳圖,遺傳圖是通過關(guān)聯(lián)分析將已知的基因的相對(duì)位置定位在染色體上;物理圖是將一組標(biāo)記定位在染色體上并估計(jì)其間的相互距離,每一標(biāo)記點(diǎn)可以是一條已知基因,也可以不是,F(xiàn)在,已構(gòu)造出具有 30 000個(gè)標(biāo)記點(diǎn)的整個(gè)人類基因組的物理圖,每個(gè)標(biāo)記點(diǎn)的平均距離大約是100 kb (kilobases)。

      在作物理圖的過程中遇到如下的隨機(jī)區(qū)間覆蓋問題: 設(shè)M是一給定的區(qū)間(相當(dāng)于染色體),其長(zhǎng)度為G;I為隨機(jī)區(qū)間之集,其元素的區(qū)間長(zhǎng)度的分布已知;P是隨機(jī)點(diǎn)的集合,其點(diǎn)隨機(jī)地分布在區(qū)間M上。稱一區(qū)間為anchored,如果它至少包含P中一個(gè)元素,稱I中的兩區(qū)間為連接的,如果它們的交集中包含P中一點(diǎn),將所有相互連接的區(qū)間以它們所包含P中的最小點(diǎn)為左端點(diǎn),以它們所包含P中的最大的點(diǎn)為右端點(diǎn),組成一個(gè)新區(qū)間。稱為一個(gè)重疊群 (contig)。問題是:應(yīng)選取多少個(gè)I中的元及P中的元,才能使所有的重疊群幾乎覆蓋了區(qū)間M?譬如,覆蓋M的比例平均起來達(dá)99%. 此問題已由Arratia等[14]較為圓滿的解決。

      ※2.1.3 結(jié)腸癌與大偏差醫(yī)學(xué)上發(fā)現(xiàn)

      結(jié)腸癌是一種遺傳因素占主導(dǎo)地位的疾病,在某些家族中發(fā)病率很高,并有繼承性. 1991年Kinzler等人報(bào)告(見文獻(xiàn)[13]),結(jié)腸癌與位于第5條染色體長(zhǎng)臂上的,稱做APC的遺傳基因的變異有關(guān)。但后來進(jìn)一步的研究表明,同樣都是APC基因變異的人,而受感染的程度卻大不相同。一年后,Dove及其同事在老鼠中找到了類似的種群,稱為Min,極易患結(jié)腸瘤,同時(shí)他們還發(fā)現(xiàn)另一種群AKR,具有抵抗結(jié)腸瘤的能力。為進(jìn)一步弄清其中的緣由,Lande等將其進(jìn)行逆代雜交實(shí)驗(yàn),并分析實(shí)驗(yàn)所得數(shù)據(jù),檢驗(yàn)結(jié)腸瘤是否與某遺傳基因有關(guān)。對(duì)每一染色體上的一固定位置x, 引入統(tǒng)計(jì)量Z(x), 如果在此條染色體上沒有變異基因,則在任一位置x, Z(x) 服從均值為0的正態(tài)分布,但由于假設(shè)檢驗(yàn)要在整條染色體上進(jìn)行,發(fā)現(xiàn)是否在某一特殊區(qū)域內(nèi)Z(x)較大,因而需要知道Z(x)沿整條染色體(或其上某一區(qū)域)的最大值的分布。Lander等證明了在他們所討論的問題中Z(x) 是參數(shù)為X= 2的Ornstein-Uhlenbeck過程。再利用Feingold等人(見文獻(xiàn)[15])的結(jié)果可知:對(duì)充分大的t有

          其中X(t)是標(biāo)準(zhǔn)正態(tài)分布函數(shù),G是染色體的長(zhǎng)度。利用上述結(jié)果,Lander等發(fā)現(xiàn)在老鼠的第4條染色體上有一特殊區(qū)域與其患結(jié)腸瘤有關(guān),假設(shè)檢驗(yàn)的置信度為0.002[16, 17]。

      ※2.1.4 DNA序列分析與隨機(jī)徘徊

      DNA序列是由A,G,C,T 4個(gè)字母組成的序列。1992年Voss, Li-Kakeko對(duì)此做了頻譜分析. 同年,Peng等的工作揭示了DNA序列中存在長(zhǎng)程相關(guān)而引起人們的興趣。發(fā)現(xiàn)這種相關(guān)性的方法是將DNA序列表為一維隨機(jī)徘徊:從第1個(gè)堿基(即第1個(gè)字母)算起,若是嘌呤堿基(即A或G)則向負(fù)走一步,若是嘧啶堿基(即C或T)則向正走一步。記n步后的凈位移為fn, n =1, 2, …, L, L為序列長(zhǎng)度. 在長(zhǎng)度為l的窗口里計(jì)算位移的均方差,然后對(duì)全序列求和,得到Peng函數(shù)F(l)。他們發(fā)現(xiàn),對(duì)某種序列(所謂有內(nèi)含子的序列)有

      于是認(rèn)為這種序列中堿基存在長(zhǎng)程相關(guān)。長(zhǎng)程相關(guān)是DNA序列分析中的一個(gè)研究熱點(diǎn),它可以出現(xiàn)在相隔幾千個(gè)堿基的位置上。羅遼復(fù)把DNA序列表為二維隨機(jī)徘徊,張春霆提出了DNA序列的空間曲線表示,都取得了好的成果(見文獻(xiàn)[18])。

      §2.2 拓?fù)鋵W(xué)方法

      DNA上堿基的排列次序稱為DNA的1級(jí)結(jié)構(gòu)。雙鏈DNA的雙螺旋立體結(jié)構(gòu)稱為DNA的2級(jí)結(jié)構(gòu)。雙螺旋的中軸線(由每個(gè)堿基對(duì)的中點(diǎn)所連成的線)也絞擰成螺旋狀,稱為超螺旋,它可以打結(jié),是DNA的3級(jí)結(jié)構(gòu)。人類細(xì)胞中的46條染色體的DNA分子鏈連起來可達(dá)1.8 m,卷曲在細(xì)胞核中,就如同200 km長(zhǎng)的釣魚線擠在一個(gè)籃球里[19]。研究DNA的2級(jí)和3級(jí)結(jié)構(gòu),雙螺旋及軸線的立體形狀、行為以及其生物功能,是非常重要的問題。拓?fù)鋵W(xué)與幾何學(xué),特別是紐結(jié)理論,是分析此問題的有力武器。

       實(shí)際上,約在1969年美國(guó)拓?fù)鋵W(xué)家Fuller,就是應(yīng)研究DNA的分子生物學(xué)家的要求而研究閉帶形,并得到了與White公式實(shí)質(zhì)上相同的結(jié)果。附帶談及,蛋白質(zhì)也有3級(jí),甚至4級(jí)結(jié)構(gòu)。DNA中的堿基序列決定蛋白質(zhì)的1級(jí)結(jié)構(gòu),即氨基酸序列。在合成后,蛋白質(zhì)便自發(fā)折疊成一精確的3級(jí)結(jié)構(gòu),然后才能執(zhí)行催化、調(diào)控、化學(xué)輸運(yùn)、流動(dòng)和結(jié)構(gòu)支持等功能。人們把“DNA序列決定氨基酸序列”稱為生命的第1密碼,而把“蛋白質(zhì)氨基酸序列決定其自然結(jié)構(gòu)”稱為第2密碼。破譯第2密碼的意義十分重大,其中必將用到幾何學(xué)與拓?fù)鋵W(xué)(參看文獻(xiàn)[19])。

      §2.3 數(shù)理語(yǔ)言學(xué)與密碼學(xué)方法

      語(yǔ)言文字是人類表達(dá)和傳遞信息的工具,同樣,DNA序列也是用以表達(dá)和傳遞人類遺傳的信息。 DNA這本由30億個(gè)文字(A,G,C,T)寫成的無標(biāo)點(diǎn)、無斷句的“天書”是否也應(yīng)與某種“語(yǔ)言”相對(duì)應(yīng),如果能掌握它的“語(yǔ)言”就可以讀懂它了。美國(guó)科學(xué)家Zipf和Shannon用兩個(gè)標(biāo)準(zhǔn)的語(yǔ)言學(xué)實(shí)驗(yàn)分析DNA, Zipf實(shí)驗(yàn)的結(jié)果發(fā)現(xiàn)“Junk”DNA與人類的語(yǔ)言具有一樣的特征,即單詞出現(xiàn)頻率的對(duì)數(shù)與單詞排序的對(duì)數(shù)呈線性關(guān)系。Shannon的實(shí)驗(yàn)的結(jié)果也表明“Junk”DNA有很大的冗余度,這也和人類的語(yǔ)言一致,而DNA的編碼區(qū)則不顯示上述任何的語(yǔ)言特征。陳潤(rùn)生等提出用密碼學(xué)的方法分析DNA序列,并取得了一些好結(jié)果。語(yǔ)言的數(shù)理研究始自Chomsky,從形式語(yǔ)言的角度來探討遺傳信息的傳遞將是很有意義的(詳見文獻(xiàn)[18]的3.3節(jié)彭守禮、劉次全的文章)。

      3、基因突變

      基因一般是穩(wěn)定的,但在機(jī)體內(nèi)外因素的影響下,某些基因會(huì)發(fā)生變異或損傷,基因的突變有時(shí)可導(dǎo)致遺傳疾病,但也可產(chǎn)生新的種群,從而產(chǎn)生進(jìn)化。突變與選擇是進(jìn)化的動(dòng)力。常見的突變是堿基置換(如A,G互換,C,T互換等)和基因缺失,或是各種插入、重復(fù)、倒位等。迄今,討論外源誘導(dǎo)突變的工作較多,如化學(xué)誘變、輻射、紫外線照射等;虻耐蛔兪欠褚灿腥缌孔榆S遷類似的內(nèi)秉隨機(jī)性? Monod認(rèn)為,DNA中的一個(gè)突變,以及突變?cè)斐傻哪撤N蛋白質(zhì)的過量生產(chǎn)、消失或功能改變屬于本質(zhì)上的偶然性,內(nèi)在的基因突變,成為密碼系統(tǒng)的固有噪音。突變?cè)谌后w中發(fā)生是隨機(jī)的。

      莫諾還認(rèn)為蛋白質(zhì)的氨基酸次序也是隨機(jī)的,他說,“如某種蛋白質(zhì)含有200個(gè)氨基酸殘基,即使知道了199個(gè)的確切次序,也對(duì)剩下的1個(gè)不能預(yù)測(cè)(參見文獻(xiàn)[20],p. 71)。突變發(fā)生在密碼子的第1位,第2位或第3位,概率是不同的,第3位較易突變。從DNA到蛋白質(zhì),中間要經(jīng)過RNA,因而有不確定性,構(gòu)成Crick擺動(dòng)。各基因的突變頻率不一,例如p53基因是突變最頻繁的抑癌基因,它的突變可引起癌癥;p73基因與此類似,它位于1號(hào)染色體短臂上。Tau基因則與癡呆癥有關(guān). 關(guān)于腫瘤,目前認(rèn)為它源于某些基因改變,引起細(xì)胞突變而異常增殖。單個(gè)基因的改變不足以形成腫瘤,腫瘤的發(fā)生是多種基因按一定順序改變的結(jié)果。不同腫瘤的點(diǎn)突變方式不同,如肺癌多為G變?yōu)門,結(jié)腸癌多為G變?yōu)锳。

      關(guān)于對(duì)基因突變的數(shù)學(xué)研究,概率統(tǒng)計(jì)分析有一些(見文獻(xiàn)[1]),但真正有作用的數(shù)學(xué)模型尚未見到。突變是稀少的,高等生物突變率約在5%—8%。統(tǒng)計(jì)物理中研究大概率事件,而生命科學(xué)中則多為小概率事件,生命之出現(xiàn)本身就是小概率事件。

      除基因突變外,染色體也可以發(fā)生畸變。畸變類型主要有兩種,一是染色體數(shù)目畸變,這時(shí)多出或丟失幾條染色體;另一種是染色體結(jié)構(gòu)畸變,染色體發(fā)生斷裂。斷裂后的斷片未與斷端相接而丟失;或斷片接同源染色體的相應(yīng)部分而重復(fù);或斷片倒轉(zhuǎn)后接到斷端上而使順序顛倒等等,其結(jié)果可能引起先天愚呆、白血病等。

      4、結(jié)束語(yǔ)

      現(xiàn)在,每天得到的生物序列(主要是DNA序列、RNA序列與蛋白質(zhì)的氨基酸序列等)的數(shù)據(jù)量以指數(shù)速度增加,按實(shí)驗(yàn)室通常處理數(shù)據(jù)的方法只能處理這些數(shù)據(jù)中的極小一部分。

      2000年6月26日,由美、英、日、法、德和中國(guó)組成的國(guó)際人類基因組計(jì)劃協(xié)作組分別在六國(guó)同時(shí)宣布人類基因組工作框架圖(覆蓋人類基因組90%區(qū)域的序列圖)繪制完成。如果說,人類基因組是一部蘊(yùn)涵人類生命奧秘的天書,這一工作意味著人類已經(jīng)破譯了這一天書中的絕大部分文字。這是人類在認(rèn)識(shí)自身,探索生命奧秘的偉大征程中又一里程碑式的工作。

      2001年2月15日,人類基因組計(jì)劃協(xié)作組又在世界著名的科學(xué)雜志《自然》上聯(lián)合發(fā)表了題為《人類基因組的序列的初步測(cè)定及分析》論文,這表明人類已經(jīng)初步讀懂了這部天書的部分內(nèi)容。整個(gè)基因組測(cè)序完成后的數(shù)據(jù)可以構(gòu)成一本100萬頁(yè)的書,其上只有4個(gè)字母的反復(fù)出現(xiàn),既未發(fā)現(xiàn)語(yǔ)法,又沒標(biāo)點(diǎn)。如何處理、存儲(chǔ)和分析這些數(shù)據(jù)?

      這是數(shù)學(xué)家、物理學(xué)家和生物學(xué)家面對(duì)的一個(gè)難題,需要應(yīng)用現(xiàn)有的數(shù)學(xué)方法甚至需要發(fā)展新的數(shù)學(xué)方法與理論來應(yīng)付這一挑戰(zhàn)。另一方面,基因組相關(guān)數(shù)據(jù)庫(kù)及Internet技術(shù)的高度發(fā)達(dá),使世界各國(guó)的科學(xué)家都能及時(shí)得到待分析的資料與數(shù)據(jù),因而從事理論研究的基本條件對(duì)所有學(xué)者都是相近的,我們應(yīng)抓住這一大好時(shí)機(jī)。

       不久前,著名的分子生物學(xué)家Gilbert, Nobel獎(jiǎng)獲得者在Nature上撰文指出,當(dāng)前分子生物學(xué)已進(jìn)入實(shí)驗(yàn)與理論并行發(fā)展的階段。事實(shí)上,將概率論與數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)等學(xué)科應(yīng)用于分子生物學(xué),經(jīng)過10多年的發(fā)展,一門新興的學(xué)科生物信息學(xué)(Bioinformatics)已經(jīng)形成,其研究的主要內(nèi)容與方法可見文獻(xiàn)[21—23]. 數(shù)學(xué)的思想與方法已在物理學(xué)中得到廣泛應(yīng)用并獲得成功,可以相信在21世紀(jì),其在分子生物學(xué)中的應(yīng)用將會(huì)對(duì)整個(gè)生物學(xué)科產(chǎn)生極其深遠(yuǎn)的影響。

       

       
      韩国日本在线看片,国产免费99热精品,国产精品码一区二区,色老久久精品偷偷鲁偷偷鲁