三、基因概念的多样性
1969年,J.A.Shapiro从E.coli中分离到乳糖操纵子,并且使它在离体条件下进行转录,证实了一个基因可以离开染色体而独立地发挥作用。随着重组DNA 技术和DNA测序分析技术的发展,进一步认识了基因的本质。
1.基因的可重叠性——重叠基因(overlapping gene)
(1)重叠基因的发现
基因型 表型 是否互补
同一顺反子中的突变位点(等位)
m1 m2
—|——————|——————|—
顺式 野生型 —
—|——————|——————|—
m1
—|——————|——————|—
反式 m2 突变型 无
—|——————|——————|—
不同顺反子中的突变位点(非等位)
m1 m2
—|——————|——————|—
顺式 野生型 —
—|——————|——————|—
m1
—|——————|——————|—
反式 m2 野生型 有
—|——————|——————|—
图3-40 T4噬菌体rⅡ区的互补试验
m1和m2两个突变位点。两突变型杂交,反式杂合体是突变型,说明m1和m2是等位的;
反式杂合体是野生型,说明m1和m2是非等位的。顺式杂合体只作为对照
重叠基因是指两个或两个以上的结构基因共用一段DNA序列的现象。重叠基因是在1977年由F. Sanger首先发现的。他测定了噬菌体φ×174的单链DNA,这种DNA含有5375个核苷酸,按最低标准估算,其总长可编码6个多肽,但实际这段DNA编码了9个多肽,经仔细研究发现基因可以重叠。在环状DNA上A基因包含了B基因,D基因包含了E基因(图3-41)。
(2)重叠基因的重叠方式
① 大基因套小基因:如φ×174中的A基因中有B基因等,它是两个基因共用一段DNA顺序,但阅读框架不同,在同一区段内有两个或两个以上的起始点和终止点。
② 两个基因头尾相连:两个基因共用一至几个核苷酸,而且首尾相连。
③ 双链DNA或RNA的反向重叠:即两条链都作为模板进行转录,合成mRNA。
现在还不知道重叠基因在所有生物中是否具有普遍性,仅在个别生物中发现有此现象,如流感病毒、大肠杆菌噬菌体G4等。但重叠基因能最大限度地利用有限的遗传物质。
2.基因的不连续性——断裂基因(splitting gene)
在DNA分子的结构基因内,既含有能转译的区段,也含有不转译的区段,这类基因称为断裂基因。它是在1977年被发现的,内部包含一段或几段最后不出现在成熟的mRNA中的片段,即内含子。实际上,这类基因在DNA分子中均含有内含子和外显子,转录出的前体mRNA仍含有内含子,在mRNA加工时才被切除,保留外显子片段,经拼接再进行加尾戴帽等加工过程才成为成熟的mRNA(图3-42)。在一些哺乳动物的核基因、酵母的线粒体基因及某些病毒中都发现了断裂基因。
断裂基因的形成可能是不对称交换的结果(图3-43)。由于断裂基因含有众多的内含子。使DNA区段拉长,对基因起到了保护作用,同时也提高了基因间或基因内的交换率,增加了生物的变异性。
—— ————————
→ —— —— —— (重复)
———————— ——
多次重复 →→→→ — ex —in— ex —in — ex —in — ex — (断裂基因)
图3-43 断裂基因形成的过程
3.基因的无功能性——假基因(pseudogene)
(1)假基因的发现
与有功能的基因在核苷酸顺序的组成上非常相似,却不具备正常转录功能的基因称为假基因。它可能是相应的正常基因在转录后产生的mRNA,再经反转录产生出cDNA,再插入到染色体的不同位置上,由于突变积累而丧失活性。如致癌的RNA病毒就可能是通过RNA→DNA,再插入到人类染色体上,一旦遇到时机再脱落下来,形成癌症。现已测知,假基因只在真核生物的基因组中发现,在原核生物中未见报道。
第一个假基因是1977年在研究非洲爪蟾核糖体5S rRNA的基因时发现的,后又发现编码蛋白质的结构基因也有相应的假基因,如小鼠、兔和人的α或β珠蛋白的假基因等。大部分假基因在染色体上都位于正常基因的附近,但也有位于不同染色体上的。
(2)假基因的结构特点
① 在整个基因的不同部位有程度不等的缺失或插入;
② 往往缺少正常基因的内含子;
③ 在5′端缺乏转录启动区域;
④ 基因的两侧有顺向重复序列。
这些特点使假基因不能转录并形成正常的mRNA。
4.基因的可移动性——转座因子(transposable element)
细胞中某段序列能从原来的位置上脱落下来或自我复制一份,经环化后插入到另一区域,并对受体部位附近的基因进行调节和控制,这一过程称为转座(transposation)。而参与转座的DNA片段为转座因子。
(1)转座因子的发现
第一个转座因子是40年代美国遗传学家B.McClintock在玉米中发现的激活因子(Ac)和解离因子(Ds)。现在证明果蝇、啤酒酵母与大肠杆菌等的染色体以及多种细菌质粒(染色体外能进行自主复制的遗传单位)上也都有不同类别的转座因子存在。不但某些噬菌体DNA本身就是转座因子,而且有些致癌的RNA病毒的原病毒(provirus)也具有类似于细菌转座子的结构。
(2)转座因子的类型
①原核生物中的转座因子:根据分子结构和遗传性质可以分为3 类。第一类是插入序列(IS因子),目前已知有10多种,一般长700~2000bp,只含有与转座有关的基因的序列。第二类是转座子(Tn),一般长2000~25000bp,两端有相同的序列,如果它们的方向相反则称为反向重复序列(IR)。转座子除含有与转座有关的基因的核苷酸序列外,还含有一些其他与转座无关的基因,现已发现有的转座子分别带有不同的抗生素抗性基因、乳糖分解基因、接合转移基因等。第三类是转座噬菌体,大肠杆菌的温和噬菌体Mu和D108 都具有转座子性质。
②真核生功中的转座因子:果蝇的转座因子有copia、412、297等;它们的两端都有同向的重复序列,这些重复序列的两端又有较短的反向重复序列。转座因子可影响果蝇复眼颜色的变异。玉米的Ds-Ac系统,解离因子Ds和激活因子Ac 是两个各自能在同一染色体上或各个染色体间转移位置的遗传因子。Ds 必须在Ac的存在下才有作用,Ac除了激活Ds 外,没有其他表型效应。Ds能抑制相邻基因的表达,并能转移到另一染色体上,同时引起原来位置上附近的染色体断裂。在胚乳细胞中,如果Ds处在有色基因C的近旁,那么,C基因的表达被抑制,子粒为白色;如果Ds离开基因C,C开始表达,子粒为深色。
另外,啤酒酵母中有引起突变的Ty基因,也能导致转座(表3-17)。
表3-17 几类生物的转座因子
生物种类 转座子 机 能
细菌 插入顺序(IS) —
转座子(Tn) 抗性
酵母 Ty因子 引起突变
玉米 调控因子(Ds-Ac系统) 子粒色泽变化
果蝇 P因子 杂交败育现象
哺乳类 原病毒(逆转录病毒顺序) 致癌基因作用
(3)转座的机制
现研究得最清楚的是细菌的转座子,转座过程—方面依赖两端的反向重复顺序(IR),另一方面依赖基因的作用。转座时有两种方式:第一,转座子自身单独复制,环化后插入到其他染色体区域;第二,转座子区段直接从原位置上脱落下来,环化后插入到受体部位。在插入区,转座子往往与接受区域的染色体发生交换(图3-44)。
……ACGATGTCGCAGAGTATGC……
……TGCTACAGCGTCTCATACG……
↓ IS1
……ACGATGTCGCAGAG GTCGCAGAGTATGC……
……TGCTACAGCGTCTC IS1 CAGCGTCTCATACG……
图3-44 IS插入细染色体的模式图
IS插入E.coli染色体后,在靶的DNA顺序中产生差错切口,从而使插入因子的两端形成重复区段
(4)转座的遗传学效应
第一,引起插入突变,插入附近的基因发生各种突变,特别是重复区段;而在提供转座子的原位置往往显示缺失。
第二,插入位置上出现新基因,例如抗药性基因。
第三,造成插入位置上出现受体DNA由少数核苷酸对的重复。
第四,可产生各种染色体结构的变异,如缺失。
5.真核生物的重复序列
(1)重复序列的种类
① 单一序列或少量重复序列:序列不重复或重复次数为10~102次,序列长度约为1000bp,多为编码蛋白质的基因。如人的珠蛋白基因、小鼠的珠蛋白基因等。这些基因主要是结构基因或调节基因。
② 中度重复序列:序列重复次数在103~105,长度约300bp,有的是只转录不翻译的序列,如转录tRNA、rRNA的基因,即tDNA和rDNA。它们常以回文对称顺序的方式出现在基因组的许多位置上,一些回文顺序中间间隔着单拷贝序列。
③ 高度重复序列:此序列都高度集中,重复次数大于106,大部分集中在异染色质中,特别是着丝粒和端粒位置。这些序列中常有卫星DNA(satellitee DNA),它约占真核基因组的1~30%。重复单位长短不一,多为2 ~10bp,但也有较长的。如牛的卫星DNA是1400bp,某些猴的卫星DNA是172bp,蟹的卫星DNA的绝大部分是AT的重复。果蝇有3个卫星DNA,重复约107。
(2)重复序列的起源
关于重复序列的起源至今还没有完整的定论,只是有一些假说:
①滚环假说:Gilbert等于1968年认为,某种环状DNA分子利用滚环复制方式复制出数目众多的重复序列,然后带有多次重复的DNA片段通过交换嵌入到宿主细胞染色体上。
②不等交换假说:在减数分裂过程中,同源染色体联会,非姊妹染色单体可发生交换,如果交换的部分不相等,结果一条染色体具有重复区段,而另一条染色体则存在缺失。
③突然复制假说:Britten和Kohn(1968)提出,高度重复的DNA的产生,是由某一特定的DNA序列突然间产生数以千计的拷贝的结果,这些拷贝都插入到原来的位置上,结果产生了重复序列。
四、基因的类别和数目
1.基因的类别
由于基因的种类非常庞大,尚无法进行区分,只能根据各自的功能或其他类型进行划分:
(1)根据基因的产物划分
①编码蛋白质的基因:包括编码酶和结构蛋白的结构基因,编码作用于结构基因的阻遏蛋白或激活蛋白的调节基因等。
②没有翻译产物的基因:转录成RNA后不再翻译成为蛋白质的tDNA和rDNA。
③不转录、更不翻译的基因或区段:如启动子区、操纵基因、假基因、高度重复序列等。
(2)根据发育阶段或调控功能分
①时序基因:它是指在不同的发育阶段,有时表达、有时不表达的基因
②早期基因、晚期基因:依据表达的早晚而分成早期基因和晚期基因
③持家基因(house keeping gene):真核细胞中(特别是在哺乳动物细胞中),大约有10%的结构基因始终表达,他们的功能对于每个细胞都必需,这些基因称之。
④奢侈基因(luxury gene):在不同的细胞中,往往有种类不多的只在特定的细胞中表达的基因,称之。究竟有多少这类基因,尚无法确定,但可估计为持家基因的2~3倍。
⑤基因家族:真核生物的基因组中许多来源相同、结构相似、功能相关的基因,合称之,如血红蛋白基因家族有6个基因;cyt 氧化酶基因有13个;ATPase基因有16个等。
⑥基因簇:功能相同、结构相似的一系列基因常彼此靠近、成串地排列在一起,这一系列基因称之。如血红蛋白的α基因在11号染色体上,β基因在16号染色体上。
⑦串联重复基因:结构一致、功能相同、有众多拷贝、内含子短而一致的成串基因。(3)根据所处的环境分
①细胞核基因组;②线粒体基因组;③叶绿体基因组
2.基因的数目
已经确知RNA噬菌体MS2只有3个基因,它们都是结构基因。对于一些较为复杂的DNA噬菌体来讲,它们需要更多的蛋白质来执行更多的功能,基因数目也相应地增加(表3-18),真核生物更是如此。
总之,基因的概念在近几十年中发展相当迅速,而且随着科学技术的进步,基因的概念必将有进一步的发展。
表3-18 几种生物的核酸含量和基因数
生物种类 核酸分子质量(Dolton)/基因组 基因个数
大肠杆菌 2.5×109 约100
T4噬菌体 1.3×108 70
λ噬菌体 3.1×107 37
MS2噬菌体 1.1×106 3
PSTV类病毒 2.3×105 1
哺乳动物 2.1×1012 106