Kozak序列

科扎克共有序列, 或Kozak 序列 ，是在真核生物的mRNA中共有的(gcc)gccRccAUGG序列。它在翻译过程的启动中扮演了重要角色。^[1]，得名自揭示了其重要性的玛丽莲·科扎克。

序列标识为(gcc)gccRccAUGG, 源自科扎克对大范围的样本（共约699种）^[2]的归纳和分析，其中：

小写字母表示此位置处最常见的碱基（仍然可以变化）;
大写字母表示高度保守的碱基，例如“AUGG”序列是不变的或很少，甚至根本没有变化，唯一的例外是IUPAC的模糊码^[3]。“R”这表明嘌呤（A或G）总是在这个位置上（科扎克声称A更常见）
括号内的序列((gcc))重要性不明。

科扎克的研究局限于脊椎动物的一部分（例如人类，牛，猫，狗，鸡，豚鼠，仓鼠，小鼠，猪，兔，羊，非洲爪蟾）。

简介

这个序列在mRNA分子上被核糖体识别为翻译起始位点，即蛋白质是由此开始被该mRNA分子编码的。核糖体需要此序列，或一个可能的可变形式（见下文）来启动翻译。Kozak序列不应与核糖体结合位点（RBS）相混淆，后者一般为信使RNA的5'端帽或内部核糖体进入位点（IRES）。

在体内(In vivo)，不同的mRNA上这段区域往往不完全匹配，由一个给定的mRNA合成蛋白质的量取决于Kozak序列的强度。^[4] 这个序列中的一些核苷酸比其它的更重要：AUG是最重要的，因为它是实际的起始密码子，在对应蛋白质的N-末端编码一个甲硫氨酸。（很少地，CUG被用作起始密码子，编码亮氨酸，而不是典型的蛋氨酸作为起始。）“AUG”的A被定为1号位的话，对于一个“强”的Kozak序列，核苷酸在相对于1号核苷酸的4号位（即G所在的位置）和-3号位（即R的位点，没有号码0的位置）必须匹配一般的Kozak序列。“适中”强度的Kozak序列只有上述两个中的一个匹配，而“弱”的两个都不匹配。在-1和-2的cc并不那么保守，但有助于提升整体强度。^[5]有证据表明，在-6位的G在翻译起始中也是重要。 ^[1]

体内有这些类型的Kozak序列的例子，他们很可能是演变而来的基因调控的又一机制。Lmx1b （页面存档备份，存于互联网档案馆）是“弱”Kozak序列基因的一个例子。^[6]从这样的位点起始的翻译，mRNA序列需要有额外的特性，以便使核糖体识别起始密码子。

变异

研究显示β-珠蛋白基因（β+45;人类）在-6位G—>C的变异表现打乱血液和生物合成功能的表型。这是首个被发现的人类Kozak序列变异。它在一个意大利东南部的地中海贫血家庭中被发现。^[1]

共有序列的可变形式

(gcc)gccRccAUGG
       AGNNAUGN
        ANNAUGG
        ACCAUGG
     GACACCAUGG

不同真核生物中的类Kozak序列
生物类群	门	共有序列
脊椎动物		`gccRccATGG`^[2]
果蝇 (Drosophila spp.)	节肢动物门	`cAAaATG`^[7]
酿酒酵母 (Saccharomyces cerevisiae)	子囊菌门	`aAaAaAATGTCt`^[8]
粘菌 (Dictyostelium discoideum)	变形虫门	`aaaAAAATGRna`^[9]
纤毛虫	纤毛虫门	`nTaAAAATGRct`^[9]
疟原虫 (Plasmodium spp.)	顶复门	`taaAAAATGAan`^[9]
弓形虫 (Toxoplasma gondii)	顶复门	`gncAaaATGg`^[10]
Trypanosomatidae	眼虫门	`nnnAnnATGnC`^[9]
陆生植物		`AACAATGGC`^[11]

参见

夏因-达尔加诺序列, 原核生物的核糖体结合位点。

参考

^ ^1.0 ^1.1 ^1.2 De Angioletti M, Lacerra G, Sabato V, Carestia C. Beta+45 G --> C: a novel silent beta-thalassaemia mutation, the first in the Kozak sequence. Br J Haematol. 2004, 124 (2): 224–31. PMID 14687034. doi:10.1046/j.1365-2141.2003.04754.x.
^ ^2.0 ^2.1 Kozak M. An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs. Nucleic Acids Res. October 1987, 15 (20): 8125–8148 [2014-02-05]. PMC 306349 . PMID 3313277. doi:10.1093/nar/15.20.8125. （原始内容存档于2019-09-15）.
^ Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences （页面存档备份，存于互联网档案馆）, NC-IUB, 1984.
^ Kozak M. Point mutations close to the AUG initiator codon affect the efficiency of translation of rat preproinsulin in vivo. Nature. 1984, 308 (5956): 241–246 [2014-02-05]. PMID 6700727. doi:10.1038/308241a0. （原始内容存档于2017-05-06）.
^ Kozak M. Point mutations define a sequence flanking the AUG initiator codon that modulates translation by eukaryotic ribosomes. Cell. 1986, 44 (2): 283–92 [2014-02-05]. PMID 3943125. doi:10.1016/0092-8674(86)90762-2. （原始内容存档于2017-05-06）.
^ Dunston JA, Hamlington JD, Zaveri J; et al. The human LMX1B gene: transcription unit, promoter, and pathogenic mutations. Genomics. September 2004, 84 (3): 565–76. PMID 15498463. doi:10.1016/j.ygeno.2004.06.002. 引文格式1维护：显式使用等标签 (link)
^ Cavener DR. Comparison of the consensus sequence flanking translational start sites in Drosophila and vertebrates. Nucleic Acids Res. February 1987, 15 (4): 1353–61 [2014-02-05]. PMC 340553 . PMID 3822832. doi:10.1093/nar/15.4.1353. （原始内容存档于2019-09-15）.
^ Hamilton R, Watanabe CK, de Boer HA. Compilation and comparison of the sequence context around the AUG startcodons in Saccharomyces cerevisiae mRNAs. Nucleic Acids Res. April 1987, 15 (8): 3581–93 [2014-02-05]. PMC 340751 . PMID 3554144. doi:10.1093/nar/15.8.3581. （原始内容存档于2019-09-15）.
^ ^9.0 ^9.1 ^9.2 ^9.3 Yamauchi K. The sequence flanking translational initiation site in protozoa. Nucleic Acids Res. May 1991, 19 (10): 2715–20 [2014-02-05]. PMC 328191 . PMID 2041747. doi:10.1093/nar/19.10.2715. （原始内容存档于2019-09-15）.
^ Seeber, F. Consensus sequence of translational initiation sites from Toxoplasma gondii genes. Parasitology Research. 1997, 83 (3): 309–311. PMID 9089733. doi:10.1007/s004360050254.
^ Lütcke HA, Chow KC, Mickel FS, Moss KA, Kern HF, Scheele GA. Selection of AUG initiation codons differs in plants and animals. EMBO J. January 1987, 6 (1): 43–8. PMC 553354 . PMID 3556162.

蛋白质生物合成：翻译（原核翻译 · 古菌翻译 · 真核翻译）

基本概念

氨酰-tRNA合成酶 · 閱讀框架 · 起始密码子 · 终止密码子 · 核糖体结合位点：夏因-达尔加诺序列（+/-） · 科扎克共有序列 · A位點 · P位點 · E位點

核糖体蛋白质

起始因子

原核起始因子	PIF1 · PIF2 · PIF3

古菌起始因子	aIF1 · aIF2 · aIF5 · aIF6

真核起始因子 43S 起始前複合物	eIF1（AX · AY · 1B） eIF2（S1 · S2 · S3） · B1 · B2 · B3 · B4 · B5 · eIF2激酶 eIF3（A · B · C · D · F · G · H · I · J · K · M · S6） eIF4（eIF4A（A1 · A2 · A3） · B · E1 · E2 · G1 · G2 · G3 · H） eIF5（A · A2 · B） eIF6

延伸因子

原核延伸因子	EF-Tu · EF-Ts · EF-G

古菌延伸因子	aEF1 · aEF2

真核延伸因子	eEF1（A1 · A2 · A3 · B1 · B2 · B3 · B4 · D · E1 · G） · eEF2

释放因子

原核释放因子 · 古菌释放因子 · 真核释放因子（英语：Eukaryotic release factors）

其他

RPS1 · RPS2 · RPS3 · RPS4 · RPS5 · RPS6 · RPS7 · RPS8 · RPS9 · RPS10 · RPS11 · RPS12 · RPS13 · RPS14 · RPS15 · RPS16 · RPS17 · RPS18 · RPS19 · RPS20 · RPS21 · RPS22 · RPS23 · RPS24 · RPS25 · RPS26 · RPS27 · RPS28 · RPS29

查论编遗传学索引

描述	生化基因表达 DNA 复制周期蛋白基因重组修复转录转录因子与细胞内受体辅调节因子 RNA 重复序列转录后修饰翻译核糖体亚基翻译后修饰分拣蛋白（英语：Template:Sorting nexin） DNA结合蛋白（英语：Template:DNA-binding proteins）/RNA结合蛋白（英语：Template:RNA-binding proteins）核糖核蛋白) 蛋白质结构域结构 1° 2° 2⁺° 3° 4°

疾病	Replication and repair（英语：Template:DNA replication and repair-deficiency disorder） Transcription factor（英语：Template:Transcription factor and coregulator deficiencies）转录相关疾病（英语：Template:Disorders of transcription and post transcriptional modification）轉譯相關疾病