HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

生物信息学分析集锦9篇

时间:2023-08-31 16:37:23

生物信息学分析

生物信息学分析范文1

>> FZ6基因及其蛋白的生物信息学分析 欧文氏杆菌铁代谢相关基因的生物信息学分析 丹参SmNAC1基因的克隆和生物信息学分析 小菜蛾p38MAPK基因的克隆与生物信息学分析 沙棘WRI1转录因子基因的生物信息学分析 水稻2个F―box基因的生物信息学分析 小菜蛾PxALP1基因的克隆与生物信息学分析 丙酮醛诱导细胞凋亡相关基因SHMT2L的生物信息学分析 结核分枝杆菌pst S1基因的扩增及生物信息学分析 玉米淹水诱导表达ZmERF5基因启动子的克隆与生物信息学分析 茶陵野生稻冷响应基因OrCr3的克隆及其生物信息学分析 黄芩葡萄糖醛酸水解酶基因的克隆、生物信息学分析及表达 子宫内膜异位症相关基因和microRNA的挖掘及生物信息学分析 黔北麻羊RERGL基因cDNA克隆与生物信息学分析 不同物种GATA—2基因编码区生物信息学分析 石榴等观赏植物DFR基因生物信息学分析 高丛越桔UFGT基因电子克隆和生物信息学分析 miRNA―497与miRNA―195基因簇在宫颈癌组织中的表达及预测靶基因的生物信息学分析 平邑甜茶MhWRKY15基因cDNA克隆及其生物信息学分析 弓1虫RH株SAG1基因序列体外扩增及生物信息学分析 常见问题解答 当前所在位置:l)进行二级结构预测;通过Protscale()预测分析蛋白质功能和疏水性/亲水性[9];利用CBS网站TMHMM Serverv.2.0(http://cbs.dtu.dk/services/TMHMM/)在线工具对氨基酸序列进行跨膜分析预测[10]。

2 结果与分析

2.1 黄瓜DVR基因序列的分析

根据DNAMAN软件分析可知,DVR基因序列全长1260pb,分别以ATG和TGA为起始密码子和终止密码子,共编码419个残基(图1),编码的蛋白质分子质量为45516 Da。

2.2黄瓜DVR及其同源序列的分析进化树

根据MEGA软件分析,将进化树分为五段,分别是四种白梨、野草莓、香瓜、两种黄瓜和鹰嘴豆(图2)。黄瓜DVR与黄瓜(JX239753.1)的同源基因关系最为接近,几乎完全相同,其次为香瓜,测得黄瓜与香瓜的同源距离约为0.029,与鹰嘴豆基因关系最远,测得它们之间的距离达到0.357。

2.3 黄瓜DVR蛋白二级结构预测

通过sopma在线软件预测可知,该蛋白由419个氨基酸组成,其中α螺旋和无规则卷曲所占比例最高,α螺旋有146个,占总数的34.84%,无规则卷曲有140个,占总数的33.41%。β折叠数量略少于无规则卷曲,但远多于β转角(图3)。

2.4 黄瓜DVR蛋白跨膜结构分析

跨膜结构域一般富含疏水性氨基酸残基,起着固系于细胞膜中的“抛锚”作用,具有跨膜结构域的蛋白属于跨膜蛋白类。通过TMHMM在线软件预测可知,横坐标表示氨基酸残基位置,纵坐标表示残基具有相应结构的可能性, 结果显示,联乙烯还原酶蛋白没有检测到跨膜区,可能不是跨膜蛋白,联乙烯还原酶蛋白极可能为覆盖蛋白(图4)。

2.5 黄瓜DVR蛋白的亲疏水性预测

用protscale软件分析可知,图中大于零的氨基酸为疏水性氨基酸,小于零的氨基酸为亲水性的氨基酸。通过预测可知,组成联乙烯还原酶蛋白的氨基酸中高亲水性的氨基酸的位点有两个(图5),分别是57和58,分值都是-2.667;组成联乙烯还原酶蛋白的氨基酸中高疏水性的氨基酸的位点206,分值是2.978。

3 讨论

本实验预测得黄瓜联乙烯还原酶蛋白为亲水性的非跨膜类蛋白,通过对蛋白质二级结构的预测可知,黄瓜联乙烯还原酶蛋白二级结构以α螺旋和无规则卷曲为主;根据同源序列的遗传距离得知黄瓜DVR与黄瓜(JX239753.1)同源基因关系最近,与鹰嘴豆基因关系最远。

绝大多数绿色植物进行光合作用离不开叶绿体的存在[11],而联乙烯还原酶是生物合成叶绿素必不可少的一个关键酶,迄今已在高等植物中检测到5种DVR活性[12]。联乙烯还原酶具有活性,对叶绿素的生物合成途径具有十分重要的意义

[13]。联乙烯蛋白酶基因的突变可能会引起联乙烯还原酶失活,对植物的生存、生长和繁殖造成较大的影响

[15]。应用生物信息学方法对已知黄瓜DVR序列进行比对、分析,从而对其结构和功能进行推断和预测,这可以为我们在开展试验研究前提供尽可能多的信息,从而为选择合适的试验方法提供理论参考,为进一步对该基因的功能研究提供线索。

[参考文献]

[1]闫世江, 张继宁, 刘洁. 低温对黄瓜伤害的研究进展[J]. 蔬菜, 2010, 5(10):31-34.

[2] 陈惠明, 刘晓虹. 黄瓜性型遗传规律的研究[J]. 湖南农业大学学报:自然科学版, 1999, 25(1):40-43.

[3] 孙洪涛. 黄瓜果实横径遗传分析及分子标记[D]. 哈尔滨: 东北农业大学, 2010.

[4] 曾维华. “黄瓜”始名考[J]. 上海师范大学学报:哲学社会科学版, 2000, 29(4): 313-315.

[5] Nielsen J G, Newman M, Nielsen H. Control and testing of a dynamic voltage restorer (DVR) at medium voltage level [J]. IEEE Transactions on Power Electronics, 2004, 19(3):806-813.

[6] 王平荣, 邓晓建. 高等植物叶绿素生物合成的联乙烯还原酶及编码基因研究进展 [J]. 西北植物学报, 2013, 33(4):843-849.

[7] 王江波. 中国水仙LTR反转录转座子研究及IRAP、REMAP分子标记的开发 [D]. 福州: 福建农林大学, 2012.

[8] 李凤梅, 盖雪梅. 半胱氨酸蛋白酶抑制剂的系统发生分析(英文) [J]. 农业科学与技术, 2010, 14(2): 44-54.

[9] 廖文彬, 崔百明, 温玮. 赤霉素负调控因子GhRGL(RGL-LIKE)基因序列与功能预测分析 [J]. 热带作物学报, 2009, 30(2): 773-781.

[10] 张繁. 结核分枝杆菌哺乳动物细胞入侵因子mce家族Rv0590A基因的性质及功能研究 [D]. 重庆: 西南大学, 2011.

[11] 兰金苹, 李莉云, 贾霖, 曹英豪, 白辉. 叶绿体基因编码蛋白质在水稻叶片生长过程中的表达研究[D]. 保定: 河北农业大学, 2011.

[12] 王平荣. 水稻824ys黄绿叶突变基因的图位克隆及功能分析[D]. 雅安: 四川农业大学, 2010.

生物信息学分析范文2

【关键词】 乳糖酶基因;克隆;生物信息学分析

[abstract] objective: to clone and analyze lactase gene from lactobacillus delbrueckii bulgaricus. methods: cloned lactase gene from lactobacillus delbrueckii bulgaricus with pcr, made sequencing and bioinformatics analysis. results: cloned lactase gene (3 024 bp) successfully. it was presumed that the lactase gene encode 1 008 amino acids, with protein molecule 114 kda, isoelectric point 4.9, 9 potential glycosylation sites in amino acid sequence. made homology comparison with other lacteses. conclusion: the lactase gene is cloned successfully and the bioinformatics analysis is made by biological analysis software to investigate its character. it provides foundation for further study and colonization at low cost.

[key words] lactase gene; clone; bioinformatics analysis

乳及乳制品含有丰富的优质蛋白质、脂肪、碳水化合物以及几乎全部已知的维生素和多种矿物质,还含有免疫球蛋白等抗病因子,易被人体消化吸收,是人类改善营养、增强体质的理想食品[1]。除此之外,在牛乳等制品当中还含有5%左右的乳糖,它是牛奶中主要的碳水化合物,对人体有着重要的作用。主要表现在于乳糖能促进钙质吸收及整理肠道的功效,特别是乳糖被分解后的半乳糖是婴儿脑发育的必需物质,与婴儿大脑的迅速成长有密切关系。然而,人体却不能直接利用乳糖,它必须被乳糖酶分解为单糖的葡萄糖及半乳糖后才能被吸收和利用。据研究发现,世界各国人口都有不同程度的乳糖酶缺乏,东方人乳糖酶缺乏高达85%[2],从而导致“乳糖不耐症”的发生。

乳糖酶(ec3.2.1.23,又名β?半乳糖苷酶)能将牛乳中的乳糖水解为葡萄糖和半乳糖,并具有半乳糖苷的转移作用[3]。利用该酶生产低乳糖制品或口服酶制剂,能够有效解决“乳糖不耐症”问题。乳糖酶广泛存在于扁桃、桃、杏、苹果和咖啡豆等植物中,大肠杆菌、乳酸杆菌、酵母菌和霉菌等微生物中,以及有效哺乳动物的小肠等器官和皮肤组织中。然而,不同来源的乳糖酶,其酶学性质相差很大。本研究从保加利亚德氏乳杆菌中成功的克隆出乳糖酶基因,并利用生物分析软件对其进行生物信息学分析。了解该酶的性质特征,为进一步研究及低成本表达该酶奠定基础。

1 材料与方法

1.1 材料

1.1.1 菌株与质粒 保加利亚德氏乳杆菌购买于广东省微生物研究所菌种保藏中心;大肠杆菌dh5α由本室保存;pgm?t vector购于北京天根生化科技有限公司。

1.1.2 试剂材料 细菌培养试剂购于sigma公司;引物由上海生工合成;la dna聚合酶购于自大连宝生物公司;细菌基因组提取试剂盒、dna胶回收试剂盒、小量质粒提取试剂盒、dna ladder购于北京天根生化科技有限公司;t4连接酶、琼脂糖、荧光染料由本室保存。

1.2 方法

1.2.1 保加利亚德氏乳杆菌基因组dna的提取

用灭菌双蒸水溶解干冻管里的保加利亚德氏乳杆菌,并划平板到mrs固体培养基,37 ℃培养72 h,挑取单个菌落于mrs液体培养基进行增菌(37 ℃摇床)。利用细菌基因组提取试剂盒提取保加利亚德氏乳杆菌基因组dna,并用1%的琼脂糖凝胶电泳检测纯度。

1.2.2 引物设计与合成 从genbank数据库中检索到保加利亚德氏乳杆菌中乳糖酶基因序列(genbank序列号:gi149564)设计引物如下:p1:5'?5' cgcggatccgcgatg agc aa taagtta?3';p2:5'?ccgctcgagcggttattttagtaaaaggg?3'。上述引物由大连宝生物工程有限公司合成(下划线碱基分别为bamh i和xho i酶切位点)。

1.2.3 乳糖酶基因的pcr扩增与鉴定 反应总体积为25 μl:模板dna(1 μg/μl) 3 μl,10×buffer2.5 μl,mg2+( 25 mm)2.0 μl, dntp(2.5 mm)2.5 μl,引物p1(10 pmol/μl) 0.4 μl,引物p2 (10 pmol/μl)0.4 μl,la dna聚合酶(5 u/ul)0.2 μl,双蒸水14 μl;反应条件:98 ℃,1 min;94 ℃,30 sec;50 ℃,30 sec;72 ℃,4 min; 30个循环;72 ℃,5 min.然后用1% 的琼脂糖凝胶电泳检测,同时加上500 bp ladder对pcr产物进行初步鉴定。

1.2.4 乳糖酶基因的克隆与鉴定 pcr扩增出目的基因,1%琼脂糖电泳,切胶后用dna胶回收试剂盒进行纯化,得到纯化的pcr产物与pgm?t vector进行连接(4 ℃,24 h),转入新制备[4]的感受态大肠杆菌dh5α,再涂于含氨苄青霉素的lb培养基上37 ℃培养过夜,用接种针分别挑取仅有的4个菌落于含氨苄青霉素的lb液体培养基上增菌培养(做好标记)。采用小量质粒提取试剂盒分别对4管菌液提取质粒。采用三酶切(bamh i、xho i和pvu i)和pcr两种方法对重组子进行鉴定。经鉴定的阳性重组质粒由北京天根生化科技有限公司测序。

1.2.5 乳糖酶基因序列的生物信息学分析 利用生物软件dnassist version2.0对该序列进行物理化学性质的分析,推测其氨基酸序列。利用在线分析软件sopma对其进行二级结构分析以及在线分析软件netnglyc1.0进行蛋白质功能位点预测。并利用在线分析软件blast在genbank 数据库中进行同源性分析[5]。并利用dnaman软件绘制其同源关系图。

2 结果与分析

2.1 乳糖酶基因克隆与鉴定

用细菌基因组提取试剂盒提取保加利亚德氏乳杆菌基因组dna,1%琼脂糖凝胶电泳,可见到清晰的条带,说明获得高质量的基因组dna。以该基因组dna为模板,进行目的基因的pcr扩增,结果可扩出3 024 bp的目的片段。将该目的基因片段进行胶回收纯化后,与pgm?t vector进行连接,转化感受态大肠杆菌dh5α,通过氨苄青霉素筛选,得到4个菌落,4个菌落分别在含有氨苄青霉素的lb液体培养基上增菌培养,采用小量质粒提取试剂盒分别对4管菌液提取质粒。pcr及酶切(如图1)所得质粒,电泳结果发现第3号质粒成功地被三酶切,得到3 024 bp的目的基因,初步证明包含乳糖酶dna的重组质粒pgm?t?lacz构建成功。注:1、2、3、4号为质粒三酶切,5号为500 bp ladder

2.2 测序结果及生物信息学分析

序列测定证明.构建的重组载体中含有乳糖酶全长编码序列,经blast同源性分析,与genbank中登录的序列完全一致。利用生物软件dnassist 2.0对已克隆基因进行分析,其结果推测出肽链具有1 008个氨基酸,该蛋白分子量为114kda,等电点为4.9。利用在线分析软件sopma对其蛋白序列进行二级结构分析,结果发现该蛋白氨基酸序列中有205个氨基酸组成α?螺旋,占氨基酸总数的20.34%;64个氨基酸组成β?折叠,占总数的6.35%;489个氨基酸随意缠绕,占总数的48.51%;250个氨基酸组成扩展链,占总数的24.8%(如图2)。蓝条带代表α-螺旋的位置;绿条带代表β-折叠的位置 利用在线分析软件netnglyc1.0对该蛋白功能位点进行预测,结果发现该蛋白序列共有9处潜在糖基化位点:nasf?258、nqsl?389、nesy?464、nsss?635、nesy?878、nfsp?900、nrsk?912、nlsa?938、nytw?961。

2.3 乳糖酶基因同源性比较

将本实验已克隆出的乳糖酶基因翻译成氨基酸序列,通过在线分析软件blast与genbank 数据库中含有乳糖酶基因的氨基酸序列进行同源性比较,结果发现与乳糖分解酵素的同源性高达到99%,而其他却较低,分别是链球菌49%;乳酸菌46%;酪酸梭状芽胞杆菌45%;产气荚膜梭菌45%;长双歧杆菌45%。利用dnaman软件对同源性比较所得结果进行同源关系图的绘制(如图3)。

3 讨论

乳糖是牛奶中主要的碳水化合物,全脂牛奶中约30%的热量和脱脂牛奶中60%的热量都是由乳糖提供。然而对于“乳糖不耐症”的人群来讲,无法充分利用这种能量,一旦身体的能量需求不能得到满足(营养不良的儿童),蛋白质就仅被用于满足能量需要,而不能作为构成人体蛋白的单元。除此之外,乳糖还是矿物质成分的载体,可促进矿物质元素的吸收。因此,假如乳糖不被吸收,它将被排放到肠中被肠道微生物发酵产酸产气,从而导致胃肠功能失调,并造成有价值的蛋白质和矿物质的损失,如铁、锌、钙质的丢失,这与小儿佝偻病和成年人的骨质疏松症都有着密切的关系。然而,乳糖是一种双糖,因为分子太大,不能被人体直接吸收,需要被小肠中的乳糖酶分解为葡萄糖和半乳糖,然后再被人体吸收[6,7]。

据研究发现,随着人类的生长发育,体内乳糖酶活性却呈规律性衰减,其中我国就有75%~95%[8],最终造成“乳糖不耐症”的发生。由此可见,人体不断补充乳糖酶至关重要。当今乳糖酶广泛应用于食品行业,特别是乳品行业,需求量逐年增加。然而,国内大量的乳糖酶的需求都基本须来自于进口,价格昂贵,因此,研发出一套能够低成本生产乳糖酶的方法迫在眉睫。本研究通过保加利亚德氏乳杆菌,成功的克隆出乳糖酶基因。并利用生物软件对其进行生物信息学分析,了解该酶的理化性质,为下一步表达及制作口服片剂奠定基础。并通过二级结构及糖基化位点的预测为今后对该酶的进一步研究和应用提供很好的数据平台。

【参考文献】

1 许牡丹,范金波,檀志芬,等.米曲氍β?半乳糖苷酶的纯化与性质研究[j].陕西科技大学学报,2003,2l(4):13?16.

2 calloway dh, colassito dj, mathens rd. gases produced by human intestinal microflora[j]. nature, 1966, 212:1238?1239.

3 高焕春.乳糖酶的特性及其在乳品工业中的应用[j].中国乳品工业,1996,24(3):19?21.

4 sambrook joseph sambrook, t.maniatis. eds.2nd ed.molecular cloning: a laboratory manual[m].new york:cold sping harbour laboratory press,1989.10.

5 altschul sf, madden tl, schaffer aa, et al. gapped blast and psi?blast: a new generation of protein database searchprograms[j]. nucleic acids res, 1997,25(17):3389?3402.

6 bernard cochet. effects of lactase intestinal calcium absorption in normal and lactase?deficient subjects [j]. gastroenterology,1983,84:935.

生物信息学分析范文3

关键词:GATA-2基因;物种;生物信息学分析;遗传多样性

中图分类号:Q786 文献标识码:A 文章编号:0439-8114(2013)24-6182-05

GATA家族是一类能识别GATA基序(motif),并能与之结合的转录调节因子,在动物、真菌、植物等生物中存在比较广泛。脊椎动物中已发现6种GATA结合蛋白,分为GATA-1/2/3和GATA-4/5/6两大类,前者与红细胞、淋巴及性腺的发育有关,后者控制心、肠及外胚等组织分化的转录[1,2]。GATA-2的cDNA大小为2.6 kb,编码的转录因子为474个氨基酸。GATA-2属于锌指结构家族,可调控造血干/祖细胞的增殖和分化,在整个造血过程中对细胞的系统分化十分重要[3]。GATA-2还可调控其他造血相关因子的表达,与多种造血系统疾病相关。另外,GATA-2可作为胚胎发育过程中原肠胚期外胚层腹部的分子标记,还表达于胚胎发育时期和成年个体垂体中的[4],GATA-2失活后胚胎会因为造血功能的缺失而在怀孕中期死亡。GATA-2还可以与其他因子交互作用,从而在多方面发挥调控造血作用[5]。本研究利用生物信息学方法分析了GATA-2基因编码区种内和种间变异,研究了该基因不同种内及种间的遗传分化,为更好地研究该基因及GATA家族中其他成员的结构和功能奠定了基础。

1 材料与方法

1.1 序列来源

1.2 方法

2 结果与分析

2.1 不同物种GATA-2基因核苷酸分析

2.1.1 多态位点、单倍型及核苷酸多样性分析 在所分析片段长度为1 443 bp的52条序列中,发现344个多态位点,百分率为23.84%,其中单一多态位点65个,百分率为4.50%,简约多态位点279个, 百分率为19.33%;共发现25种单倍型,单倍型的多样性为0.967,说明GATA-2基因种间和种内变异较大。不同物种的多态位点数和单倍型多样性不一致,表明GATA-2基因的种间存在遗传变异。17个物种种间的平均核苷酸差异数(k)为76.676,核苷酸多样性为0.053。其中,人的GATA-2基因平均核苷酸差异数和核苷酸多样性最高,与其他物种差异较大,这表明人的GATA-2基因存在丰富的遗传多样性(表2)。

2.1.2 核苷酸歧异度、遗传分化和净遗传距离分析 不同物种GATA-2基因遗传分化(Gst)在0.093~1.000之间,核苷酸歧异度(Dxy)和净遗传距离(Da)都在0.001~0.109之间(表3)。不同物种间核苷酸歧异度和遗传分化、净遗传距离的变化范围均很大,说明了不同物种间遗传分化明显。其中黑猩猩和倭黑猩猩、大猩猩、人的核苷酸歧异度、净遗传距离最小,说明黑猩猩与倭黑猩猩、大猩猩、人之间的亲缘关系较近,小家鼠、褐家鼠与其他物种间的核苷酸歧异度、净遗传距离最大,说明小家鼠、褐家鼠与本研究中其他物种间亲缘关系较远。

2.2 不同物种GATA-2基因氨基酸多样性分析

2.2.1 密码子偏爱性 ENC值是评价基因整体密码子偏爱性,其取值范围为20(每个氨基酸只使用1个密码子的极端情况)~61(各个密码子均被平均使用),其值越低说明偏爱性越强,越高则说明偏爱性越低[6]。CBI值反映了一个基因中高表达优越密码子的组分情况,说明外源基因在目的宿主中可能的表达情况[7]。所选不同物种GATA-2基因序列编码区中密码子有效值(ENC)为42.383 (0),说明GATA-2基因对密码子有较强偏爱性。

2.2.2 同义替换和非同义替换 17个物种52条GATA-2基因序列编码区中同义替换平均位点数为365.80个,非同义替换平均位点数为1 071.20个。不同物种同义替换位点数(SS)为364.50~367.50(表4),同义替换核苷酸多样性均值[π(s)]为0.189;非同义替换位点数(NSS)为1 072.50~1 075.50,非同义替换核苷酸多样性均值[π(a)]为0.006。GATA-2基因的非同义替换位点数均明显高于同义替换位点数,亚马逊松鼠猴的非同义替换位点数较其他物种多,其次是家猫、小家鼠,说明亚马逊松鼠猴GATA-2基因编码区的非同义替换较其他物种高,家猫、小家鼠分别为第二、第三。由于达尔文的正向选择有些基因中非同义替代速率远远高于同义替代[8],因此推测本研究中的GATA-2基因在进化过程中可能受到了正向选择的影响。

2.2.3 不同物种GATA-2基因遗传关系分析 根据不同物种间的核苷酸歧异度(Dxy),用MEGA5.0软件的UPGMA方法进行聚类分析,构建不同物种分子聚类图(图1)。由图1可以看出,人与黑猩猩、倭黑猩猩、大猩猩的亲缘关系较近,小家鼠与褐家鼠与其他物种的亲缘关系较远,基本上与NCBI中的动物学分类相符合。

2.2.4 不同物种GATA-2基因的G+C含量 亲缘关系相近的生物,核苷酸的碱基组成中的G+C含量相似,若生物之间G+C含量差别大,则表明它们的亲缘关系远。本研究中的GATA-2基因的碱基组成,发现它们之间的G+C含量的均值为64.60%,不同物种的G+C含量在62.20%~66.10%之间(表4),说明GATA-2基因在不同物种间发生了遗传变异。小家鼠和褐家鼠GATA-2基因的G+C含量分别为62.60%、62.20%(表4),与其他物种GATA-2基因的G+C含量相差较大,说明小家鼠和褐家鼠与本研究中的其他物种亲缘关系最远,与本研究之前的结果相符。

2.3 不同物种氨基酸序列预测和分析

2.3.1 信号肽的预测与分析 一般认为,每一个需要运输的多肽都含有一段氨基酸序列, 称为信号肽序列(Signal peptide,SP),引导多肽至不同的转运系统[9]。信号肽帮助蛋白质穿膜,与蛋白质的细胞定位有关,通过分析蛋白序列N端信号肽的有无, 可以初步判断某个蛋白是否为分泌蛋白[10]。利用蛋白分析专家EXPASY 工具里的SignalP 4.0 Server对17个物种GATA-2氨基酸序列进行预测,结果显示所研究17个物种的GATA-2氨基酸序列均无信号肽,推测GATA-2不是分泌蛋白,在游离核糖体上起始合成后就于合成处发挥作用,可能不存在运输,而保留在细胞基质中合成,运输到细胞器中起作用的蛋白质。

2.3.2 导肽的预测和分析 导肽促使前体蛋白和细胞器膜相互作用,穿越过膜后被细胞器的蛋白酶切下转运,继续使整个蛋白穿越过膜,或直到中部导致转运停止。利用在线工具TargetP1.1 Server 对13个物种GATA-2氨基酸序列进行预测,结果显示本研究中17个物种的GATA-2氨基酸序列均没有氨基酸残基裂解位点,故推断GATA-2氨基酸序列不具有导肽。

2.3.3 跨膜结构域的预测和分析 蛋白的跨膜结构域主要是膜内在蛋白和细胞膜的膜脂相结合的部位,一般是由以α-螺旋形式存在的20个左右疏水氨基酸残基构成[11],利用在线工具TMHMM 2.0 Server对17个物种GATA-2氨基酸序列的跨膜结构域进行预测,结果显示本研究中17个物种的 GATA-2氨基酸序列均不存在跨膜结构域,整条肽链位于细胞外,推测该蛋白不是定位于生物膜的膜蛋白。结合信号肽的预测,说明GATA-2蛋白质属于定位在细胞基质中的蛋白质,不属于膜蛋白或分泌蛋白。

2.3.4 疏水性/亲水性的预测和分析 疏水性和亲水性分析对于预测蛋白质的二级结构和功能域具有重要的生物学意义。疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部,亲水氨基酸通常处于蛋白质分子的表面[12]。利用在线工具 ProtScale 对17个物种GATA-2氨基酸序列的疏水性/亲水性进行预测,结果显示本研究17个物种的GATA-2氨基酸序列最低分值为-4.500,亲水性最强;最高分值为4.500,疏水性最强。总体上看,亲水区域大于疏水区域,故整条多肽链表现为亲水性,因此认为GATA-2蛋白是亲水性蛋白,处于蛋白质分子的表面。

2.3.5 二级结构的预测和分析 二级结构主要指多肽链依赖氢键排列成在一维方向上具有周期性结构的构象,对其进行预测与分析,有助于认识蛋白的空间结构[13]。用 PBIL LYON-GERLAND信息库对17个物种GATA-2氨基酸序列的二级结构进行预测,结果显示本研究中17个物种的GATA-2蛋白质二级结构的主要结构元件是无规卷曲(72.71%~75.83%),其次α-螺旋(11.46%~13.33%)、β折叠(7.29%-9.38%)、β转角(3.75%~5.83%)。

2.3.6 氨基酸序列的组成成分及生化特性分析 用ProtParam在线工具分析17个物种GATA-2基因编码的氨基酸序列,结果表明,理论等电点为9.43,GATA-2蛋白呈碱性,Pro是17个物种中最主要的氨基酸,含量在11.2%~11.7%;其次是Ala,含量在10.8%~11.5%;再次是Ser,含量在10.0%~11.0%。17个物种 GATA-2 蛋白的不稳定系数在57.11~62.63之间,表明这种蛋白质不稳定[14]。

3 小结与讨论

不同物种间GATA-2基因的核苷酸歧异度、净遗传距离和单倍型间的遗传距离差异都较大,种内及种间遗传分化明显。GATA-2基因对密码子有较强的偏爱性,非同义替换位点数均明显高于同义替换位点数,GATA-2基因在进化过程中可能受到正向选择的影响。GATA-2基因物种间的亲缘关系与动物学分类相符。

GATA-2蛋白N端无信号肽,无导肽,无跨膜结构域,整个多肽链表现为亲水性,蛋白质二级结构的主要元件为无规则卷曲和α-螺旋,除此之外还有少量β折叠和β转角,GATA-2蛋白质不属于膜蛋白或分泌蛋白,应定位在细胞基质。

参考文献:

[1] MORRISEY E E, IP H S, TANG Z, et al. GATA-4 activates transcription via two novel domains that are conserved within the GATA-4/5/6 subfamily[J]. Journal of Biological Chemistry,1997,272(13):8515-8524.

[2] ONODERA K, YOMOGIDA K, SUWABE N, et al. Conserved structure, regulatory elements, and transcriptional regulation from the GATA-1 gene testis promoter[J]. Journal of Biochemistry,1997,121(2):251-263.

[3] IKONOMI P, RIVERA C E, RIORDAN M, et al. Overexpression of GATA-2 inhibits erythroid and promotes megakaryocyte different iat ion[J]. Exp Hematol,2000,28(12):1423-1431.

[4] SUH H, GAGE P J, DROUIN J, et al. Pitx2 is required at multiple stages of pituitary organogenesis: Pituitary primordium formation and cell specification[J]. Development,2002,129(2): 329-337.

[5] 吴秀丽,李扬秋.转录因子GATA-2的研究进展[J]. 现代临床医学生物工程学杂志,2003,9(5):387-389.

[6] WRIGHT F. The‘effective number of codons’ used in a gene[J]. Gene,1990,87(1):23-29.

[7] NOVEMBRE J A.Accounting for background nucleotide composition when measuring codon ussge bias[J]. Mol Biol Evol,2002,19(8):1390-1394.

[8] GUO Z P . Introduction to Population Genetics[M]. Beijing: Agricultural Press,1993.298-332.

[9] 彭佳师,龚继明.信号肽与蛋白质的分选转运[J].植物生理学报,2011,47(1):9-17.

[10] 孙翰昌,杨 帆,徐敬明,等.草鱼含信号肽分泌蛋白的预测分析[J].水产科学,2011,30(3):164-167.

[11] 张 耿,王 赞,关 宁,等.中间偃麦草Na+/H+逆向转运蛋白的分子克隆及生物信息学分析[J].遗传,2007,29(10):1263-1270.

[12] 胡秀珍.蛋白质规则二级结构中亲疏水氨基酸紧邻关联特性[J].内蒙古大学学报(自然科学版),2002,33(4):395-400.

生物信息学分析范文4

关键词:沙棘(Hippophae rhamnoides Linn.);WRI1基因;生物信息学

中图分类号:Q943.2 文献标识码:A 文章编号:0439-8114(2016)22-5972-04

DOI:10.14088/ki.issn0439-8114.2016.22.061

Bioinformatics Analysis of WRI1 Gene in Hippophae rhamnoides

MA Qian,LI Jing-bin,RUAN Cheng-jiang,LI Rong-rong

(Resources and Plant Research Institute/College of Environment and Resources,Dalian Nationalities University,Dalian 116600,Liaoning,China)

Abstract: In the present study,a HrWRI1 gene firstly based on the transcriptome sequencing data from H. rhamnoides was obtained. Then,cDNA and deduced amino acid sequence, physical and chemical characterization,conserved domain,signal peptide,subcellular localization,phosphorylation site molecular modeling were predicted and analyzed. It follows that this predicted cDNA has an open reading frame of 1 206 bp in length,encoding protein of 401 amino acids. It was hydrophilic proteins,no transmembrane regions and signal peptide,contain multiple phosphorylation sites. A subcellular localization analysis predicted that they may exist in the nucleus. In addition,the secondary structure is mainly based on random coil. In comparison to the other known WRI1 from various species,the overall sequence alignment suggested that they were highly similar at the protein level,especially conserved domain. Our investigation could definitely provide a significant foundation for further research on function analysis of HrWRI1.

Key words: Hippophae rhamnoides Linn.; WRI1 gene; bioinformatics

沙棘伲Hippophae)系林奈于1753年以沙棘(Hippophae rhamnoides Linn.)为模式建立的。沙棘又名醋柳、酸刺等,为胡颓子科沙棘属落叶灌木或小乔木,是一种新兴的小浆果类树种[1,2]。近年来,植物油脂的需求量越来越多,利用基因工程技术提高油料作物中植物油的含量已经成为最有发展前景的方法之一,培育高含油量的沙棘品种已成为沙棘研究的主攻方向之一[3]。WRINKLED1(WRI1)是第一次在模式植物拟南芥(Arabidopsis thaliana)中发现的1个AP2/EREBP类转录因子,WRI1基因编码蛋白含有两个AP2/EREBP结构域,AP2/EREBP家族转录因子是植物特有的一类转录因子,含有由60~70个氨基酸组成的AP2/ERF结构域,其在控制种子的蔗糖到油的积累过程中起关键作用[4]。研究发现过量表达WRI1基因则提高种子和幼苗中三酯酰甘油,而降低了WRI1基因的表达量致使发育中的种子将蔗糖转化为三酯酰甘油的过程受阻,破坏了糖酵解过程,因而降低了种子的含油量[2]。

本研究以HrWRI1基因序列为目的基因,利用生物信息学方法以及相关软件分析预测该基因编码的蛋白理化性质、结构、功能,为今后开发和利用奠定基础[5]。

1 生物信息学分析

1.1 编码氨基酸的一级结构及理化性质分析

利用在线工具ProtParam程序(http:///protparam/)分析HrWRI1基因所编码氨基酸的组成以及其基本的理化性质。

1.2 氨基酸保守结构域分析

利用NCBI数据库中的BLASTP(http://blast.ncbi.nlm.nih.gov/),进行保守结构域的分析预测。

1.3 编码氨基酸的亲水性/疏水性以及跨膜结构分析[6]

对该基因编码的氨基酸序列的亲水性/疏水性预测利用ProtScale程序(http:///cgi-bin/protscale/protscale.pl),蛋白跨膜结构分析的预测应用TMHMM程序(http://cbs.dtu.dk/services/TMHMM-2.0/)。

1.4 编码蛋白的亚细胞定位、核定位信号及信号肽分析[6]

使用ProtComp v.9.0 Predict the sub-cellular localization for Plant proteins(http:///berry.phtml)对该蛋白进行亚细胞定位预测。对编码蛋白的核定位信号利用NLS mapper program(http://nls-mapper.iab.keio.ac.jp)。利用在线工具SignalP程序(http;//cbs.dtu.dk/services/SignalP/)对该蛋白序列进行信号肽预测。

1.5 磷酸化位点分析

利用在线工具NetPhos2.0 Serve(http://cbs.dtu.dk/services/NetPhos/)对序列进行潜在磷酸化位点预测分析。

1.6 HrWRI1基因的功能预测

利用ProtFun 2.2 Server程序(http://cbs.dtu.dk/services/ProtFun/),对HrWRI1基因进行功能的分析预测[5]。

1.7 编码蛋白的二级结构和三级结构预测分析

蛋白质二级结构分析利用HNN Methods(https://npsa-prabi.ibcp.fr);蛋白质的三维结构利用ExPASy服务器的SWISS-MODEL工具进行预测(http:///),通过Discovery studio viewerpro软件进行查看[7]。

1.8 蛋白序列比对及进化树分析

首先通过NCBI数据库中的Blastp对HrWRI1基因编码的氨基酸进行同源性分析。利用ClustalX、BioEdit、GeneDOC和MEGA 4软件进行多重序列比对并构建系统进化树。

2 结果与分析

2.1 开放阅读框的获取及编码的氨基酸分析

在沙棘D录组数据库中获得一个全长为1 251 bp的cDNA序列,通过BioXM 2.6软件分析得到一个全长为1 206 bp的开放阅读框,编码401个氨基酸,如图1所示。

2.2 保守结构域的分析

通过NCBI中BLASTP分析开放阅读框所编码的氨基酸序列的保守结构域。结果(图2)表明,所编码的氨基酸序列中共包含两个保守结构域,属于AP2/EREBP家族,该序列可能是AP2/EREBP类转录因子家族中的一员。

2.3 HrWRI1蛋白的理化性质分析

通过ProtParam程序对HrWRI1蛋白的理化性质进行了分析,HrWRI1分子式为C1958H3038N562O661S9,分子质量为45.315 5 ku,理论等电点为5.35,为酸性蛋白;该蛋白含Ser最多,占12.0%;总的带正电残基精氨酸(Arg)+赖氨酸(Lys)为46,负电残基天冬氨酸(Asp)+谷氨酸(Glu)为58;不稳定系数为57.74,表明HrWRI1是一个不稳定蛋白(不稳定系数小于40时为稳定蛋白)。

2.4 HrWRI1基因编码的氨基酸的亲水性/疏水性和跨膜结构分析

蛋白质的折叠主要由氨基酸的亲、疏水性驱动,是每种氨基酸固有的特性。蛋白质在折叠时形成疏水的内核和亲水的表面,同时潜在跨膜区会出现高疏水性结构域,通过对亲疏水性分析可以反映蛋白质表面氨基酸的分布和跨膜结构域[8]。

通过ProtScale程序分析,预测HrWRI1氨基酸序列的亲水性/疏水性,结果如图3所示。多肽链的第195位具有最大值1.389,疏水性最强;第238位至245位存在最小值-3.589,均为亲水性氨基酸。平均疏水性通过理化性质分析显示为-0.914,在整条肽链中,亲水氨基酸数量较多,表明整条多肽链表现为亲水性[9]。

跨膜区必须由强疏水的氨基酸组成才能使膜蛋白穿过膜的磷脂双分子层。通过蛋白亲、疏水性分析发现,HrWRI1为亲水性蛋白,推测不存在跨膜区。进一步利用TMHMM程序对HrWRI1蛋白跨膜区进行了分析,结果如图4所示。表明确实不存在跨膜区,这与亲水性的分析的结果是一致的。

2.5 HrWRI1蛋白的亚细胞定位及信号肽分析

核定位信号是一段特殊的短肽氨基酸序列,其能引导整个蛋白质进入细胞核。亚细胞定位和核定位信号分析发现,HrWRI1蛋白定位于细胞核上,结果见表1,同时发现它在2~29位氨基酸处存在潜在的核定位信号。

信号肽是引导前体蛋白质通过细胞膜分泌到胞外的一段序列,对其预测和分析有助于了解蛋白质的细胞定位并区分蛋白质的功能域。信号肽预测结果如图5所示,HrWRI1蛋白最高原始剪切位点分值(C)、最高信号肽分值(S)以及最高综合剪切位点分值(Y)分别为0.109、0.120、0.106。通常可能的信号肽剪切位点由最高Y值来推测,为具有最高C值的点同时又是S值由高变低是陡峭的位置。HrWRI1蛋白不存在信号肽,为非分泌蛋白。

2.6 HrWRI1蛋白的磷酸化位点分析

磷酸化是蛋白质最常见、最重要的一种翻译后修饰方式之一,该过程能够参与调节细胞生长、细胞分化和信号转导等多种生命活动。蛋白质磷酸化位点主要在丝氨酸(Ser)、苏氨酸(Thr)和酪氨酸(Tyr)残基上,通常基因功能与多肽链中氨基酸潜在磷酸化位点的多少有很大相关性。利用NetPhos程序对HrWRI1蛋白磷酸化位点的数量进行预测,若Poential值大于Threshold值,那么存在磷酸化位点,相反则不存在。结果(图6)表明,HrWRI1蛋白有29个Ser、9个Thr、1个Tyr可能成为磷酸化位点。

2.7 HrWRI1基因的功能预测

通过在线工具ProtFun 2.2 Server进行了功能的预测分析,结果如表2所示。由表2可知,HrWRI1基因的主要功能是调控。

2.8 HrWRI1蛋白的二级结构与三级结构预测分析

蛋白的二级结构只要是指蛋白质多肽链本身的折叠和盘绕方式,是其空间结构预测的基础。通过HNN Methods对沙棘WRI1蛋白二级结构进行预测,结果如图7所示,发现该蛋白中存在248个无规则卷曲(Random coil)占61.85%、97个α-螺旋(Alpha helix)占24.19%、56个伸展链(Extended strand)占13.97%。将氨基酸序列提交SWISS-MODEL,得到蛋白质的三维结构,如图8所示。

2.9 HrWRI1同源蛋白序列比对及进化树分析

对HrWRI1进行BLASTP同源序列搜索,发现其与陆地棉(Gossypium hirsutum)、胡杨(Populus euphratica)、蓖麻(Ricinus communis)、麻风树(Jatropha curcas)、山杏(Prunus sibirica)具有很高的同源性。多重序列比对结果如图9所示,氨基酸序列存在一定范围的相对保守的重叠区,重叠区主要集中在2个保守的AP2/EREBP结构域区域,并且两个结构域之间的序列也相对保守。

根据氨基酸的多序列比对,构建系统发育树(图10)。发育树分为两丛,沙棘的cDNA编码的蛋白质与同为蔷薇目的山杏(Prunus sibirica) 的亲缘关系最近,说明可能具有类似的功能,而与无油樟(Amborella trichopoda)、亚麻荠(Camelina sativa)和欧洲油菜(Brassica napus)的亲缘关系比较远。同时,同为大戟科的麻风树和蓖麻聚到了一组,这与植物分类学上的分类是一致的。

3 讨论

随着生物信息学和分子生物学不断的深入研究,通过基因工程的方法来改变种子的代谢途径已成为可能。目前,在拟南芥[10],油菜[11],大豆[12]等植物中已经有关于WRI1基因的相关报道,发现WRI1是AP2/EREBP类转录因子家族中的一员,转录因子WRI1的靶基因主要参与脂肪酸合成和糖酵解,因而其对植物的胚胎l育、种子油脂积累及相关代谢活动具有调节作用。另外,在水稻、蓖麻、杨树、葡萄等植物中也发现了WRI1类似基因,所以WRI1基因有可能成为一种新的改良种子含油量的目标基因[4],但对于沙棘来说,相关的研究报道比较少。目前对沙棘油的报道中,主要集中在对沙棘油的萃取方法、生化成分的分析以及其药用价值等方面,所以在建立沙棘转录组数据库的前提下,选取HrWRI1基因作为目标基因通过生物信息学知识进行了分析预测,这与传统的实验室生物学研究相比,具有低成本、高效率的优点。但是为了获取更准确的研究结果,就必须在一定程度上进行实验室克隆验证,因此关于HrWRI1基因的分子克隆和功能鉴定有待于进一步的试验和研究。

参考文献:

[1] 齐虹凌,于泽源,李兴国.沙棘研究概述[J].沙棘,2005,6(2):37-41.

[2] 丁 霄,杨淑巧,许 琦,等.转录因子WRI1在主要作物中的研究进展[J].分子植物育种,2015,13(3):697-701.

[3] 阮成江,李代琼.不同品种沙棘含油量及生化成份研究概况[J].陕西林业科技,1999(1):59-63.

[4] 鲁亚萍,刘风珍,万勇善.花生转录因子WRI1基因特征的in silico分析[J].分子植物育种,2012(3):363-370.

[5] 李旭娟,刘洪博,林秀琴,等.甘蔗KNOX基因(Sckn1)的电子克隆及生物信息学分析[J].基因组学与应用生物学,2015(1):136-142.

[6] 秦丹丹,许甫超,董 静,等.大麦MBF1基因的电子克隆与生物信息学分析[J].湖北农业科学,2014,53(21):5276-5281.

[7] 丁 帅,熊 勇,李正涛,等.rbcL基因电子克隆及生物信息学、适应性进化分析[J].种子,2015,34(10):24-30.

[8] LI JB,LUAN YS.Molecular cloning and characterization of a pathogen-inuced WRKY transcription factor gene from late blight resistant tomato varieties Solanum pimpinellifolium L3708[J].Physiological and Molecular Plant Pathology,2014,87:25-31.

[9] 谭 琳,康由发,郑晓燕,等.香蕉MYB转录因子基因的电子克隆及生物信息学分析[J].广东农业科学,2015(4):123-128.

[10] 吴晓梅,吴雄熊,陈明训.拟南芥WRI1基因的克隆及其植物反义载体的构建[J].江苏农业科学,2010(3):68-69,79.

生物信息学分析范文5

关键词:兰花;eIF5A;基因家族;进化分析

中图分类号:S682文献标识码:A文章编号:1008-0384(2017)11-1218-06

真核翻译起始因子5A(Eukaryotictranslationinitiationfactor5A,eIF5A)是一类普遍存在于真核生物细胞中、分子质量为16~18kDa的高度保守小分子蛋白质;是迄今为止发现的唯一含有羧腐胺赖氨酸(Hypusine)残基的蛋白质[1-2]。Hypusine是由eIF5A蛋白翻译后特定位置的赖氨酸在脱氧羧腐胺赖氨酸合酶(DHS)和脱氧羧腐胺赖氨酸羟化酶(DOHH)的作用下形成的。eIF5A前体没有活性,每个成熟eIF5A仅含有1个Hypusine残基,该残基是eIF5A行使生物学功能所必需的[3]。

1976年,Kemper等从兔子内质网膜上分离出eIF5A[4],生化分析表明eIF5A主要功能是促进第一步甲硫氨酸的合成,故此认为eIF5A在蛋白翻译起始阶段起重要作用[5]。植物eIF5A的研究起步较晚,2004年,Thompson等从模式植物拟南芥中分离出3个AteIF5A基因[6]。后续的研究表明AteIF5A1参与次生木质部的形成,超量表达AteIF5A1的转基因拟南芥木质部增大[6-7]。AteIF5A2主要在拟南芥受机械损伤的组织中高水平表达,其能够抑制由伏马毒素B1和黑暗引起的細胞凋亡[6,8]。AteIF5A3主要在拟南芥种子中表达,超量表达AteIF5A3的转基因拟南芥的叶子变为并生叶、种子变大、同时能够响应高盐、干旱以及渗透等多种胁迫[6,9]。

2014年11月24日小兰屿蝴蝶兰Phalaenopsisequestris(Schauer)Rchb.f.的全基因组以封面文章的形式在NatureGenetics杂志公开发表[10],为后续通过生物信息学挖掘、鉴定和分析兰花基因组奠定了相关基础。本研究从兰花基因组数据库出发,重点分析兰花eIF5A基因家族基因结构、编码蛋白的保守基序和潜在的磷酸化位点等,为进一步研究兰花eIF5A蛋白的生物学功能以及其磷酸化修饰提供重要信息。

1材料与方法

11兰花eIF5A基因家族基因组、cDNA和蛋白序列的获得

拟南芥Arabidopsisthaliana的eIF5A基因及其推导的蛋白序列来自TAIR数据库(http://arabidopsis.org);毛果杨Populustrichocarpa的eIF5A基因及其推导的蛋白序列下载自phytozome数据库(https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Ptrichocarpa);美洲黑杨Populusdavidiana和小麦Triticumaestivum的eIF5A蛋白序列来自NCBI数据库(https://ncbi.nlm.nih.gov/)。

分别以拟南芥AteIF5A1(AT1G13950)、AteIF5A2(AT1G26630)、AteIF5A3(AT1G69410)、小麦TaeIF5A1(AAZ95171)、TaeIF5A2(AAZ95172)和TaeIF5A3(AAZ95173)蛋白序列为参比序列,利用OrchidBase数据库中Blast程序进行BlastP检索,检索结果的全序列E值大于e50的舍去,再利用美国国家生物技术信息中心提供的在线CDS(Conserveddomainsearch)程序(http://ncbi.nlm.nih.gov/cdd)预测这些蛋白有无DNA结合寡核苷酸结合结构域,同时具有这2个特征的蛋白序列属于eIF5A基因家族。

12兰花eIF5A基因家族基因结构分析

利用OrchidBase数据库,获取兰花P.equestris中eIF5A基因家族成员基因注释,根据各成员的内含子和外显子的大小和数目,用手绘制其各自基因结构示意图。

13

兰花eIF5A基因家族二级结构及跨膜区结构预测

利用在线ClustalOmega(http://ebi.ac.uk/Tools/msa/clustalo/)对eIF5A基因家族各成员编码蛋白的氨基酸相似性进行分析[11],利用在线二级结构预测软件SOPMA(https://npsaprabi.ibcp.fr/cgibin/npsa_automat.pl?page=npsa_sopma.html)对兰花P.equestriseIF5A蛋白的α螺旋、β折叠、β转角和无规则卷曲等二级结构进行分析[12]。利用在线软件TMHMMServerv.20(http://cbs.dtu.dk/services/TMHMM20/)对兰花(P.equestris)eIF5A蛋白的跨膜区结构进行预测分析[13]。

14兰花eIF5A基因家族保守基序分析

应用在线软件MEME(http://meme.nbcr.net/meme/cgibin/meme.cgi),对小麦、拟南芥、美洲黑杨、毛果杨和兰花eIF5A蛋白的保守基序进行分析[14]。

15兰花eIF5A蛋白三级结构预测

应用在线三级结构预测软件SwissModel(https://swissmodel.expasy.org/),选取其自动建模功能对兰花P.equestriseIF5A蛋白质的空间结构模型进行同源建模分析[15]。

16兰花eIF5A蛋白系统进化树的构建

利用ClustalX(20)[16]软件对鉴定出所有兰花eIF5A蛋白、3个拟南芥eIF5A蛋白[6]、4个毛果杨eIF5A蛋白[17]、4个美洲黑杨eIF5A蛋白[9]和3个小麦eIF5A蛋白[18]进行多重序列比对,使用MEGA60[19]软件,采用邻接(neighborjoining,NJ)算法构建系统进化树,进行1000次Bootstrap抽样。

17兰花eIF5A基因家族编码蛋白磷酸化位点预测

利用NetPhos31Server在线软件[20](http://cbs.dtu.dk)对鉴定出所有兰花eIF5A蛋白序列进行磷酸化位点预测,所有参数都选用程序默认值。

2结果与分析

21兰花eIF5A基因家族的鉴定和命名

分别以3个拟南芥eIF5A蛋白和3个小麦eIF5A蛋白序列为参比序列,利用OrchidBase数据库提供的BlastP程序进行检索,共得到了3个兰花候选eIF5A基因。利用CDS程序验证特异性保守结构域(PLN03107)的存在,初步确定了2个兰花eIF5A基因。根据通用植物基因的命名方法,对鉴定到的2条eIF5A基因进行了命名,并统计了它们对应的定位名称、基因长度、位置以及对应的推导蛋白长度和外显子个数等,他们推导的蛋白质长度分别为159个氨基酸和201个氨基酸(表1)。兰花eIF5A基因家族成员分别含有4个和5个内含子,且内含子的长度远大于外显子的长度(图1)。

利用在线ClustalOmega对兰花eIF5A1和eIF5A2基因推测编码蛋白的氨基酸相似性进行分析表明,PeeIF5A1和PeeIF5A2蛋白的相似性高达9245%。利用在线二级结构预测软件SOPMA对PeeIF5A1和PeeIF5A2蛋白的α螺旋、β折叠、β转角和无规则卷曲等二级结构进行分析。分析表明:蘭花eIF5A蛋白中无规则卷曲的比例最高(4030%~4214%),其次为α螺旋(2488%~2893%),再次为β折叠(1950%~2438%),β转角最低(943%~1045%)(表2)。利用在线软件TMHMMServerv.20对兰花eIF5A蛋白的跨膜区结构进行分析,结果显示:兰花eIF5A蛋白均不含有跨膜区(图2)。

23兰花eIF5A基因家族保守基序分析

利用在线软件MEME对3个小麦TaeIF5A蛋白序列、3个拟南芥AteIF5A蛋白序列、4个毛果杨PtreIF5A蛋白序列、4个欧洲山杨PdeIF5A蛋白序列和2个兰花PeeIF5A蛋白序列保守基序进行分析,结果表明兰花PeeIF5A蛋白序列中均包含有基序1(相似度为73e645)(图3)。

24兰花eIF5A基因家族三级结构分析

利用SwissModel对兰花eIF5A蛋白进行同源建模(图4),兰花eIF5A蛋白最终形成的三级结构在空间结构差别较大,暗示兰花eIF5A蛋白在特定的环境及时空中具有各自特异的生物学功能。

25兰花eIF5A基因家族蛋白相似性和系统进化分析

利用进化树分析软件MEGA60对2个谷子eIF5A蛋白、3个小麦eIF5A蛋白、3个拟南芥eIF5A蛋白、4个毛果杨eIF5A蛋白和4个美洲黑杨eIF5A蛋白全蛋白序列进行进化分析。结果显示:这16个eIF5A蛋白基本上按照物种聚类在一起,同属于杨属的毛果杨和欧洲山杨eIF5A蛋白高度同源且一一对应。单子叶植物小麦和兰花eIF5A蛋白并没有聚类到一起;双子叶植物拟南芥、毛果杨和欧洲山杨也没有聚类到一起(图5)。

26兰花eIF5A基因家族蛋白磷酸化位点预测

利用在线软件NetPhos31Serverl对PeeIF5A1和PeeIF5A2蛋白进行磷酸化位点预测,结果显示PeeIF5A1和PeeIF5A2蛋白中分别存在15个和22个丝氨酸、苏氨酸及酪氨酸潜在磷酸化位点,预测磷酸化位点主要是以丝氨酸的形式存在,其次是苏氨酸,络氨酸的磷酸化位点最少(表3)。预测PeeIF5A1潜在磷酸化位点中存在6个丝氨酸、7个苏氨酸和2个酪氨酸位点。PeeIF5A2潜在磷酸化位点中存在13个丝氨酸、7个苏氨酸和2个酪氨酸位点(图6)。

3讨论与结论

本研究鉴定兰花eIF5A基因家族含有2个成员,而已鉴定的拟南芥[6]、毛果杨[17]、美洲黑杨[9]和小麦[18]eIF5A基因家族分别含有3、4、4、3个成员,这说明在植物进化过程中,eIF5A基因可能经历了不断发生谱系的特异扩张和拷贝丢失。兰花eIF5A基因家族的2个成员分别含有5个和6个外显子,均含有1个保守的DNA结合寡核苷酸结合结构域(PF01287),这表明eIF5A基因家族的高度保守性,推测eIF5A蛋白在植物诸多生理过程中起着类似作用。不同植物中eIF5A基因家族含有的成员数目存在差异,推测不同植物的各成员在特定组织参与不同的生理过程。

目前,eIF5A基因家族各成员确切的功能分析主要集中在拟南芥和杨树等模式植物中。近年来,伴随着植物基因组学、生物信息学等新兴学科的兴起,大量的eIF5A基因从不同植物中克隆出来,部分林木eIF5A基因成功克隆且功能也得到初步分析。毛果杨和欧洲黑杨之间的eIF5A基因间是一一对应关系,而兰花eIF5A基因并没有表现出与之相对应的关系,表明尽管是高度保守的基因家族在经过长期进化,同属杨属的毛果杨和美洲黑杨eIF5A基因还未发生分离,而与其他植物发生了分离。单子叶植物小麦和兰花eIF5A蛋白并没有聚类到一起;双子叶植物拟南芥、毛果杨和欧洲山杨也没有聚类到一起,据此推测植物eIF5A蛋白并不能简单按照单子叶植物和双子叶植物进行区分。与兰花PeeIF5A1和PeeIF5A2同源性较高的AteIF5A1在拟南芥中参与次生生长过程[6-7]。与毛果杨PtreIF5A2和欧洲山杨PdeIF5A2高度同源的毛白杨PtoeIF5A2主要响应了高盐(300mmol·L-1)等非生物胁迫[21]。而与毛果杨PtreIF5A4和欧洲山杨PtreIF5A4高度同源的毛白杨PtoeIF5A4在林木次生生长中起关键作用[22]。因此不能简单推测兰花PeeIF5A1和PeeIF5A2的生物学功能,其各成员确切的生物学功能还需要逐一进行功能验证。

磷酸化分析表明,兰花PeeIF5A蛋白存在大量潜在磷酸化位点。目前,植物eIF5A蛋白确切的生物学功能尚未见报道。Lebska等通过多重序列比对发现玉米ZmeIF5A蛋白存在2个潜在的能被CK2蛋白磷酸化的位点,分别将ZmeIF5A以及这2个潜在的丝氨酸磷酸化位点突变(Ser2Ala和Ser4Ala)为丙氨酸并进行体外重组蛋白的表达及纯化,只有ZmeIF5ASer2Ala重组蛋白不能被玉米CK2蛋白磷酸化。玉米原生质体瞬时转化发现ZmeIF5A和模拟Ser2不磷酸化的Ser2Ala融合EYFP熒光蛋白均匀地分布在细胞核和细胞质中,而模拟Ser2磷酸化的Ser2Asp融合EYFP荧光蛋白仅在细胞核内表达,表明:玉米ZmeIF5A蛋白中Ser2是决定其进出细胞核的关键位点[23]。兰花PeeIF5A蛋白中潜在的磷酸化位点(尤其是丝氨酸)还需要通过潜在位点的定点突变、体外磷酸化等试验进一步研究和验证。

生物信息学分析范文6

>> 丹参类贝壳杉烯氧化酶(SmKOL)基因全长克隆及其生物信息学分析 红白忍冬SABATH甲基转移酶基因克隆及其生物信息学分析 雷公藤贝壳杉烯酸氧化酶基因的全长cDNA克隆与表达分析 丹参SmNAC1基因的克隆和生物信息学分析 黄芩葡萄糖醛酸水解酶基因的克隆、生物信息学分析及表达 太子参分解代谢关键酶8′羟化酶基因的克隆及生物信息学分析 人组蛋白去乙酰化酶11的克隆表达与生物信息学分析 金铁锁糖基转移酶PtT1的克隆与生物信息学分析 平邑甜茶MhWRKY15基因cDNA克隆及其生物信息学分析 茶陵野生稻冷响应基因OrCr3的克隆及其生物信息学分析 唇形科植物脚6基脚6基焦磷酸合酶编码基因及其氨基酸序列的生物信息学分析 棉铃虫类胰蛋白酶的生物信息学分析 玉米谷胱甘肽过氧化物酶的生物信息学分析 黔北麻羊RERGL基因cDNA克隆与生物信息学分析 小菜蛾p38MAPK基因的克隆与生物信息学分析 高丛越桔UFGT基因电子克隆和生物信息学分析 小菜蛾PxALP1基因的克隆与生物信息学分析 希金斯炭疽菌腺苷酸环化酶生物信息学分析 黄瓜DVR基因的生物信息学分析 FZ6基因及其蛋白的生物信息学分析 常见问题解答 当前所在位置:l)查找开放阅读框(ORF)。生物信息学分析主要采用一些网上软件包进行分析,如采用Interpro (http://ebi.ac.uk/tools/interproscan)进行结构域比对,ExPASy在线服务器的Compute pI/Mw工具(http:///compute_pi/)预测相对分子质量与理论等电点,TargetP1.1 server (http: //cbs.dtu. dk /serv- ices/targetP/)进行信号肽分析,Psort (http://psort.hgc.jp/)及WOLFPSORT (http:///)分析亚细胞定位,TRMHMM server v 2.0 (http:// cbs. dtu.dk/services/TMHMM-2.0/)进行跨膜域分析,Predictprotein (https:///)进行二级结构预测,SWISS-MODEL (http://swissmodel.expasy. org/)进行二级结构分析和结构域的三维同源建模。使用DNAMAN软件对序列进行多重比对,用ClustalW分析软件与其他植物的MCS氨基酸序列进行同源比对,根据分析结果选择17种植物的MCS氨基酸用MEGA 5.1软件构建进化树。

2.4 SmKOL基因的表达分析 取0.1 g毛状根样品采用Trizol试剂盒提取总RNA,用Takara反转录试剂盒反转录成cDNA。其过程为:总RNA模板1 μL(约200 ng),dNTP 1 μL, Radom 6 mers 2 μL,不含RNase的去离子水至10 μL,离心,置于PCR仪上,65 ℃ 5 min,之后冰上急冷。然后加入5×PrimerScript Buffer 4 μL,RNase Inhibitor 0.5 μL,PrimerScript Rtase 1 μL,RNase free H2O 4.5 μL。PCR反应条件为30 ℃ 10 min,42 ℃ 60 min,70 ℃ 15 min,所得cDNA用于Real-time PCR。根据丹参内参β-actin和目标基因SmKOL的核苷酸序列设计引物。其中β-actin上游引物为5′ -AGGAACCACCGATCCAGACA-3′,下游引物为5′ -GGTGCCCTGAGGTCCTGTT-3′;SmKOL上游引物为5′ -GCTTCTGGCAAGGCAATCAAC-3′,下游引物为5′ -CTTTTCCTCGTTGAGTTGGTCG-3′。转录后的cDNA用管家基因引物β-actin进行普通PCR反应,用于反转录质量控制,待目的基因引物及管家基因引物检测合格后,在ABI7300 RT-PCR仪上进行荧光定量检测,反应体系为:5 μL Power SYBR Green PCR Master Mix,0.2 μL引物F,0.2 μL引物R,1.0 μL cDNA,3.6 μL ddH2O。PCR反应条件为95 ℃ 30 s;95 ℃ 5 s;60 ℃ 34 s,40个扩增循环;检测溶解曲线。反应结束后分析荧光值变化曲线和溶解曲线。每个反应重复3次,采用2-ΔΔCT法分析结果。

3 结果

3.1 丹参毛状根SmKOL基因的全长克隆及序列分析 将基因cDNA序列进行Blast比对分析,结果表明测得的片段与其他植物中的KO基因有70%左右的同源性,并有相似的保守区域。将所得的片段进行拼接,获得基因全长序列,共1 884 bp核苷酸,命名为SmKOL,GenBank登录号为KJ606394,DNAMAN软件结合ORF Finder在线软件对SmKOL基因全长cDNA序列进行分析,推测编码519个氨基酸的蛋白质,并含有完整的开放阅读框(open reading frame, ORF),SmKOL基因的开放阅读框位于23~1 582 bp,序列的1~22 bp为5′非翻译区(5′UTR),1 583~1 884 bp为3′非翻译区(3′UTR)。

Blast结果显示SmKOL基因与甜橙Citrus sinensis的KO基因有68%相似, 西洋梨Pyrus communis的KO基因有66%相似、苜蓿Medicago truncatula的KO基因有67%相似、葡萄Vitis vinifera的KO基因有65%相似、拟南芥Arabidopsis thaliana的KO基因有64%相似、粳稻Oryza sativa Japonica Group的KOL基因有57%相似。KOL具有比较保守的结构域,用DNAMAN程序对比葡萄(AFD54196.1)、苜蓿(XP_003637273.1)、西洋梨(AEK01241.1)、粳稻(AAT81230.1)拟南芥(AED93499.1)的氨基酸序列进行多序列比对(图1)。结果表明家族具有较高同源性。使用Interpro结构域比对,结果表明SmKOL具有与IPR001128的Cytochrome P450 domain和IPR017972的Cytochrome P450相同保守位点(图2)。

3.2 KOL氨基酸序列的分子系统进化树分析 将SmKOL与GenBank中的17种植物的17种蛋白进行比对分析,在软件MEGA 5.1上采用相邻链接法构建KOL进化树,进行聚类分析(图3)。SmKOL与阿拉比卡种小果咖啡KOL聚为一类,两者在本文所选蛋白中的亲缘关系最近。

3.3 理化性质和3D结构预测 使用ExPASy在线服务器的Compute pI/Mw工具预测,SmKOL蛋白的相对分子质量为58.88 kDa,等电点pI 7.62。亚细胞定位结果表明可能定位于细胞质或者细胞核。信号肽分析表明为分泌蛋白,前23个氨基酸可能是信号肽,跨膜域分析可能为膜蛋白。SmKOL蛋白的二级结构预测结果显示,α螺旋结构占50.10%、β折叠结构占6.36%、无规则卷曲结构占43.55%。蛋白质的功能很大程度上取决于其空间结构,无规则卷曲结构决定了蛋白质,尤其是酶的功能部位常常位于这种构象区域,而α螺旋主要对蛋白质骨架起稳定作用,通过对蛋白质二级与三级结构预测和分析,有助于理解蛋白质功能与结构的关系[10]。使用Swiss Model进行同源建模,以人Cytochrome P450 2R1蛋白A链(PDB注册号3czh.1.A)作为同源模板,用于建模的氨基酸序列残基为46~511位,序列相似性为23.56%,模型质量得分(GMQE)0.55(图4)。

3.4 SmKOL受茉莉酸甲酯(MeJA)诱导的诱导表达分析 实时荧光定量PCR实验数据结果采用2-ΔΔCT法进行相对定量表达分析,即确定目标基因(SmKOL)和参照基因(β-actin)有相近的扩增效率,就可以确定不同样本中目标基因表达水平的相对差异。不同时段MeJA诱导的丹参毛状根中SmKOL相对表达发现,MeJA能明显诱导丹参毛状根中SmKOL基因mRNA的表达。实验检测了丹参毛状根经MeJA处理12,24,36,120 h后SmKOL基因的诱导表达情况,结果显示经MeJA处理后的SmKOL基因的诱导表达水平在0~36 h逐渐升高,在36 h时达到最大值,随后120 h时SmKOL基因的表达量下降(图5)。

4 讨论

由于丹参毛状根具有遗传稳定性高、产率高等优点,近年来常应用于次生代谢产物的生产。本研究首次从丹参毛状根中克隆得到了赤霉素代谢途径上的KOL基因,获得含有完整ORF的基因全长,并利用生物信息学的方法对其核酸及其推测的蛋白序列组成进行分析。结果表明,该基因与其他物种中的KO基因有较高的同源性,命名为SmKOL,它具有Cytochrome P450 domain,这在所有的家族成员中都是保守的。

同时,SmKOL基因诱导表达结果表明,经诱导子MeJA诱导后,SmKOL的mRNA表达量逐渐上调,在36 h达到最大值,之后表达量下降。随着丹参赤霉素生物合成途径中基因的不断挖掘,为在分子水平上认识赤霉素合成途径中的编码基因、调控方式、酶反应动力学及其代谢调节的分子机制奠定基础[11]。SmKOL基因的克隆为进一步研究该基因的功能和丹参赤霉素生物合成及其次生代谢调控机制提供了靶基因。

[参考文献]

[1] Ogawa M, Kusano T, Koizumi N, et al. Gibberellin-responsive genes: high level of transcript accumulation in leaf sheath meristematic tissue from Zea mays L[J]. Plant Mol Biol, 1999, 40(4): 645.

[2] 虞慧芳, 曹家树, 王永勤. 植物矮化突变体的激素调控[J].生命科学,2002, 14(2):85.

[3] Wang Q, Hillwig M L, Wu Y S, et al. CYP701A8: a rice ent-kaurene oxidase paralog diverted to more specialized diterpenoid metabolism[J]. Plant Physiol, 2012, 158(3): 1418.

[4] 李节法, 田义轲, 王彩虹, 等. 梨贝壳杉烯氧化酶基因PpKO的克隆及生物信息学分析[J]. 园艺学报, 2012, 10: 1575.

[5] Miyazaki S, Katsumata T,Natsume M, et al. The CYP701B1 of Physcomitrella patens is an ent-kaurene oxidase that resists inhibition by uniconazole-P[J]. FEBS Lett, 2011, 585(12): 1879.

[6] Lei L, Fan Z R, Tang L, et al. Molecular cloning and identification of tissue-specific expression of ent-kaurene oxidase gene in Momordica charantia[J]. Afr J Biotechnol, 2011, 10(70): 15724.

[7] Ko K W, Lin F Q, Katsumata T, et al. Functional identification of a rice ent-kaurene oxidase, OsKO2, using the pichia pastoris expression system[J]. Biosci Biotechnol Biochem, 2008, 72(12): 3285.

[8] Song J, Guo B J, Song F W, et al. Genome-wide identification of gibberellins metabolic enzyme genes and expression profiling analysis during seed germination in maize[J]. Gene, 2011, 482(1-2): 34.

[9] Morrone D, Chen X M, Coates R M, et al. Characterization of the kaurene oxidase CYP701A3, a multifunctional cytochrome P450 from gibberellin biosynthesis[J]. Biochem J, 2010, 431: 337.

[10] Zhou X Y, Li J Y, Fan Z Q. Cloning and expression analysis of chalcone isomerase gene cDNA from Camellia nitidissima[J]. Forest Res, 2012, 25: 93.

[11] 谈心, 马欣荣. 赤霉素生物合成途径及其相关研究进展[J]. 应用与环境生物学报,2008, 14(4): 571.

Cloning and bioinformatics analysis of ent-kaurene oxidase

synthase gene in Salvia miltiorrhiza

HU Ya-ting1, GAO Wei2, LIU Yu-jia2, CHENG Qi-qing2, SU Ping2, LIU Yu-zhong1, CHEN Min1*

(1. State Key Laboratory of Dao-di Herbs, National Resource Center for

Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100700, China;

2. School of Traditional Chinese Medicine, Capital Medical University, Beijing 100069, China)

[Abstract] Based on the transcriptome database of Salvia miltiorrhiza, specific primers were designed to clone a full-length cDNA of ent-kaurene oxidase synthase (SmKOL) using the RACE strategy. ORF Finder was used to find the open reading frame of SmKOL cDNA, and ClustalW has been performed to analysis the multiple amino acid sequence alignment. Phylogenetic tree has been constructed using MEGA 5.1. The transcription level of SmKOL from the hairy roots induced by elicitor methyl jasmonate (MeJA) was qualified by real-time quantitative PCR. The full length of SmKOL cDNA was of 1 884 bp nucleotides encoding 519 amino acids. The molecular weight of the SmKOL protein was about 58.88 kDa with isoelectric point (pI) of 7.62. Results of real-time quantitative PCR analyses indicated that the level of SmKOL mRNA expression in hairy roots was increased by elicitor oMeJA,and reached maximum in 36 h. The full-length cDNA of SmKOL was cloned from S. miltiorrhiza hairy root, which provides a target gene for further studies of its function, gibberellin biosynthesis and regulation of secondary metabolites.

生物信息学分析范文7

一、基于信息技术环境的高中生物探究式教学现状

1.课程信息量与课时不符

在新课程改革之后,高中生物教材内容有了一些形式上的改变,不但内容更加丰富,连整个版面设计上也更符合现今的高中生物教学,但是若根据如今的高中生物教材开展探究式教学的话,教师只能进一步扩大教学课时,否则很有可能完不成教学任务。

2.教师教学水平有待提高

探究式教学与其他教学模式大不相同,因其能够充分调动学生的学习积极性,提高学生的探究意识和学习能力,但在实际教学过程中,往往因为教师自身教学水平不高的原因、对于探究式教学方式的认识不够深入、不采用现代化教学手段,使整个高中生物探究式教学过程变得枯燥无比,学生根本没有参与兴趣。

二、基于信息技术环境的高中生物探究式教学改进意见

1.合理规划教材内容

虽然新课程改革之后高中生物教材内容作出了一定的改变,但是若教师合理规划教材内容,找出适合学生深入探究的生物知识,那么既不会耽误教学进度,又能够提高教学质量。教师应对生物教材内容进行分析,找出内容有关联的生物知识,利用多媒体教学设备,采用套入式的方法让学生进行探究,并且要合理规划学生的探究时间,这样才能实现探究式教学的意义。

2.提高教师教学水平

要想提高教师教学水平,使探究式教学更加顺利地被应用在高中生物教学中,需要采用一定的辅教学手段,在信息技术环境下的高中生物探究式教学过程中,教师可以适当采用多媒体教学设备为学生设计探究内容,使学生对探究式教学更有参与兴趣。

3.结合高考试题教学

生物信息学分析范文8

【关键词】酵母; 转录因子; 结合位点;保守性;生物信息学

真核基因的表达调控可在多个层次上进行,但主要表现在对基因转录活性的调控上[1]。转录因子与对应DNA序列结合调控其目标靶基因的表达是基因表达调控的核心问题,因此转录水平的调控是真核基因表达最基本的调控方式[2]。转录因子不但可以结合在DNA序列上调控基因转录的起始,同时也可以招募组蛋白修饰酶,对转录因子结合位点附近的组蛋白进行修饰,而组蛋白修饰又可以促进DNA与转录因子的结合,还可能产生新的转录因子结合位点。正是由于不同发育阶段特异、细胞特异的反式作用因子与相应DNA调节元件的结合,导致了基因的差异表达[3]。

本研究以真核模式生物酵母的转录因子为研究材料,从酵母基因组的数据库SGD里提取转录因子结合位点的数据。研究结果将为为更加准确的预测真核生物转录因子结合位点提供数据支持,并且为更深入的解析真核生物转录调控网络奠定理论基础。

1材料与方法

1.1通过SGD数据库获得结合位点数据

酵母基因组数据库SGD 是已经完成基因组全序列测定的啤酒酵母基因组数据库, 包括啤酒酵母的分子生物学及遗传学等大量信息。从文献所报道的117个转录因子及其所调节的基因中,选取转录因子调控基因数目最多的两个转录因子Sok2、Swi4,研究其结合位点保守性。

1.2一致性序列选取

转录因子的一致性序列分别确定为:Sok2 TGCAGNNA(SGD);Gcn4 TGACTCA(TRANSFAC);对于转录因子Swi4有特殊处理,因为其常见结合一致性序列为CAAGAAAA和CGCSAAA(SGD),并且SGD数据里所给转录因子Swi4在TSS上游的结合位点为九位。

1.3转录因子结合位点保守性分析

1.3.1位置权重矩阵

1.3.1位置权重矩阵

本研究根据位置权重矩阵的思想,利用matlab 7.0 编写程序对所选取的每个转录因子所有结合位点实例片段进行不加入空位的比对,统计每个位点上四个碱基出现的频数。根据矩阵模型的原则,构建位置频率矩阵,再通过转换构建位置概率矩阵,最终构建位置权重矩阵。给定已知的N条转录因子结合位点,构建矩阵的目的就是要求所建的矩阵能够很好地区分出真正的转录因子结合位点序列和非转录因子结合位点序列,因此需要对构建的矩阵模型中的矩阵元进行权重。将位置概率矩阵PPM进行变换,构建位置权重矩阵(position-specific weight matrix) PWM:

1.3.2 转录因子结合位点的保守性统计

根据研究需要本研究改进了参量的数据,引入新的参量fib,以四种碱基在啤酒酵母基因中出现的实际频率作为P0b背景序列碱基出现的概率,对转录因子结合位点单个位点碱基保守性的参量进行修改,保守性的定义如下

M=■■方程(1-1)中fib是N条转录因子结合位点序列中碱基b在位置i中出现的实际频数,当某一位点碱基随机选取时,则每一种碱基b出现的频率应该为fib/N,碱基b的背景频率为P0b,fib/N-P0b是此位点某一碱基频率与随机选取这一碱基频率的差值。

2结果

2.1 转录因子在基因上游不同区域位置权重矩阵结果分析四个转录因子在TSS上游不同区间的位置权重矩阵用一致性序列打分的结果分析:S值(权重矩阵打分结果)并没有随距离的增加有明显规律变化。转录因子Cbf1与Swi4的S值都在TSS上游200~300 bp取最高值,而Gcn4在TSS上游100~200 bp取最高值。其中除Sok2,其它转录因子在TSS上游800 bp结合位点由于样本过小,均小于5,这些区域的S值可信度较低,所以省略不计。

2.2 Sok2 保守性分析结果通过对数据库SGD的搜索统计发现转录因子Sok2集中分布在基因上游200~1400 bp,(其它区域结合位点数都小于5,所以忽略不计)。统计Sok2结合的八个位点在基因上游不同区域保守性变化。

2.3 Swi4 保守性分析结果通过对数据库SGD的搜索统计发现转录因子Swi4 结合位点集中在TSS上游100~900 bp(其它区域结合位点数都小于5,所以忽略不计)。统计Swi4 结合的七个位点在基因上游不同区域位点的保守性变化。

3讨论

Hippel认为,同一转录因子结合位点在序列组成上常常会存在差异,例如某些位置的碱基发生了替换,而这种替换的发生有时并不影响结合位点与转录因子的识别或结结合。转录因子与DNA序列的特异性结合主要是序列间氢键的相互作用[4]。本研究结果显示:转录因子Sok2、Swi4的结合位点都有替换的发生,但结合位点中每个位点的保守性存在差异。保守性较低的位点,在基因上游各个区间保守性都相对较低,在基因上游各个区间的保守性分布较大,偶有较大的值出现如Sok2[5]。然而,转录因子结合位点中存在非常保守的位点,一旦这些位点发生替换,就会极大的降低转录因子与结合位点的亲和力。本研究发掘出两个转录因子Sok2、Swi4结合位点的保守性最强的位点。这些位点在与其专属的转录因子的识别和结合过程中必定发挥着非常重要的作用。

综上所述,本研究采用生物信息学中保守性模体方法对酵母中两种转录因子的保守性进行分析。本研究结果能够极大提高酵母中转录因子结合位点预测的准确性,为深入研究真核生物转录因子与其结合位点的协同进化、及真核生物的转录水平调控模式奠定理论基础。

参考文献

[1] Guarente L, McDonogh O B. Conservation and evolution of transcriptional mechanisms in eukaryotes [J]. TrendsGenet, 1992, 8:27-32.

[2]Winston F. Control of eukaryotic transcription elongation [J]. Genome Biol.?2001, 2:2

[3]Kornberg R D. The molecular basis of eukaryotic transcription [J]. PNAS, 2007, 104 (32): 12955-12961

[4]Goodrich J A and Kugel J F. Genome-wide insights into eukaryotic transcriptional control[J]. Genome Biol, 2010, 11:305

[5]Casamassimia A and NapoliMediator C. complexes and eukaryotic transcription regulation[J]. Biochimie, 2007, 89(12): 1439-1446

作者简介:

沈霞,女,(1979-),陕西西安人,博士,讲师,研究方向:生物信息学

基金项目:国家自然科学基金(NO:81072731)

生物信息学分析范文9

关键词:桑树;WRKY转录因子;密码子使用偏性;系统进化;生物信息学

0引言

[研究意义]WRKY转录因子家族是仅存于高等植物中的一类锌指蛋白,参与植物的生长发育,能对环境胁迫和病原侵染作出响应。首先,WRKY转录因子蛋白在植物免疫反应中发挥重要作用,是植物免疫系统各通路的中心组件,包括MTI、PTI、ETI、基本防御及系统获得抗性(Birkenbihletal.,2016)。其次,WRKY转录因子在植物的应激反应中也起关键作用,其网络涉及生物和非生物胁迫的各组成部分(Eulgem,2006;Zhuetal.,2013)。WRKY转录因子家族基因过表达能增強植物对盐和干旱胁迫的耐受性,同时增强抗病性(OiuandYu,2009)。此外,WRKY转录因子还在植物种子发芽、衰老及其他发育反应中发挥重要作用(Rushtonetal.,2010;Verweijetal.,2016)。密码子使用偏性是指各种生物体偏爱使用三联密码子(编码相同氨基酸的同义密码子)的现象,普遍存在于生物界中,且物种的亲缘关系越近密码子使用偏性越相似;密码子使用偏性还与基因表达、蛋白质功能等密切相关。因此,研究密码子使用偏性对开展基因进化压力研究、基因表达水平预测及外源基因改良等均具有重要意义。[前人研究进展]WRKY转录因子家族含有60个高度保守的氨基酸WRKY功能域,包含N端的WRKYGQK保守的氨基酸和C端非典型的锌指结构(Rushtonetal.,2010)。根据WRKY结构域数量和锌指结构氨基酸组成的不同,可将WRKY转录因子家族蛋白分为三大类:第1类含有2个WRKY结构域,具有Cys2-His2型(CX46CX22-23HX1H)锌指结构;第Ⅱ类和第Ⅲ类仅含有1个WRKY结构域,其中第Ⅱ类的锌指结构与第1类的类似,第Ⅲ类的锌指结构为Cys2-His-Cys型(CXvCXE3HTC),根据保守氨基酸残基的差异,第Ⅱ类又可分为5个亚类(Eulgemetal.,2000)。至今,已有多种植物WRKY转录因子家族基因被鉴定(Wuetal.,2005;Rossetal.,2007;Lingetal.,2011;HuangetaL,2012;DmgetaL,2015;Songetal,2016;Zhangetal.,2016),并证实WRKY转录因子家族参与植物的多种生理生化过程,包括衰老(zhangetal.,2016)、纤维发育(Dingetal.,2015)、生物和非生物胁迫(Songetal.,2016;Weietal.,2016)等。不同物种或同一物种不同基因问的密码子使用偏性不同,与基因在进化过程中所面对的选择压力不同有关。物种在进化过程中受基因突变压力和自然选择压力的双重影响,但由于二者在基因进化过程中所发挥作用的权重不同,导致密码子使用偏性具有物种特异性(赵洋等,2016;曲俊杰等,2017)。密码子使用偏性与GC含量有关时表示受突变压力影响(Chenetal.,2004),与翻译过程有关时表示受正向选择压力影响(Sharpetal.,2010)。因此,通过优化密码子可提高外源基因在寄主细胞中的表达水平(周宗梁等,2012;Zelaskoetal.,2013)。[本研究切入点]桑树(Morusnotabilis)是一种常见的落叶乔木,其叶片是桑蚕的主要饲料,桑皮可用作造纸原料,桑果可供食用或酿酒,在我国多个省份均有栽培,但目前针对桑树WRKY转录因子基因及其蛋白的研究鲜见报道。[拟解决的关键问题]在桑树基因组测序工作的基础上,利用生物信息学方法全面预测分析桑树基因组中WRKY转录因子家族结构及其功能特征,为进一步揭示WRKY转录因子家族生物学功能提供科学依据。

1材料与方法

1.1蛋白序列获取与鉴定

桑树全基因组蛋白序列从GenBank数据库中搜索获得,以拟南芥WRKY转录因子蛋白序列为探针,在桑树全基因组蛋白数据库中进行BLASTp同源序列比对分析,通过NCBI在线工具CDD(https://ncbi.nlm.nih.gov/cdd)和Pfam数据库(http://pfam.xfam.org/)进行蛋白结构域分析,并剔除无WRKY结构域的蛋白序列。

1.2基因及其蛋白结构分析

从NCBI中获得桑树WRKY转录因子基因序列和CDS序列,使用基因结构显示系统(http://gsds.cbi.pku.edu.cn/index.php)绘制基因结构示意图;通过MEMESUITE(http://meme-suite.org/tools/meme)預测桑树WRKY转录因子蛋白序列保守氨基酸Motif,参数设为默认值。

1.3基因启动子区特征分析

通过GenBank数据库获取桑树WRKY转录因子家族基因转录起始位点上游的2kb序列,以JASPAR(http://iaspar.genereg.net/)数据库分析启动子区富含转录调控基序。选择植物启动子基序数据库作为搜索数据库,相对阈值分数选择100%。

1.4蛋白系统进化分析

所有桑树WRKY家族蛋白通过Clustalx进行比对分析,选取WRKY和锌指结构域保守序列,采用MEGA5.0中的NJ(Neighbor-jioining)法构建系统发育进化树,参数选择Bootstrap为1000。系统发育进化树的绘制与优化使用Itol在线工具(http://itol.embl.de/)完成。

1.5基因密码子使用偏性分析

利用CodonW1.4.4对桑树WRKY转录因子家族基因CDS序列密码子的使用偏性进行分析,包括密码子适应指数(CAI)、有效密码子数(ENC)、密码子第3位GC含量(GC3s)和平均亲水性值(Gravy)等参数。以GC3s为横坐标、ENC为纵坐标绘制ENC-plot图谱。图谱中的曲线为ENC预期值,表示密码子使用偏性仅由碱基组成决定,计算公式为:ENC=2+GC3s+29/[GC3s2+(1-GC3s)2]。分布点越靠近标准曲线表示密码子使用偏性受碱基突变影响越大,越远离标准曲线表示密码子使用偏性受自然选择影响越大。使用EMBOSSexplorer网站(http://emboss.toulouse.inra.fr/)在线软件Cusp对同义密码子的相对使用度(Relativesynonymouscodonusage,RSCU)进行分析。

2结果与分析

2.1桑树WRKY转录因子家族成员鉴定及其序列分析结果

基于桑树全基因组蛋白数据库,经BLASTp同源搜索和SMART保守结构域鉴定,共获得55个桑树WRKV~录因子基因(表1),占桑树基因总数(29261)的1.88%。其中,蛋白氨基酸残基数小于300aa的基因序列占24%,介于300-650aa的基因序列占71%,大于650aa的基因序列占5%。

桑树WRKY转录因子家族基因存在6种内含子数量类型(图1)。其中,有27个基因含有2个内含子,为数量最多的类型;有10个基因含有4个内含子;WRKY9基因的内含子数量达14个,为内含子数量最多的类型。桑树WRKY转录因子家族基因内含子相位类型有15种,呈多样性。其中,有25个基因的内含子相位为2-2型,是基因数量最多的类型;有6个基因的内含子相位为2型。进化组Ⅰ和进化组Ⅱc中的基因内含子数量和相位类型较多样,说明组内基因来源较复杂;进化组Ⅱa、进化组Ⅱb、进化组Ⅱd、进化组Ⅱe和进化组Ⅲ中的基因结构和内含子相位类型高度一致,内含子相位为2—2型,可能是由同一祖先基因复制而来。

2.2桑树WRKY家族蛋白的系统进化分析结果

利用MEGA5.05对72个拟南芥WRKY转录因子蛋白和55个桑树WRKY转录因子蛋白的保守结构域序列进行系统进化分析,结果显示,桑树WRKY转录因子蛋白主要分为三大类(Ⅰ、Ⅱ和Ⅲ),其中,第Ⅰ类根据WRKY保守结构域处于N端或C端,可分为ⅠN和ⅠC两个亚组;第Ⅱ类根据聚类情况又可分为Ⅱa、Ⅱb、Ⅱc、Ⅱd和Ⅱe等5个亚组(图2)。但MnWRKY49和MnWRKYlC未归入以上分组。

2.3桑树WRKY转录因子蛋白保守结构域分析结果

使用MEMESUITE对桑树WRKY转录因子保守氨基酸Motif进行分析,结果发现有五类Moti啪保守性较强,其正则表达式如图3所示。其中,Motif1是WRKYMotif,在桑树WRKY转录因子家族中高度保守;Motif3为进化组IN端的WRKY保守结构域;Motif2为锌指结构,仅MnWRKY28、MnWRKY43和MnWRKY54缺少该结构域。55个WRKY转录因子蛋白均具有Motif1,所有I类基因蛋白均具有Motif1和Motif3。Motif4为未知结构域,Motif5为LXsLXgLX3L基序,类似LRR结构域,进化组I、进化组Ⅱa和进化组Ⅱc的基因蛋白结构包含Motif4,进化组Ⅱa、进化组Ⅱb和进化组Ⅲ的基因蛋白结构包含Motif5。部分桑树WRKY转录因子保守结构域和锌指结构存在变异,如进化组Ⅱc中MnWRKY50和MnWRKY51的保守结构域为WRKYGKK,MnWRKY28和MnWRKY54的锌指结构缺少CX.sCX22.23部分,进化组Ⅲ中MnWRKYl9和MnWRKY23的锌指结构分别为CX7CX23HRC和CX7CX23HIC,保守氨基酸残基发生变异。

2.4桑树WRKY转录因子家族基因启动子区特征分析结果

桑树WRKY转录因子家族基因启动子区均含有PBF结合元件(AAAGC),每个基因启动子平均含有4.8个元件(表2),PBF属于Dof家族C2H2锌指因子类,有助于bZIP转录因子结合DNA(Vicente-Carbaiosaetal.,1997);另外两种C2H2锌指因子类(DOF2.4和DOF5.3)含量也较高。55个桑树WRKY转录因子家族基因中有28个基因的启动子区含有AHL20结合元件(AATTAAAT),AHLl2与AHL20转录因子均属于拟南芥hook因子,能特异性结合与核基质附着相关且富含AT的DNA序列,通过下调PAMP引发的NH01和FRKl可负调控植物对病原菌的先天性免疫作用(Luetal.,2010)。此外,部分桑树WRKY转录因子家族基因启动子区含有bZIP、ERF、GT-1、MYB、TGA和WRKY转录因子结合序列。

2.5桑树WRKY转录因子家族基因密码子使用偏性分析结果

为了解桑树WRKY转录因子家族基因密码子使用偏性,对ENC、GC3s和Gravy等参数进行分析,结果发现,桑树WRKY转录因子家族基因ENC介于48.00-60.00,GC3s介于0.330-0.722,Gravy均为负值(表3),表明桑树WRKY轉录因子蛋白均为亲水性蛋白,且多数具有强亲水性。

ENC与GC3s的关联分析结果显示,基因分布越靠近ENC-plot图谱标准曲线表示密码子使用受碱基突变压力影响越大,基因分布在标准曲线下方或远离曲线,表示基因受自然选择压力影响越大。GC3s分布则反映植物所受的选择压力,GC3s分布越广泛,表明密码子使用偏性受碱基突变压力越大,GC3s分布范围越小,表明密码子使用偏性受正向选择压力影响越大(KawabeandMivashita,2003)。由图4可知,桑树WRKY转录因子家族基因的GC3s介于0.330-0.722,分布较广泛,且多数基因ENC分布在标准曲线下方,表明桑树WRKY转录因子家族基因同时受到碱基突变和正向选择压力的影响。

RSCU是同义密码子实际使用量与理论使用量的比值。RSCU>1.000,表示密码子使用频率高于其他同义密码子;反之则使用频率低。由表4可知,RSCU>I.000的密码子有29个,且以A(6个)或T(11个)结尾较G(4个)或C(8个)结尾的略多,说明桑树WRKY转录因子家族基因的密码子使用偏性较弱,略偏好A或T结尾。

3讨论

WRKY转录因子蛋白为植物特有转录因子家族,广泛参与植物多种生物学进程的调控。至今,多个已完成基因组测序植物的WRKY转录因子家族基因被鉴定,番茄基因组中有81个WRKY转录因子家族基因(Wuetal.,2005),黄瓜有55个WRKY转录因子家族基因(Rossetal.,2007),大豆有176个WRKY转录因子家族基因(Lingetal.,2011),棉花有113个WRKY转录因子家族基因(Huangetal.,2012),粳稻有98个WRKY转录因子基因(周宗梁等,2012),拟南芥有72个WRKY转录因子家族基因(Zelaskoetal.,2013),苹果有132个WRKY家族基因(谷彦冰等,2015)。Baranwal等(2016)研究发现,桑树基因组中含有54个WRKY转录因子基因。同一家族基因的数量与植物进化过程中基因复制、基因组重排等有关,如水稻、番茄、苹果和棉花的WRKY转录因子家族均存在基因复制现象(Wuetal.,2005;Huangetal.,2012;周宗梁等,2012),但在WRKY转录因子数量较少的黄瓜中未发现基因复制现象(Rossetal.,2007)。WRKY转录因子基因数目除了与物种基因组有关外,还与植物进化过程中所受的环境压力有关。本研究结果显示,桑树WRKY转录因子家族基因数量为55个,属于WRKY转录因子家族基因相对较少的物种类型,说明进化过程中该家族基因受到的环境压力较小。

基因结构中内含子数量及相位类型是研究基因进化的重要证据。根据剪接中位置的不同,内含子分为3种相位类型,0型内含子位于2个密码子之间,1型内含子位于密码子的第1和第2碱基之间,2型内含子位于密码子的第2和第3碱基之间(Sharp,1981)。内含子相位的改变会导致后续阅读框发生变化,因此内含子的相位通常比较保守。本研究中,桑树WRKY家族蛋白主要分为三大类(Ⅰ、Ⅱ和Ⅲ),且有2个蛋白(MnWRKY49和MnWRKYlC)未进行分组,与Baranwal等(2016)将桑树WRKY转录因子家族分为四类的研究结果基本一致。本研究还发现,同一进化组的基因结构内含子数量和相位类型高度一致,进化组Ⅱa和进化组Ⅱb的内含子相位类型全部为0型,进化组Ⅱd、进化组Ⅱe和进化组Ⅲ全部为2型。约50%桑树WRKY转录因子家族基因包含2个内含子,其中有25个基因的内含子相位为2-2型,分别属于进化组Ⅱc、进化组Ⅱd、进化组Ⅱe和进化组Ⅲ,推测其来源于共同的祖先基因。

本研究的系统进化分析结果显示,桑树WRKY家族蛋白主要分为三大类,Ⅱ类又分为5个亚组。所有成员均含有保守基序WRKYGQK(MnWRKY50和MnWRKY51为WRKYGKK外),Ⅰ类和Ⅱ类还包含有保守的锌指结构C2H2(除MnWRKY28和Mn-WRKY54缺少外),Ⅲ类的锌指结构为C2HC。Rinerson等(2015)研究认为,植物中WRKY转录因子家族基因存在两种可能的起源方式,一种起源于Ⅰ类蛋白C端WRKY结构域,一种起源于藻类Ⅱa或Ⅱb的某一蛋白结构域。桑树WRKY转录因子蛋白保守结构域分析发现有五类Motif的保守性较强,所有桑树WRKY蛋白中均包含C端Motif1,Ⅰ类蛋白同时含有N端Motif3。进化组Ⅱa、进化组Ⅱb和进化组Ⅲ中含有类似LRR结构域的Motif5。可见,植物WRKY转录因子基因家族结构上高度保守,桑树WRKY转录因子可能起源于I类基因蛋白C端WRKY结构域。

WRKY蛋白特异性结合DNA的最小基序TTGAC(C/T)称作W-box。多数WRKY转录因子的目标基因启动子中均含有数量不定的W-box,彼此间或同向排列或形成回文结构,WRKY转录因子与其结合,而调节下游功能基因或其他转录因子的表达(Eulgemetal.,2000)。一些植物WRKY转录因子家族基因启动子中也存在W-box,如拟南芥WRKYl8启动子中的W-box是起负调控作用的顺式作用元件,能阻止拟南芥WRKYl8在抗病期间的过量表达,从而缓解该基因对植物生长造成的影响(ChenandChen,2002)。多种WRKY转录因子可形成复合物以调控植物的抗病性。Baranwal等(2016)研究发现,桑树WRKY基因上游启动子区富含AAAG、GAAAA和AGAAA等序列。本研究也发现桑树WRKY转录因子家族基因启动子区的AAAGC、AAAAAGT和GAAAAAG数量较多,且部分桑树WRKY转录因子家族基因启动子区含有bZIP、ERF、GT-1、MYB、TGA和WRKY转录因子结合序列,而这些转录因子大多与逆境胁迫有关。

桑树WRKY转录因子家族基因同时受碱基突变和正向选择压力的影响,其中以碱基突变选择压力占主导地位。基因密码子使用偏性与植物基因组组成及其所处的胁迫环境有直接关系(宋辉等,2015)。双子叶植物偏好A/T结尾的密码子,单子叶植物偏好G/C结尾的密码子(Tatarinovaetal.,2010),偏性强的基因偏好使用G/C结尾的密码子(Gu0etal.,2007)。桑树属于双子叶植物,虽然RSCU>1.000的密码子中以A/T结尾的略多,但密码子使用偏性并不强,多数属于低表达基因。Baranwal等(2016)研究发现,桑树WRKY转录因子家族基因表达具有器官特异性,在54个WRKY转录因子家族基因中有13个基因在根部表达,25个基因在树皮中表达,10个在雄蕊中表达,但总体来看,检测到的表达基因数目较少,基因相对表达倍数不高。这在本研究中得到进一步证实,即桑树WRKY转录因子家族基因密码子使用偏性较弱。

4结论