DOI:10.16445/j.cnki.1000-2340.20241127.001
中图分类号:Q37
孟海军, 李静, 周然然, 胡青霞
| 【作者机构】 | 河南农业大学园艺学院,河南农业作物生物学国际联合实验室 |
| 【分 类 号】 | Q37 |
| 【基 金】 | 河南省科技攻关计划项目(222102110479,102102110178) 兵团重点领域科技攻关计划项目(2021AB015) 大学生创新训练计划项目(2022DC112) |
转座子(transposon),也称作转座组分/元件(transposable element,TE),是真核生物基因组的主要组成成分,也是基因组结构变异的主要来源之一[1-5]。一些重要农艺性状的变异都与转座子存在因果关系,例如无融合生殖[6]、性别决定[7]、玉米苗期的抗旱性[8]、生菜结球[9]、甜橙芽变群体形成[10]等,这也预示着转座子的研究在作物的育种中发挥更加重要的作用。转座子种类很多,短散在核元件(short interspersed nuclear element,SINE)是其中一种非自主型逆转座子,长度小,数目虽多,但在植物基因组中所占比例很小,现有植物基因组的注释大多数都缺乏SINE的信息。SINE常分布于基因附近或内部,对基因和基因组的进化有较大的影响[11-15]。柑橘的SINE在基因上游显著富集,有较大的潜力影响邻近基因的表达[15],这意味着植物SINE的研究有潜在的应用价值。本研究对植物SINE结构、分布、鉴定、进化的特点,以及对宿主的基因结构和表达的影响进行了综述,讨论了SINE研究在作物育种中的应用前景,以期为植物SINE的理论和应用研究提供参考。
真核生物中转座子种类繁多,按照转座过程中 有 无RNA中 介 物,分 为2大 类(Class)[16-18]。Class Ⅱ又称为DNA转座子(DNA transposon),它不依赖RNA中介物转座[19],转座过程类似 于“剪切/粘贴”。Class I又称为逆转座子(Retrotransposon),它转座时,需要先转录为RNA[20],转座过程类似于“复制/粘贴”。根据长末端重复序列(long terminal repeat,LTR)的有无,逆转座子分为LTR类逆转座子(LTR-retrotransposon)和非LTR类逆转座子(non-LTR retrotransposon)。SINE没有LTR,是一种典型的非LTR类逆转座子,不编码转座酶,无法自主转座,依靠有自主转座能力的长散在核元件(long interspersed nuclear element,LINE)伙伴提供相关的酶来转座[21-25]。所以,SINE又称为非自主型转座子(nonautonomous element)。
SINE序列长度约80~500 bp,可以分为Head、Body和Tail [26]。Head起源 于 各种RNA基因,例如tRNA、7SL RNA和5S RNA,但植物SINE大多数源自tRNA基 因[11-13,15,21]。Head内 部 含 有RNA聚 合酶Ⅲ(RNA Polymerase Ⅲ,RNA Pol Ⅲ)的启动子。该启动子是内部启动子,位于转录起始位点的下游。tRNA和7SL RNA起源的SINE的内部启动子,含有box A和box B 2个基序,这2个基序长度均为11 bp,之间间隔有30~35 bp[27-28]。5S RNA起源的SINE内 部 启 动 子 的3个 基 序 有box A、box IE和box C[26]。SINE的内部启动子与RNA Pol Ⅲ中的转录因子TFⅢC结合,之后由转录因子TFⅢC启动SINE的转录过程。在植物中,tRNA起源的SINE的box A和box B 2个基序高度变异,只残余简并基序(box A:RVTGG和box B:GTTCRA)[21]可以勉强识别。虽然人们认为植物大部分SINE起源于tRNA,但是只有部分植物SINE家族识别出它起源的tRNA。
SINE依据Body结构的复杂度,可以分为简单型和复杂型SINE[29]。各个SINE家族之间,Body部分的序列是高度特异性的。部分SINE家族的Body含有起源于LINE伙伴的片段。这些LINE伙伴起源的片段在逆转录中模拟LINE的RNA[26]。植物SINE的Body较少识别出保守的结构域,结构相对简单[21]。LINE伙伴起源的片段只在小部分SINE家 族中发现[26]。各 个 植物SINE家族间Body部分的序列和长度高度变异,而且它们的起源大多 数 仍 然 保 持 未 知 状 态[13,21,30]。与 植 物SINE相比,动物SINE的Body结构复杂,但研究得比较深入。目前已发现了6种结构域,这些结构域保守性较强,可以在亲缘关系较远的SINE家族中发现。这些结构域种类和排列顺序是动物SINE分类的依据之一[16,26]。
SINE的Tail部分,一般由富含腺嘌呤核苷酸(A-rich)的序列构成,也有部分SINE的Tail是由富含胸腺嘧啶核苷酸(T-rich)的序列构成,或者是其他类型的简短重复序列构成。Tail内部可能有2种结构,即多聚腺苷酸化信号(polyadenylation signal,PAS)和RNA Pol Ⅲ的终止子(TTTT),这2种结构不一定同时出现,甚至不一定出现[30-33]。RNA PolⅢ通过Tail中多聚腺嘌呤核苷酸序列(poly(A))后,遇到任何终止子序列,就会停止转录[28]。Tail的碱基构成和长度对SINE转录影响很大。A-rich的poly(A)型Tail转录效率远高于其他类型,poly(A)的长度为40~50 bp时转录效率比没有Tail的SINE高40倍[34]。当poly(A)型Tail位 于 基 因 的3′UTR时,有可能给基因带来额外的多聚腺苷酸化信号AATAAA,有时会延长转录本的poly(A)长度。这能显著延长转录本在细胞内的半衰期[32,35],意味SINE可以通过这种方式影响基因的表达[36]。SINE转录成RNA后,LINE转座相关的 酶,例如逆转录酶,首先特异性地识别SINE RNA的Tail,随后开始相应的转座过程[37-39]。这意味着SINE的Tail是SINE转座必需的部分。
SINE的两侧有靶位点重复(target site duplication,TSD)。它是SINE RNA在逆转录并整合到基因组的过程中,在插入位点两侧形成的短序列重复。这与为SINE提供转座机制的LINE逆转录酶的核酸内切酶活性有关[40]。
SINE的3个部分中,Head为SINE的转录提 供启动子,Tail耦合LINE提供的酶促转座机制,因此Head和Tail部分是构成有功能性、具有转座能力的基本型SINE的必要部分。目前已知最小的SINE家族为来自Manihot esculenta的EuphS-I,长度仅为83 bp,它的Head起源于tRNA,缺乏Body部分。KÖGLER等[13]据此推断,任何基因组序列都可以成为SINE的一部分,只要它是位于RNA PolⅢ启动子基序和一个充当尾部的poly(A)之间,其长度不超过400 bp,并且下游有与转录终止子相似的序列。
一般来说植物SINE的5′端,特别是启动子相关区域,相对其他部分较为保守[21]。杨柳科(Salicaceae)和禾本科(Poaceae)的一些SINE家族在5′端的起始部位也发现了一些保守片段。这些保守片段在相关物种的多数SINE家族中都常见。但是Body部分,无论是长度还是序列都是高度变异的,只有少数物种在几个SINE家族Body的3′末端鉴定出短小的保守片段[30]。
SINE可以通过序列相似性和结构特征两种途径来鉴定。前者的代表性软件是RepeatMasker[41],它以已知的SINE序列为参考,使用CrossMatch、RMBlast、ABBlast、HMMER等序列搜索引擎来扫描基因组,鉴定待检测的基因组中的SINE。这也是其他类型转座子鉴定时常用的方法。
WENKE等[21]为 植 物SINE开 发 出 专 门 的 识别软件SINE-Finder,这种软件的算法基于tRNA起源的SINE的几个序列特征,即源自boxA和boxB的 简 并 基 序、TSD、Tail和SINE的 长 度。这些特征不是特别明显,导致识别效率不高。随后也 出 现 一 些 新 的 软 件,例 如SINEscan[42],它 是SINE-Finder的一种改进软件,但是这2种软件的假阳性率高达95%[43]。2021年又出现了一种新的软件AnnoSINE[44],它是一种结合基于隐马尔可夫模型的同源性搜索和基于结构特征的从头搜索的算法。在此基础上,VARANI等在软件库GitHub上 公 布 了 一种整合AnnoSINE和EDTA[43]2种软件的工具Plant_Annotation_TEs(github.com/amvarani/Plant_Annotation_TEs)。但一些尚未正式发表的测试表明,这种工具识别植物SINE的假阳性率约为13.3%,表明植物SINE鉴定软件仍然有较大的提升空间。已发表的SINE鉴定过程表明,软件输出的植物SINE候选序列仍然需要进一步筛选,特 别 是 专 家 手 动 筛 选[11-13,15],来 排 除 假 阳 性序列。
植物SINE候选序列筛选时,首先以候选序列为参考,使用ncbi-blast+[45]等工具扫描目标物种基因组,获取候选序列的同源序列组,并完成同源序列组的多重比对。随后检查多重比对的结果,确认植物SINE序列。确认植物SINE序列的标准主要有以下4个要点[11,15,30]。第1个要点为,SINE目标区域相对保守,长度约80~500 bp。第2个要点为,5′端有含有box A和box B两 个基序,这2个基序长度均为11 bp,之间间隔为30~35 bp。第3个要点为,3′端有poly(A/T),poly(A/T)至少含有5个连续的A/T。第4个要点为,目标区域的上下游侧翼区域,应当高度变异。这个要点是用于确认SINE在染色体上是分散分布的。确认的SINE序列,可以依据序列相似性划分SINE家族。
SINE广泛地存在于几乎所有的真核生物,其历史和真核生物的历史一样悠久。起源于共同祖先的SINE拷贝会形成一个SINE家族,家族内各成员之间有较高的相似性。有学者认为一个SINE家族最低只需一个有活性拷贝,“master copy”,就能扩增出一个家族[12,46]。尽管进化过程中会不停地产生突变,然而突变的积累需要较长的时间。所以,一个SINE家族近期内有转座事件发生或者正在发生,家族新成员之间有很高的相似性[11-14]。SINE拷贝随着年龄的增长,会积累突变,并导致SINE家族内的分化。SINE家族诞生时间越长,家族内古老的SINE拷贝间的分化越明显,甚至分化成几个亚家族[14,47-49]。
由于SINE的Body来源非常广泛,所以SINE家族之间异质性很高。而且植物SINE的Body很少鉴定出保守的结构域,所以无法像动物SINE那样依据Head的起源、Body中结构域的种类及其排序划分SINE家族。植物SINE一般依据Head的起源、内部结构及SINE的序列相似度来划分SINE家族,其中序列相似度是最主要的划分依据。SINE的序列相似度指的是,每个成员与家族的共有序列(consensus)之间的序列相似度。
部分学者把植物SINE序列相似度高于60%作为划分SINE家族的标准,序列相似度低于85%的分支进 一 步 划 分 为 亚家族[11-12,21,30]。依 照 这 个标准,茄科(Solanaceae)8.5 Gb的基因组中发现了82 983个SINE拷 贝[11,21],分 为11个 家 族/亚 家族。苋科(Amaranthaceae)基因组中鉴定出约34 806个SINE拷贝,分 为22个SINE家族/亚家族[12]。禾 本科7个基因组中发掘出32个SINE家族/亚家族,共11 052个拷贝[13]。杨柳科 发现了11个SINE家族/亚家族,27 077条全长拷贝[30]。以每个家族/亚家族的代表性序列为参考,使用ncbi-blast+[45]软件搜索基因组,可以发掘出SINE家族的大部分成员(包括全长拷贝和不完整拷贝)。这个结果可以进一步用于植物SINE的基因组注释工作。
还有学者则根据WICKER等[16]提出的“80-80-80”的原则,按照序列相似度大于等于80%作为划分植物SINE家族的标准,将序列相似度低于85%的分支进一步划分为亚家族。依照这个标准,从柑橘属(Citrus)7个基因组中,鉴定出12个SINE家族/亚家族,共41 573个SINE拷贝,其中全长拷贝11 275条[15-16]。这 种 方 法 可 以 和RepeatMasker[41]软件耦合,高效地进行植物SINE的基因组注释。
不同物种中SINE家族数有较大差异。植物SINE家族成员一般分布在亲缘关系较近的物种中,但有时也会在一些亲缘关系很远的物种中发现一些SINE家族成员。在禾本科的玉米(Zea mays L.)、水稻(Oryza sativa L.)、大麦(Hordeum vulgare L.)、高粱(Sorghum bicolor L.)、小麦(Triticum aestivum L.)、柳枝稷(Panicum virgatum L.)和二 穗 短 柄 草(Brachypodium distachyon (L.)P.Beauv.)7个物种中,玉米中SINE家族数最少,只有5个;水稻最多,有12个。有8个SINE家族(PoaS-Ⅰ、PoaS-Ⅳ、PoaS-Ⅶ、PoaS-Ⅸ和PoaS-ⅪⅤ)只出现在1个物种中。有2个SINE家族(ZmSINE1和Au)出现在6个物种中。只有一个SINE家族(PoaS-Ⅴ)在7个物种中都出现了[13]。这种差异化的分布可能与宿主以及SINE本身进化有关。水稻和早熟禾亚科(Pooideae)有较大的进化距离,最后的共同祖先大约存在于50 Ma(百万年前,million years ago)。有6个SINE家族(p-SINE2、OsSN3、PoaS-Ⅳ、PoaS-Ⅶ、PoaS-Ⅸ和PoaS-ⅩⅢ)仅存在于水稻之中;而早熟禾亚科中存在的20个SINE家族,有16个没有分布在水稻中。由此推测,这22个(6+16)SINE家族诞生时间可能迟于50 Ma[13]。
AU家族是一种古老的SINE家族,在被子植物和裸子植物中都广泛存在,因此AU家族可能诞生于被子植物和裸子植物的共同祖先中,即200 Ma,并传递给很多物种。但在水稻中没有检测到AU家族的存在,所以SINE在物种间的分布并不能与物种的系统发生关系完全匹配,呈现了一定程度的碎片化分布趋势[46,50]。
这种碎片化分布特点可能与SINE的垂直传递(vertical transmission)有关[51]。一个基因组中现存的SINE是SINE动态平衡的结果,即SINE家族诞生后,家族扩增与分化、退化、消亡之间的动态平衡。仅存在于水稻之中的6个SINE家族(p-SINE2、OsSN3、PoaS-Ⅳ、PoaS-Ⅶ、PoaS-Ⅸ和PoaS-ⅩⅢ),也有可能是诞生于禾本科共同祖先的基因组中,早于黍亚科(Panicoideae)、稻亚科(Ehrhartoideae)和早熟禾亚科这3个亚科形成之时,即60 Ma。随后发生SINE家族的扩增、选择和剧烈的分化,最终导致某些SINE家族在早熟禾亚科中消失,而在水稻中保持存在,最终形成物种间碎片化的分布特点。由于一个SINE家族的所有成员从某个物种中全部丢失的可能性不大,所以碎片化分布的形成机制可能是:某个SINE家族在某些物种中转座活性消失,导致该家族扩增停止;随后该家族的成员处于长时间持续退化的状态,导致整个SINE家族无法被识别,从而表现为在这些物种中消亡[13]。
各个植物SINE家族内的拷贝数在近缘种间也存在巨大差异。禾本科、柑橘属和茄科的调查表明一个SINE家族的拷贝数在物种间的变化可以超越3个数量级。这一方面是由于有些家族在某些物种中可以保持长期的转座活性,拷贝数持续增长,禾本科、柑橘属和茄科某些物种内都存在这样的家族。另一方面是由于SINE家族能物种特异性地在短时间内爆发性扩增。SINE拷贝的相对年龄分布分析表明,很多植物SINE家族在某些物种中都有转座高峰[11,13,15],即发生过短时间内爆发性扩增的现象。这种现象在MITE(miniature invertedrepeat transposable element)类DNA转 座 子 中 也 很常见[52-54]。或许两种现象有着相似机制在起作用。不同物种甚至同一物种内不同个体间,植物SINE爆发式扩增的时间和次数也有不同。这些因素都能导致转座子的拷贝数在不同物种,甚至不同个体之间差异很大[11-14]。
植物SINE在染色体上的分布有4个主要特征[11-12,14]。第1个特征是植物SINE在染色 体上分散分布。LTR类逆转座子在染色体末端和端粒区域分布较多,在基因区分布相对较少。植物SINE却和LTR类逆转座子不同。在茄科(Solanaceae)、苋科(Amarantaceae)、柑橘属(Zitruspflanzen)和禾本科(Gramineous)中,SINE主要是分散分布于染色体上。但也有少数SINE家族,例如玉米的ZmSINE1,主要分布于染色体末端和着丝粒所在区域[11,30]。第2个特征是植物SINE的插入位点有一定的偏好。植物SINE的插入位点偏好于富含A或T的DNA区 域的上游[11,13,15,30]。第3个特征是植物SINE在基因编码区域内很少,但在基因周围却不少。SEIBT等[11]发现SINE在茄科基因编码区域内拷贝数只占总数的1%~2%,但在内含子区域占到总数的15%~54%,在基因周围500 bp范围内占总数的7%~9%。MENG等[15]在柑橘基因组中发现,SINE在基因编码区域内拷贝数只占总数的0.5%,但在基因上游1 000 bp范围内占总数的18.4%,显著地富集于基因启动子区域。第4个特征是植物SINE拷贝数高但在基因组总长的占比却很小。在植物基因组中,SINE最高可达几千甚至上万个拷贝,但在土豆(Solanum tuberosum L.)基因组总长的占比只有0.32%,在拟南芥(Arabidopsis thaliana(L.)Heynh)中只有0.05%,在玉米中只有0.02%,在柑橘中约占0.34%[55-56]。这主要是SINE较小的长度导致。
SINE历史悠久,在物种间呈现部分碎片化的分布[13]。SINE家族的动态变化可以用于解释SINE碎片化分布的原因,而SINE相对年龄分布可以反映植物SINE家族的动态变化。经过漫长时间进化和突变的积累,古老SINE家族成员间歧化明显,异质性很高;而新的家族成员则保持较高的序列相似性[11,13]。这一特点被用于SINE相对年龄和转座活性的分析。由于SINE家族的共有序列反映的是SINE家族最常见的初级结构,SINE家族成员相对于共有序列的相似性可以用于估算植物SINE的相对年龄和转座活性[11,13]。
相对年龄的分布是基于植物SINE家族内各个成员与共有序列之间相似度来绘制的。以某个家族各个成员与共有序列之间相似度为横坐标,各相似度区间内该家族成员数为纵坐标绘制直方图,就可以直接地反映出植物SINE家族成员的相对年 龄 的 分布[11,13,15]。在相 对 年 龄 分布的直方 图中,相似度越低,表明对应的拷贝越古老;反之,则表明是较为年轻的拷贝。如果有明显的峰,表明发生过爆发性扩增。如果分布较平稳且接近100%的相似度,则表明该家族持续扩增到近期。
小麦AU家族的471拷贝中,有328个的相似度分布在90%~100%;PoaS-Ⅹ.1家族的53拷贝中有51个的相似度分布在92%~100%,表明它们近期都发生过转座,即还拥有转座活性[13]。此外,OsSN2.2家族在早熟禾亚科的大麦、小麦和二穗短柄草都有分布,相似度都较低;在黍亚科的高粱中有较多的年轻拷贝,相似度都较高;但在同亚科的柳枝稷和玉米中没有分布。据此作者认为,OsSN2.2家族至少诞生于禾本科的共同祖先中,沉默一段时间后,又重新出现在高粱中,即OsSN2.2家族在高粱中有一个重新激活的过程,这可以通过转录组测序结果中发现丰富的OsSN2.2家族SINE转录本来证实[13]。这是一个相对年龄分布在植物SINE家族动态变化研究中的经典案例。
在漫长时间的进化中,随着突变的长期积累,TSD和Tail也会明显地歧化,长度变短。所以,TSD和Tail的长度也可以用于植物SINE相对年龄的估计[57-59]。甜菜(Beta vulgaris L.)SINE家族间,平均序列相似性与TSD和Tail的平均长度有明显的正相关性[12]。例如,AmaS-Ⅲ家族的平均序列相似性为92%,TSD和Tail的平均长度为13 bp;AmaS-XVⅢ家族的平均序列相似性为77%,TSD和Tail的平均长度分别为7和8 bp。但是,禾本科SINE家族间,Tail的平均长度与SINE家族的平均序列相似性间没有显著的相关性,TSD的平均长度却与SINE家族的平均序列相似性间有显著的正相关性[30]。
如前所述,Head和Tail是有功能和活性的SINE必需的部分,Body可以是基因组上任何长度和位置合适的基因组区域。这种SINE捕获基因组片段的机制对于植物SINE进化的研究具有较大的意义。茄科SolS-Ⅳ和SolS-Ⅵ家族中,有些同一家族的拷贝间,5′端或3′端存在同源区域,其他区域不同源。作者推测这些同一家族的拷贝间,发生了SINE介导的邻近基因组区域的转导,使得SINE捕获邻近基因组区域,形成SINE新拷贝,并提出植物SINE介导的邻近基因组区域转导的两种模式[11]。
第1种模式是,相邻的5′端基因组区域的转导由细胞RNA聚合酶(最有可能是RNA聚合酶Ⅱ,RNA pol Ⅱ)转录引起的。RNA聚合酶从SINE上游某个启动子开始转录,延伸并覆盖这个SINE。这个SINE的Tail可为RNA聚合酶提供转录终止子,最终形成一个SINE新拷贝。这个新拷贝的3’端是原来的SINE,5′端是捕获的邻近基因组区域。第2种模式是,3′端邻近序列区域的转导是RNA Pol Ⅲ转录引起的。RNA Pol Ⅲ从某个SINE开始转录,越过它原有的终止子,延伸到这个SINE下游的某个终止子,从而形成一个SINE新拷贝。这个新拷贝的5′端是原来的SINE,3′端是捕获的邻近基因组区域。这种模式可能依赖于转录本的多聚腺嘌呤核苷酸化(转录本末端添加一个Poly(A))及随后LINE逆转录酶的识别。如果该转录本没能多聚腺嘌呤核苷酸化,则需要目标位点与3′端区域的微同源性来介导转录本的逆转录过程,最终也会形成一个SINE新拷贝。
邻近基因组区域的转导是一种促进植物SINE家族分化,甚至产生新家族的途径之一。
在SINE的进化中,同型或不同型的SINE会发生二聚体化甚至多聚体化。禾本科的SINE家族依据长度可以分为两类。第1类有23个SINE家族/亚家族,长约100~180 bp。剩下9个家族/亚家族构成第2类,长约240~340 bp。植物SINE中,tRNA起源的部分长度相对保守,而且只延伸到box B基序后14 bp[55],所 以SINE长 度 的 变 异 主 要 来 自Body部分。对这些较长的SINE家族进行序列分析,结果表明第二类家族/亚家族大多数是异源二聚体,是由全长或近乎全长的拷贝二聚体化而来。这种二聚体 化 产 生的SINE 3′端 有poly(A/T)组 成 的Tail,上下游侧翼也有TSD,表明它们在形成二聚体后,扩增并形成了一个植物SINE新家族[13]。
SINE二聚体化的可能模式是,一个SINE插入到另一个SINE内部或3′端后,RNA聚合酶从外侧的SINE开始转录,内部插入的SINE被RNA聚合酶当作外侧SINE的一部分,一起转录并耦合后续的LINE酶促转座机制,形成二聚体。这些二聚体化的SINE经过扩增后会形成新的家族。此外,还有一种准二聚体化现象,指的是部分SINE内部存在一些重复区域[29]。SINE的二聚体化能明显增加SINE的多样性,是一种重要的SINE进化机制。
SINE在基因间区域和基因内部都有一定的分布。通过比较SINE与基因的相对位置,SEIBT等[11]和MENG等[15]发现SINE能在4个方面促进植物基因和基因组的进化:(Ⅰ)增加内含子和上游非翻译区的长度;(Ⅱ)为基因提供剪切位点、外显子、起始或终止密码子;(Ⅲ)复制并形成串联结构;(Ⅳ)对SINE邻近区域的转导作用和染色体片段的易位。
MENG等[15]在柑橘中发现了10个仅有1个外显子的短基因,其中,8个编码未被识别的蛋白,1个编码WRKY DNA结合蛋白(Cs8g16370),还有1个编码逆转座子蛋白(orange1.1t01062.1)。进一步调查表明,这些基因来源于SINE及其邻近序列,其中SINE提供了启动子/终止子或部分内部密码子。所有10个基因的表达水平较低或中等。与愈伤组织相比,基因Cs5g04640的表达水平在果实中显著上调。这些数据表明这10个基因能够转录为RNA。在5 kb的邻近区中,围绕orange1.1t0106 2.1基因没有被标注为TE的序列,这表明基因orange1.1t01062.1不太可能是另一个TE的一部分。基因Cs8g16370编码一个功能性蛋白的同源物,但主体来源于SINE。因此,orange1.1t01062.1和Cs8g16370可 能 是 由SINE选 配(co-option)或SINE捕获其他基因片段而来,剩余的8个小基因可能是由SINE创造的新基因。这个发现为新基因的产生理论作出了一定贡献。
转座子能破坏启动子/增强子结构,从而影响基因的表达,这类情况较为常见。例如玉米ZmNAC111基因的启动子有1个82 bp的MITE插入序列,这个MITE破坏了启动子结构,抑制了ZmNAC111的表达,并增强玉米苗期的抗旱性[8]。一个转座子插入到桃(Prunus persica (L.)Batsch)PpYUC11基因上游,导致它的表达受到抑制,从而形成‘stony hard’的表型[60]。转座子也能为邻近基因提供启动子/增强子。例如,水稻的ubiquitin2的启动子含有2个嵌套的MITE序列,其中一个叫Kiddo的能显著增强该基因的表达[61]。
转座子起源的启动子/增强子具有器官特异性和响应胁迫的能力[62]。在拟南芥花粉中,通常沉默的转座子会重新激活并转座,表现出花粉特异性的表达[63]。在小麦上,ABF转录因子调控的基因TaPYL1-1B在ABA介导的ABA响应、水分胁迫应答、渗透胁迫应答中有重要作用。TaPYL1-1B基因存在2种单体型,表现出表达量变化及小麦抗旱性差异,单体型间的差异是由于2种MITE的插入造成的[64]。玉米幼苗在低温、高温、高盐、紫外线处理下,20%表达上调的基因受它们上游存在的转座子影响,而只在逆境下表达的基因有33%受它们上游存在的转座子影响。这些研究表明,部分转座子能起到增强子的作用,而且具有器官特异性或者响应胁迫的能力[65]。水稻,玉米中的研究表明,转座子能在一些基因附近形成新的调节模块。这些调节模块能起到增强子、抑制子或启动子的作用,并且对逆境相关的基因起到明显的调控作用[53,66-68]。
转座子通过改变转录本的结构,影响基因表达和植株表现型。在油棕榈(Elaeis guineensis Jacq.)组培过程中,转座子Kama的甲基化水平减低后,激活并插入到DEFICIENS基因的内含子后,引起该基因的可变剪切和转录本提前终止,最终使油棕榈果畸形[69]。玉米自交系B73后代材料中新发现了一个活跃的转座子BTA,该转座子插入到编码糖转运蛋白的基因ZmSWEET4c第1个外显子中,产生1个上游开放阅读框(upstream ORF,uORF),降低蛋白翻译效率和蛋白丰度,进而影响玉米籽粒产量[70]。
转座子如何影响邻近基因表达,主要取决于转座子的位置[71]。现有的证据表明,转座子的转座对生物体来说,通常是有害的[72-75]。新插入的转座子通常会发生RNA介导的DNA甲基化,导致它们发生表观遗传学变化,抑制转座子转座[19]。甲基化的胞嘧啶容易突变成胸腺嘧啶,长时间的积累突变,会使转座子彻底失去转座能力。这种表观遗传学变化能拓展到邻近区域,最终会抑制邻近基因的表达。siRNA也会参与到这个过程中来[76]。
SINE影响植物邻近基因表达的报道很少,这可能与植物SINE相关信息缺乏有关。目前较为详细的一例报道来自柿属(Diospyros)植物性别决定的研究。在雌雄同株的六倍体柿子(Diospyros kaki)的Y染色体上,有一个性别决定基因OGI。它的启动子区域有一个SINE插入,抑制了OGI基因的表达,最终产生雌雄同株的柿子[7]。
茄科和柑橘属基因内部及邻近区域富含SINE,其中,柑橘的SINE还表现出显著的富集于基因启动子区域的现象[11,15]。这些现象表明,植物SINE有较大的潜力抑制、促进基因表达,或者影响转录本的结构。
转座子能为邻近基因提供启动子、增强子和抑制子等调节序列[53,66,68],这个特点在作物育种中有一定的应用价值。在水稻中,MITE类转座子是基因表达变异的主要驱动因素之一[53]。ZHENG等[62]通过删除OsGRF4基因下游的一个MITE,消除了这个MITE对OsGRF4的翻译抑制作用,提高了突变体中靶蛋白的丰度,改善了水稻的产量表现;在OsSNAC1基因的上游非翻译区插入一个具有增强子作用的MITE,提升了盐胁迫下突变体中靶基因的转录水平,并增强了它的耐盐性。这项成果表明,编辑这类具有表达调控能力的转座子是作物育种的新途径。这也给作物育种提供了新思路。例如,通过对转座子起源的调节序列进行发掘和鉴定,开发转座子相关的分子标记。使用这些标记筛选作物种质资源库,能提高种质资源的利用效率。
植物SINE长度小,拷贝多,变异丰富,异质性高,基因内及其邻近区域分布较多。这些特点表明,植物SINE适合开发分子标记。植物SINE影响基因表达的潜力较大,因此SINE的编辑在作物的育种中有一定的应用前景,值得进一步开展相关研究。
[1]ALONGE M,WANG X G,BENOIT M,et al.Major impacts of widespread structural variation on gene expression and crop improvement in tomato[J].Cell,2020,182(1):145-161.
[2]高晨曦,郝陆洋,胡悦,等.干旱条件下玉米转座子插入关联的表观调控分析[J].中国农业科学,2024,57(6):1034-1049.GAO C X,HAO L Y,HU Y,et al.Analysis of transposable element associated epigenetic regulation under drought in maize[J].Scientia Agricultura Sinica,2024,57(6):1034-1049.
[3]JIANG J,XU Y C,ZHANG Z Q,et al.Forces driving transposable element load variation during Arabidopsis range expansion[J].The Plant Cell,2024,36(4):840-862.
[4]刘玮玮,王伟,杨小淦,等.稳定表达Cas9 蛋白的C2C12 细 胞 株 构 建[J].南 方 农 业 学 报,2024,55(10):3169-3178.LIU W W,WANG W,YANG X G,et al.Constructing a C2C12 cell line that stably expresses Cas9 protein[J].Journal of Southern Agriculture,2024,55(10):3169-3178.
[5]LI X X,DAI X F,HE H Y,et al.A pan-TE map highlights transposable elements underlying domestication and agronomic traits in Asian rice[J].National Science Review,2024,11(6):188.
[6]UNDERWOOD C J,VIJVERBERG K,RIGOLA D,et al.A PARTHENOGENESIS allele from apomictic dandelion can induce egg cell division without fertilization in lettuce[J].Nature Genetics,2022,54(1):84-93.
[7]AKAGI T,HENRY I M,KAWAI T,et al.Epigenetic regulation of the sex determination gene MeGI in polyploid persimmon[J].The Plant Cell,2016,28(12):2905-2915.
[8]MAO H D,WANG H W,LIU S X,et al.A transposable element in a NAC gene is associated with drought tolerance in maize seedlings[J].Nature Communications,2015,6:8326.
[9]YU C C,YAN C H,LIU Y L,et al.Upregulation of a KN1 homolog by transposon insertion promotes leafy head development in lettuce[J].Proceedings of the National Academy of Sciences of the United States of America,2020,117(52):33668-33678.
[10]WANG L,HUANG Y,LIU Z A,et al.Somatic variations led to the selection of acidic and acidless orange cultivars[J].Nature Plants,2021,7(7):954-965.
[11]SEIBT K M,WENKE T,MUDERS K,et al.Short interspersed nuclear elements (SINEs)are abundant in Solanaceae and have a family-specific impact on gene structure and genome organization[J].Plant Journal,2016,86(3):268-285.
[12]SCHWICHTENBERG K,WENKE T,ZAKRZEWSKI F,et al.Diversification,evolution and methylation of short interspersed nuclear element families in sugar beet and related Amaranthaceae species[J].Plant Journal,2016,85(2):229-244.
[13]KÖGLER A,SCHMIDT T,WENKE T.Evolutionary modes of emergence of short interspersed nuclear element (SINE)families in grasses[J].Plant Journal,2017,92(4):676-695.
[14]BEN-DAVID S,YAAKOV B,KASHKUSH K.Genomewide analysis of short interspersed nuclear elements SINES revealed high sequence conservation,gene association and retrotranspositional activity in wheat[J].Plant Journal,2013,76(2):201-210.
[15]MENG H J,FENG J C,BAI T H,et al.Genome-wide analysis of short interspersed nuclear elements provides insight into gene and genome evolution in Citrus[J].DNA Research,2020,27(1):4.
[16]WICKER T,SABOT F,HUA-VAN A,et al.A unified classification system for eukaryotic transposable elements[J].Nature Reviews Genetics,2007,8(12):973-982.
[17]赵龙,白皓,毕瑜林,等.禽类转座子的研究进展[J].中国家禽,2021,43(6):93-99.ZHAO L,BAI H,BI Y L,et al.Research progress of avian transposable elements[J].China Poultry,2021,43(6):93-99.
[18]罗依妮,王露.转座子的研究现状[J].中国细胞生物学学报,2024,46(7):1323-1334.LUO Y N,WANG L.The function and regulation of transposons[J].Chinese Journal of Cell Biology,2024,46(7):1323-1334.
[19]GUO W,WANG D F,LISCH D.RNA-directed DNA methylation prevents rapid and heritable reversal of transposon silencing under heat stress in Zea mays[J].PLoS Genetics,2021,17(6):e1009326.
[20]DENG P J,TAN S Q,YANG Q Y,et al.Structural RNA components supervise the sequential DNA cleavage in R2 retrotransposon[J].Cell,2023,186(13):2865-2879.
[21]WENKE T,DÖBEL T,SÖRENSEN T R,et al.Targeted identification of short interspersed nuclear element families shows their widespread existence and extreme heterogeneity in plant genomes[J].The Plant Cell,2011,23(9):3117-3128.
[22]王傲雪,白怡潇,田雨鑫,等.番茄DUF247 基因家族全基因组鉴定[J].东北农业大学学报,2024,55(8):57-69.WANG A X,BAI Y X,TIAN Y X,et al.Identification of whole genome of tomato DUF247 gene family[J].Journal of Northeast Agricultural University,2024,55(8):57-69.
[23]韩光杰.昆虫SINE 和Helitron 转座子的鉴定、进化及在二化螟中的胁迫响应[D].扬州:扬州大学,2021.HAN G J.Identification,evolution and stress response of insect SINE and Helitron transposons in Chilo suppressalis[D].Yangzhou:Yangzhou University,2021.
[24]王梦礼.猪SINE 逆转座子进化分析及遗传效应探究[D].扬州:扬州大学,2023.WANG M L.Evolutionary analysis and genetic effect of pig SINE reverse transposon[D].Yangzhou:Yangzhou University,2023.
[25]SUN D J,ZHU Y Y,PENG W Z,et al.SETDB1 regulates short interspersed nuclear elements and chromatin loop organization in mouse neural precursor cells[J].Genome Biology,2024,25(1):175.
[26]VASSETZKY N S,KRAMEROV D A.SINEBase:a database and tool for SINE analysis[J].Nucleic Acids Research,2013,41(Database issue):D83-D89.
[27]GALLI G,HOFSTETTER H,BIRNSTIEL M L.Two conserved sequence blocks within eukaryotic tRNA genes are major promoter elements[J].Nature,1981,294(5842):626-631.
[28]BORODULINA O R,KRAMEROV D A.Short interspersed elements (SINEs)from insectivores.Two classes of mammalian SINEs distinguished by A-rich tail structure[J].Mammalian Genome,2001,12(10):779-786.
[29]BORODULINA O R,KRAMEROV D A.PCR-based approach to SINE isolation:simple and complex SINEs[J].Gene,2005,349:197-205.
[30]KÖGLER A,SEIBT K M,HEITKAM T,et al.Divergence of 3′ ends as a driver of short interspersed nuclear element (SINE)evolution in the Salicaceae[J].Plant Journal,2020,103(1):443-458.
[31]BORODULINA O R,USTYANTSEV I G,KRAMEROV D A.SINEs as potential expression cassettes:impact of deletions and insertions on polyadenylation and lifetime of B2 and ves SINE transcripts generated by RNA polymerase Ⅲ[J].International Journal of Molecular Sciences,2023,24(19):14600.
[32]KOSUSHKIN S A,USTYANTSEV I G,BORODULINA O R,et al.Tail wags dog’s SINE:retropositional mechanisms of can SINE depend on its A-tail structure[J].Biology,2022,11(10):1403.
[33]USTYANTSEV I G,BORODULINA O R,KRAMEROV D A.Identification of nucleotide sequences and some proteins involved in polyadenylation of RNA transcribed by Pol Ⅲ from SINEs[J].RNA Biology,2021,18(10):1475-1488.
[34]DEWANNIEUX M,HEIDMANN T.Role of poly(A)tail length in Alu retrotransposition[J].Genomics,2005,86(3):378-381.
[35]USTYANTSEV I G,TATOSYAN K A,STASENKO D V,et al.Polyadenylation of sine transcripts generated by RNA polymerase Ⅲ dramatically prolongs their lifetime in cells[J].Molekuliarnaia Biologiia,2020,54(1):78-86.
[36]STANBURY K,SCHOFIELD E C,MCLAUGHLIN B,et al.Exonic short interspersed nuclear element insertion in FAM161A is associated with autosomal recessive progressive retinal atrophy in the English shepherd[J].Genes,2024,15(7):952.
[37]HAN G J,ZHANG N,JIANG H,et al.Diversity of short interspersed nuclear elements (SINEs)in lepidopteran insects and evidence of horizontal SINE transfer between baculovirus and lepidopteran hosts[J].BMC Genomics,2021,22(1):226.
[38]HUANG J H,CHEN Z R,LI B,et al.RetroSeeker reveals the characteristics,expression,and evolution of a large set of novel retrotransposons[J].Advanced Biotechnology,2023,1(4):5.
[39]SCHWARTZ A M,TATOSYAN K A,STASENKO D V,et al.Regulation of transcription by RNA polymerase Ⅲ promotors in the norm and pathology[J].Molekuliarnaia Biologiia,2024,58(2):220-233.
[40]OSTERTAG E M,JR KAZAZIAN H H.Twin priming:a proposed mechanism for the creation of inversions in L1 retrotransposition[J].Genome Research,2001,11(12):2059-2065.
[41]SMIT A,HUBLEY R,GREEN P.RepeatMasker Open-4.0.2013—2015 [J].Institute for Systems Biology http://repeatmasker org,2015.
[42]MAO H L,WANG H.SINE_scan:an efficient tool to discover short interspersed nuclear elements (SINEs)in large-scale genomic datasets[J].Bioinformatics,2017,33(5):743-745.
[43]OU S J,SU W,LIAO Y,et al.Benchmarking transposable element annotation methods for creation of a streamlined,comprehensive pipeline[J].Genome Biology,2019,20(1):275.
[44]LI Y,JIANG N,SUN Y N.AnnoSINE:a short interspersed nuclear elements annotation tool for plant genomes[J].Plant Physiology,2022,188(2):955-970.
[45]CAMACHO C,COULOURIS G,AVAGYAN V,et al.BLAST+:architecture and applications[J].BMC Bioinformatics,2009,10:421.
[46]FAWCETT J A,INNAN H.High similarity between distantly related species of a plant SINE family is consistent with a scenario of vertical transmission without horizontal transfers[J].Molecular Biology and Evolution,2016,33(10):2593-2604.
[47]PONICSAN S L,KUGEL J F,GOODRICH J A.Genomic gems:SINE RNAs regulate mRNA production[J].Current Opinion in Genetics & Development,2010,20(2):149-155.
[48]LUCHETTI A,MANTOVANI B.Conserved domains and SINE diversity during animal evolution[J].Genomics,2013,102(4):296-300.
[49]PETERSON M,CHANDLER V L,BOSCO G.High SINE RNA expression correlates with post-transcriptional downregulation of BRCA1[J].Genes,2013,4(2):226-243.
[50]YAGI E,AKITA T,KAWAHARA T.A novel Au SINE sequence found in a gymnosperm[J].Genes & Genetic Systems,2011,86(1):19-25.
[51]WICKRAMAGE I,VANWYE J,MAX K,et al.SINE RNA of the imprinted miRNA clusters mediates constitutive type III interferon expression and antiviral protection in hemochorial placentas[J].Cell Host & Microbe,2023,31(7):1185-1199.
[52]JIANG N,BAO Z R,ZHANG X Y,et al.An active DNA transposon family in rice[J].Nature,2003,421(6919):163-167.
[53]NAITO K,ZHANG F,TSUKIYAMA T,et al.Unexpected consequences of a sudden and massive transposon amplification on rice gene expression[J].Nature,2009,461(7267):1130-1134.
[54]SHIRASAWA K,HIRAKAWA H,TABATA S,et al.Characterization of active miniature inverted-repeat transposable elements in the peanut genome[J].TAG Theoretical and Applied Genetics,2012,124(8):1429-1438.
[55]DERAGON J M,ZHANG X Y.Short interspersed elements (SINEs)in plants:origin,classification,and use as phylogenetic markers[J].Systematic Biology,2006,55(6):949-956.
[56]BAUCOM R S,ESTILL J C,CHAPARRO C,et al.Exceptional diversity,non-random distribution,and rapid evolution of retroelements in the B73 maize genome[J].PLoS Genetics,2009,5(11):e1000732.
[57]JURKA J.Sequence patterns indicate an enzymatic involvement in integration of mammalian retroposons[J].Proceedings of the National Academy of Sciences of the United States of America,1997,94(5):1872-1877.
[58]GENTLES A J,KOHANY O,JURKA J.Evolutionary diversity and potential recombinogenic role of integration targets of Non-LTR retrotransposons[J].Molecular Biology and Evolution,2005,22(10):1983-1991.
[59]ROY-ENGEL A M,SALEM A H,OYENIRAN O O,et al.Active Alu element “A-tails”:size does matter[J].Genome Research,2002,12(9):1333-1344.
[60]TATSUKI M,SOENO K,SHIMADA Y,et al.Insertion of a transposon-like sequence in the 5′-flanking region of the YUCCA gene causes the stony hard phenotype[J].Plant Journal,2018,96(4):815-827.
[61]YANG G J,LEE Y H,JIANG Y M,et al.A two-edged role for the transposable element Kiddo in the rice ubiquitin2 promoter[J].The Plant Cell,2005,17(5):1559-1568.
[62]ZHENG Y N,CHEN M J,XIONG D P,et al.Generation of OsGRF4 and OsSNAC1 alleles for improving rice agronomic traits by CRISPR/Cas9-mediated manipulation of transposable elements[J].Plant Biotechnology Journal,2024:834.
[63]SLOTKIN R K,VAUGHN M,BORGES F,et al.Epigenetic reprogramming and small RNA silencing of transposable elements in pollen[J].Cell,2009,136(3):461-472.
[64]MAO H D,JIAN C,CHENG X X,et al.The wheat ABA receptor gene TaPYL1-1B contributes to drought tolerance and grain yield by increasing water-use efficiency[J].Plant Biotechnology Journal,2022,20(5):846-861.
[65]MAKAREVITCH I,WATERS A J,WEST P T,et al.Transposable elements contribute to activation of maize genes in response to abiotic stress[J].PLoS Genetics,2015,11(1):e1004915.
[66]RICCI W A,LU Z F,JI L X,et al.Widespread longrange Cis-regulatory elements in the maize genome[J].Nature Plants,2019,5(12):1237-1249.
[67]WARMAN C,PANDA K,VEJLUPKOVA Z,et al.High expression in maize pollen correlates with genetic contributions to pollen fitness as well as with coordinated transcription from neighboring transposable elements[J].PLoS Genetics,2020,16(4):e1008462.
[68]LIANG Z K,ANDERSON S N,NOSHAY J M,et al.Genetic and epigenetic variation in transposable element expression responses to abiotic stress in maize[J].Plant Physiology,2021,186(1):420-433.
[69]ONG-ABDULLAH M,ORDWAY J M,JIANG N,et al.Loss of Karma transposon methylation underlies the mantled somaclonal variant of oil palm[J].Nature,2015,525(7570):533-537.
[70]CHEN G,WANG R L,JIANG Y Z,et al.A novel active transposon creates allelic variation through altered translation rate to influence protein abundance[J].Nucleic Acids Research,2023,51(2):595-609.
[71]SIGMAN M J,SLOTKIN R K.The first rule of plant transposable element silencing:location,location,location[J].The Plant Cell,2016,28(2):304-313.
[72]ZHANG H M,LANG Z B,ZHU J K.Dynamics and function of DNA methylation in plants[J].Nature Reviews Molecular Cell Biology,2018,19(8):489-506.
[73]STUART T,EICHTEN S R,CAHN J,et al.Population scale mapping of transposable element diversity reveals links to gene regulation and epigenomic variation[J].eLife,2016,5:e20777.
[74]QUADRANA L,BORTOLINI SILVEIRA A,MAYHEW G F,et al.The Arabidopsis thaliana mobilome and its impact at the species level[J].eLife,2016,5:e15716.
[75]NOSHAY J M,ANDERSON S N,ZHOU P,et al.Monitoring the interplay between transposable element families and DNA methylation in maize[J].PLoS Genetics,2019,15(9):e1008291.
[76]MATZKE M A,MOSHER R A.RNA-directed DNA methylation:an epigenetic pathway of increasing complexity[J].Nature Reviews Genetics,2014,15(6):394-408.
Research progress of short interspersed nuclear elements(SINE)in plant genomes
X