Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

三代全长及注释基因过多 #18

Open
xingjianfeng100 opened this issue Oct 22, 2022 · 5 comments
Open

三代全长及注释基因过多 #18

xingjianfeng100 opened this issue Oct 22, 2022 · 5 comments

Comments

@xingjianfeng100
Copy link

xingjianfeng100 commented Oct 22, 2022

陈老师,您好!
目前随着三代测序成本下降,三代全长也被越来越多人使用;另外基因组里也发现存在一些较长的基因,需要三代全长来提高其注释准确性;请问陈老师,geta流程在注释过程中能否融入三代全长的信息?
另外我在用gete做注释时发现注释出来的基因过多,一般我研究的物种已发表的注释结果在4万左右,我用去冗余的基因组注释却得到了8万多的基因,而且短基因(蛋白长度100aa以内的)也不过在8000千的数量;请问这是什么原因引起的,怎么解决呢?谢谢!
祝好!

@chenlianfu
Copy link
Owner

使用最新版本(2.5.3)的GETA,并使用--conf参数使用conf_for_big_genome.txt参数配置文件,相信预测出来的基因数量会符合预期,且BUSCO结果会很完整的。最新版本的GETA预测基因更加准确,数量更符合预期,整体完整度更高,还包含更多更准确的可变剪接与lncRNA转录本信息。当前并不支持使用三代全长转录本进行注释,稍后版本应该会增加的。

@xingjianfeng100
Copy link
Author

使用最新版本(2.5.3)的GETA,并使用--conf参数使用conf_for_big_genome.txt参数配置文件,相信预测出来的基因数量会符合预期,且BUSCO结果会很完整的。最新版本的GETA预测基因更加准确,数量更符合预期,整体完整度更高,还包含更多更准确的可变剪接与lncRNA转录本信息。当前并不支持使用三代全长转录本进行注释,稍后版本应该会增加的。

好的,谢谢陈老师!我在尝试能不能暂时先简单地将三代iso-seq融入geta流程:首先用三代数据得到转录本去冗余数据iso-seq.fa;然后用pasa (1)将geta 利用二代数据得到的transdecoder2ORF.gff3 与iso-seq做融合“Launch_PASA_pipeline.pl -c alignAssembly.config -C -R -g genome_sample.fasta --ALIGNERS blat,gmap -t Trinity.fasta -L --annots_gff3 coding_gene_annotations.gff3 --gene_overlap 50.0 ”,将得到的gff 文件GFF3Clear生成transfrag.genome.gff3 后继续进行geta流程分析;(2)或者首先利用geta自身产生的transfrag.genome.gff3 得到geta_rna.fa,然后利用pasa 的Comprehensive Transcriptome Database 策略,用build_comprehensive_transcriptome.dbi 对geta_rna.fa、iso-seq.fa进行转录本信息融合得到compreh_init_build.gff3,再进一步GFF3Clear生成transfrag.genome.gff3 后继续进行geta流程分析;不知以上利用pasa进行简单融合三代的策略可不可行?

@chenlianfu
Copy link
Owner

你可以尝试第二个方法,是可行的。

@xingjianfeng100
Copy link
Author

xingjianfeng100 commented Nov 1, 2022

你可以尝试第二个方法,是可行的。

pasa的作者认为“the 'build_comprehensive_transcriptome' step just takes into account de novo assembled transcripts that partially or don't map to the reference genome and includes those in the final output.”,所以他更支持这种方法:先把两种RNA 由Stringtie组装出转录本fa数据以及各自的gff文件,然后融合成一个文件,再输入pasa 并用“--TRANSDECODER” PASApipeline/PASApipeline#245 (comment)
我考虑是不是先用transdecoder2ORF.gff3生成的 geta.fa,和去冗余后的iso-seq.fa 合并成一个fa文件, 用minimap2进行比对,并经Stringtie 的长读长模式 生成的stringtie.fa和stringtie.gtf ;或者,只用iso-seq.fa 生成stringtie-iso.fa和stringtie-iso.gff; 然后和 geta.fa 以及transdecoder2ORF.gtf 合并;后输入pasa 并用“--TRANSDECODER” 参数生成pasa.gff,然后由GFF3Clear生成transfrag.genome.gff3 后继续进行geta流程分析;不知陈老师怎么看?

@qdu-beep
Copy link

使用最新版本(2.5.3)的GETA,并使用--conf参数使用conf_for_big_genome.txt参数配置文件,相信预测出来的基因数量会符合预期,且BUSCO结果会很完整的。最新版本的GETA预测基因更加准确,数量更符合预期,整体完整度更高,还包含更多更准确的可变剪接与lncRNA转录本信息。当前并不支持使用三代全长转录本进行注释,稍后版本应该会增加的。

陈老师,您好,请问现在的geta最新版本是否支持三代转录组作为--sam参数的输入,进行注释?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants