Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

没有转录组的情况,用GeMoMa的结果作为AUGUSTUS的输入文件 #12

Open
CrawlingSponge opened this issue Apr 15, 2022 · 7 comments

Comments

@CrawlingSponge
Copy link

陈老师,您好!
感谢您这个友好的注释流程,很有帮助!
最近在做哺乳动物基因组注释,由于没有转录组的情况,同源注释的软件比较发现GeMoMa的注释和近缘物种是很相似的。而genewise出来的结果当作augustus的训练集的时候,augustus预测出来的busco,不太高。而且基因结构分布和近缘物种也有差异。

所以,正在用GeMoMa的结果作为AUGUSTUS的输入文件,由于augustus训练遇到genewise的两个输入文件,其中一个是genewiss.gff3,另一个是genewise.start_stop_hints.gff,您是否可以提供一个脚本将GeMoMa的结果替换那个genewise的结果来进行训练。感激!

期待您的回复,
刘晓刚

@chenlianfu
Copy link
Owner

chenlianfu commented Apr 15, 2022 via email

@CrawlingSponge
Copy link
Author

都是野生保护动物,只能抽血样,组织的转录组拿不到。
但是呢,近缘物种的序列之间很保守。所以,只能是利用同源基因去拿来训练了

@CrawlingSponge
Copy link
Author

CrawlingSponge commented Apr 17, 2022

测了基因组,不可能没测转录组吧。若没有测转录组,推荐赶紧测,现在也不需要花多少钱。只要同源蛋白,特别是同源物种亲缘关系较远是,效果很差的。

---原始邮件--- 发件人: @.> 发送时间: 2022年4月15日(周五) 晚上10:05 收件人: @.>; 抄送: @.>; 主题: [chenlianfu/geta] 没有转录组的情况,用GeMoMa的结果作为AUGUSTUS的输入文件 (Issue #12) 陈老师,您好! 感谢您这个友好的注释流程,很有帮助! 最近在做哺乳动物基因组注释,由于没有转录组的情况,同源注释的软件比较发现GeMoMa的注释和近缘物种是很相似的。而genewise出来的结果当作augustus的训练集的时候,augustus预测出来的busco,不太高。而且基因结构分布和近缘物种也有差异。 所以,正在用GeMoMa的结果作为AUGUSTUS的输入文件,由于augustus训练遇到genewise的两个输入文件,其中一个是genewiss.gff3,另一个是genewise.start_stop_hints.gff,您是否可以提供一个脚本将GeMoMa的结果替换那个genewise的结果来进行训练。感激! 期待您的回复, 刘晓刚 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

@hrluo93
Copy link

hrluo93 commented Jun 17, 2022

你好!

我是搜索gemoma找到这里的 跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没?

另外 野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。 结果在run_odb10/augustus_output/retraining_parameters/BUSCO 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字 就可以利用busco的单拷贝xunlian 模型进行预测

@CrawlingSponge
Copy link
Author

CrawlingSponge commented Jun 18, 2022

你好!

我是搜索gemoma找到这里的 跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没?

另外 野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。 结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字 就可以利用busco的单拷贝xunlian 模型进行预测

同学 你好,感谢你的解答,我下来试一试。

你遇到的那个报错应该是正则匹配的问题吧,就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的,你可以试着改一下,通常“/”或者“\”这类特殊符号都是需要进行转义的,所以你可以试着批量改一下这个试试,比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe,如果有需要 我们可以交流一下哈

@hrluo93
Copy link

hrluo93 commented Jun 23, 2022

你好!
我是搜索gemoma找到这里的 跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没?
另外 野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。 结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字 就可以利用busco的单拷贝xunlian 模型进行预测

同学 你好,感谢你的解答,我下来试一试。

你遇到的那个报错应该是正则匹配的问题吧,就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的,你可以试着改一下,通常“/”或者“\”这类特殊符号都是需要进行转义的,所以你可以试着批量改一下这个试试,比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe,如果有需要 我们可以交流一下哈

你好! 感谢!
我暂时放弃gemoma用gth和exonerate了。GitHub话有个busco2snap脚本也可以试试。
再次感谢!

@CrawlingSponge
Copy link
Author

你好!
我是搜索gemoma找到这里的 跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没?
另外 野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。 结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字 就可以利用busco的单拷贝xunlian 模型进行预测

同学 你好,感谢你的解答,我下来试一试。
你遇到的那个报错应该是正则匹配的问题吧,就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的,你可以试着改一下,通常“/”或者“\”这类特殊符号都是需要进行转义的,所以你可以试着批量改一下这个试试,比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe,如果有需要 我们可以交流一下哈

你好! 感谢! 我暂时放弃gemoma用gth和exonerate了。GitHub话有个busco2snap脚本也可以试试。 再次感谢!

好的 谢谢啦。我去试试LOL

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants