没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 #12

CrawlingSponge · 2022-04-15T14:05:08Z

陈老师，您好！
感谢您这个友好的注释流程，很有帮助！
最近在做哺乳动物基因组注释，由于没有转录组的情况，同源注释的软件比较发现GeMoMa的注释和近缘物种是很相似的。而genewise出来的结果当作augustus的训练集的时候，augustus预测出来的busco，不太高。而且基因结构分布和近缘物种也有差异。

所以，正在用GeMoMa的结果作为AUGUSTUS的输入文件，由于augustus训练遇到genewise的两个输入文件，其中一个是genewiss.gff3,另一个是genewise.start_stop_hints.gff，您是否可以提供一个脚本将GeMoMa的结果替换那个genewise的结果来进行训练。感激！

期待您的回复，
刘晓刚

chenlianfu · 2022-04-15T14:20:38Z

测了基因组，不可能没测转录组吧。若没有测转录组，推荐赶紧测，现在也不需要花多少钱。只要同源蛋白，特别是同源物种亲缘关系较远是，效果很差的。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2022年4月15日(周五) 晚上10:05 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [chenlianfu/geta] 没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 (Issue #12) 陈老师，您好！感谢您这个友好的注释流程，很有帮助！最近在做哺乳动物基因组注释，由于没有转录组的情况，同源注释的软件比较发现GeMoMa的注释和近缘物种是很相似的。而genewise出来的结果当作augustus的训练集的时候，augustus预测出来的busco，不太高。而且基因结构分布和近缘物种也有差异。所以，正在用GeMoMa的结果作为AUGUSTUS的输入文件，由于augustus训练遇到genewise的两个输入文件，其中一个是genewiss.gff3,另一个是genewise.start_stop_hints.gff，您是否可以提供一个脚本将GeMoMa的结果替换那个genewise的结果来进行训练。感激！期待您的回复，刘晓刚 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

CrawlingSponge · 2022-04-15T17:12:52Z

都是野生保护动物，只能抽血样，组织的转录组拿不到。
但是呢，近缘物种的序列之间很保守。所以，只能是利用同源基因去拿来训练了

CrawlingSponge · 2022-04-17T15:39:40Z

测了基因组，不可能没测转录组吧。若没有测转录组，推荐赶紧测，现在也不需要花多少钱。只要同源蛋白，特别是同源物种亲缘关系较远是，效果很差的。
…
---原始邮件--- 发件人: @.> 发送时间: 2022年4月15日(周五) 晚上10:05 收件人: @.>; 抄送: @.>; 主题: [chenlianfu/geta] 没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 (Issue #12) 陈老师，您好！感谢您这个友好的注释流程，很有帮助！最近在做哺乳动物基因组注释，由于没有转录组的情况，同源注释的软件比较发现GeMoMa的注释和近缘物种是很相似的。而genewise出来的结果当作augustus的训练集的时候，augustus预测出来的busco，不太高。而且基因结构分布和近缘物种也有差异。所以，正在用GeMoMa的结果作为AUGUSTUS的输入文件，由于augustus训练遇到genewise的两个输入文件，其中一个是genewiss.gff3,另一个是genewise.start_stop_hints.gff，您是否可以提供一个脚本将GeMoMa的结果替换那个genewise的结果来进行训练。感激！期待您的回复，刘晓刚 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

hrluo93 · 2022-06-17T11:26:06Z

你好！

我是搜索gemoma找到这里的跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没？

另外野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。结果在run_odb10/augustus_output/retraining_parameters/BUSCO 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字就可以利用busco的单拷贝xunlian 模型进行预测

CrawlingSponge · 2022-06-18T13:58:17Z

你好！

我是搜索gemoma找到这里的跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没？

另外野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字就可以利用busco的单拷贝xunlian 模型进行预测

同学你好，感谢你的解答，我下来试一试。

你遇到的那个报错应该是正则匹配的问题吧，就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的，你可以试着改一下，通常“/”或者“\”这类特殊符号都是需要进行转义的，所以你可以试着批量改一下这个试试，比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe，如果有需要我们可以交流一下哈

hrluo93 · 2022-06-23T10:31:46Z

你好！
我是搜索gemoma找到这里的跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没？
另外野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字就可以利用busco的单拷贝xunlian 模型进行预测

同学你好，感谢你的解答，我下来试一试。

你遇到的那个报错应该是正则匹配的问题吧，就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的，你可以试着改一下，通常“/”或者“\”这类特殊符号都是需要进行转义的，所以你可以试着批量改一下这个试试，比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe，如果有需要我们可以交流一下哈

你好！感谢！
我暂时放弃gemoma用gth和exonerate了。GitHub话有个busco2snap脚本也可以试试。
再次感谢！

CrawlingSponge · 2022-07-08T00:47:48Z

你好！
我是搜索gemoma找到这里的跑gemoma 用2近缘物种会报错 java.lang.IllegalArgumentException: Sequence ID (gene-PGR2/3_0) in fasta comment line (>gene-PGR2/3_0) does not match the regular expression for sequence IDs (([a-zA-Z-.:0-9]+(\d+)?)|([a-zA-Z-.:0-9]+_\d+)) 不知道您有遇到过没？
另外野生动物无转录组可以使用busco直接训练Augustus. busco V5 下使用 --long --augustus --augustus_parameters='--progress=true' 命令。结果在run___odb10/augustus_output/retraining_parameters/BUSCO__ 把这个BUSCO文件夹放入Augustus的species文件夹 augustus -species 这个文件夹名字就可以利用busco的单拷贝xunlian 模型进行预测

同学你好，感谢你的解答，我下来试一试。
你遇到的那个报错应该是正则匹配的问题吧，就是你的基因gene-PGR2/3_0,这个和他的默认匹配的gene的id是不匹配的，你可以试着改一下，通常“/”或者“\”这类特殊符号都是需要进行转义的，所以你可以试着批量改一下这个试试，比如替换为下划线或者短杠之类的。我也整理了跑gemoma的一些小的pipe，如果有需要我们可以交流一下哈

你好！感谢！我暂时放弃gemoma用gth和exonerate了。GitHub话有个busco2snap脚本也可以试试。再次感谢！

好的谢谢啦。我去试试LOL

CrawlingSponge closed this as completed Apr 17, 2022

CrawlingSponge reopened this Apr 17, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 #12

没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 #12

CrawlingSponge commented Apr 15, 2022

chenlianfu commented Apr 15, 2022 via email

CrawlingSponge commented Apr 15, 2022

CrawlingSponge commented Apr 17, 2022 •

edited

Loading

hrluo93 commented Jun 17, 2022

CrawlingSponge commented Jun 18, 2022 •

edited

Loading

hrluo93 commented Jun 23, 2022

CrawlingSponge commented Jul 8, 2022

没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 #12

没有转录组的情况，用GeMoMa的结果作为AUGUSTUS的输入文件 #12

Comments

CrawlingSponge commented Apr 15, 2022

chenlianfu commented Apr 15, 2022 via email

CrawlingSponge commented Apr 15, 2022

CrawlingSponge commented Apr 17, 2022 • edited Loading

hrluo93 commented Jun 17, 2022

CrawlingSponge commented Jun 18, 2022 • edited Loading

hrluo93 commented Jun 23, 2022

CrawlingSponge commented Jul 8, 2022

CrawlingSponge commented Apr 17, 2022 •

edited

Loading

CrawlingSponge commented Jun 18, 2022 •

edited

Loading