diff --git a/data_juicer/ops/aggregator/meta_tags_aggregator.py b/data_juicer/ops/aggregator/meta_tags_aggregator.py index a24025392..b47528d7a 100644 --- a/data_juicer/ops/aggregator/meta_tags_aggregator.py +++ b/data_juicer/ops/aggregator/meta_tags_aggregator.py @@ -39,13 +39,13 @@ class MetaTagsAggregator(Aggregator): '”和“养生”跟“健康”有关联,“学习”、“气候变化”和“科技”还有“健康”关' '联不强,应该被归为“其他”。\n' '## 标签合并:\n' - '医疗归类为健康\n' - '信息技术归类为科技\n' - '学习归类为其他\n' - '气候变化归类为其他\n' - '人工智能归类为科技\n' - '养生归类为健康\n' - '科学创新归类为科技\n' + '** 医疗归类为健康 **\n' + '** 信息技术归类为科技 **\n' + '** 学习归类为其他 **\n' + '** 气候变化归类为其他 **\n' + '** 人工智能归类为科技 **\n' + '** 养生归类为健康 **\n' + '** 科学创新归类为科技 **\n' '- 另外一种情况没有事先给定合并后的标签,需要生成合理的标签类别:' '| 合并前标签 | 频次 |\n' '| ------ | ------ |\n' @@ -62,20 +62,20 @@ class MetaTagsAggregator(Aggregator): '类为“健康”,“学习”和“气候变化”跟其他标签关联度不强,且频次较低,' '统一归类为“其他”。\n' '## 标签合并:\n' - '医疗归类为健康\n' - '信息技术归类为科技\n' - '学习归类为其他\n' - '气候变化归类为其他\n' - '人工智能归类为科技\n' - '养生归类为健康\n' - '科学创新归类为科技\n') + '** 医疗归类为健康 **\n' + '** 信息技术归类为科技 **\n' + '** 学习归类为其他 **\n' + '** 气候变化归类为其他 **\n' + '** 人工智能归类为科技 **\n' + '** 养生归类为健康 **\n' + '** 科学创新归类为科技 **\n') DEFAULT_INPUT_TEMPLATE = ('| 合并前标签 | 频次 |\n' '| ------ | ------ |\n' '{tag_strs}') DEFAULT_TAG_TEMPLATE = '| {tag} | {cnt} |' - DEFAULT_OUTPUT_PATTERN = r'\n(\w+)归类为(\w+)($|\n)' + DEFAULT_OUTPUT_PATTERN = r'\*\*\s*(\w+)归类为(\w+)\s*\*\*' def __init__(self, api_model: str = 'gpt-4o',