From 1c747096deb6a7b30a8eb936bfa1018def28d656 Mon Sep 17 00:00:00 2001 From: Haibin <1400012807@pku.edu.cn> Date: Thu, 19 Dec 2024 16:06:10 +0800 Subject: [PATCH] meta tags aggregator --- .../ops/aggregator/meta_tags_aggregator.py | 38 +++++++++---------- 1 file changed, 19 insertions(+), 19 deletions(-) diff --git a/data_juicer/ops/aggregator/meta_tags_aggregator.py b/data_juicer/ops/aggregator/meta_tags_aggregator.py index 58a5dc018..454602657 100644 --- a/data_juicer/ops/aggregator/meta_tags_aggregator.py +++ b/data_juicer/ops/aggregator/meta_tags_aggregator.py @@ -35,17 +35,17 @@ class MetaTagsAggregator(Aggregator): '| 养生 | 17 |\n' '| 科学创新 | 10 |\n' '\n' - '分析:“信息技术”、“人工智能”、“科学创新”都属于“科技”类别,“医疗' + '## 分析:“信息技术”、“人工智能”、“科学创新”都属于“科技”类别,“医疗' '”和“养生”跟“健康”有关联,“学习”、“气候变化”和“科技”还有“健康”关' '联不强,应该被归为“其他”。\n' - '标签合并:\n' - '医疗 -> 健康\n' - '信息技术 -> 科技\n' - '学习 -> 其他\n' - '气候变化 -> 其他\n' - '人工智能 -> 科技\n' - '养生 -> 健康\n' - '科学创新 -> 科技\n' + '## 标签合并:\n' + '医疗归类为健康\n' + '信息技术归类为科技\n' + '学习归类为其他\n' + '气候变化归类为其他\n' + '人工智能归类为科技\n' + '养生归类为健康\n' + '科学创新归类为科技\n' '- 另外一种情况没有事先给定合并后的标签,需要生成合理的标签类别:' '| 合并前标签 | 频次 |\n' '| ------ | ------ |\n' @@ -57,25 +57,25 @@ class MetaTagsAggregator(Aggregator): '| 养生 | 17 |\n' '| 科学创新 | 10 |\n' '\n' - '分析:“信息技术”、“人工智能”、“科学创新”这三个标签比较相近,归为' + '## 分析:“信息技术”、“人工智能”、“科学创新”这三个标签比较相近,归为' '同一类,都属于“科技”类别,“医疗”和“养生”都跟“健康”有关系,可以归' '类为“健康”,“学习”和“气候变化”跟其他标签关联度不强,且频次较低,' '统一归类为“其他”。\n' - '标签合并:\n' - '医疗 -> 健康\n' - '信息技术 -> 科技\n' - '学习 -> 其他\n' - '气候变化 -> 其他\n' - '人工智能 -> 科技\n' - '养生 -> 健康\n' - '科学创新 -> 科技\n') + '## 标签合并:\n' + '医疗归类为健康\n' + '信息技术归类为科技\n' + '学习归类为其他\n' + '气候变化归类为其他\n' + '人工智能归类为科技\n' + '养生归类为健康\n' + '科学创新归类为科技\n') DEFAULT_INPUT_TEMPLATE = ('| 合并前标签 | 频次 |\n' '| ------ | ------ |\n' '{tag_strs}') DEFAULT_TAG_TEMPLATE = '| {tag} | {cnt} |' - DEFAULT_OUTPUT_PATTERN = r'\n\s*(.*?)\s*->\s*(.*?)\s*(\Z|\n)' + DEFAULT_OUTPUT_PATTERN = r'\n(.*?)归类为(.*?)(\Z|\n)' def __init__(self, api_model: str = 'gpt-4o',