Skip to content

Commit

Permalink
meta tags aggregator
Browse files Browse the repository at this point in the history
  • Loading branch information
BeachWang committed Dec 19, 2024
1 parent 23e5d6f commit 1c74709
Showing 1 changed file with 19 additions and 19 deletions.
38 changes: 19 additions & 19 deletions data_juicer/ops/aggregator/meta_tags_aggregator.py
Original file line number Diff line number Diff line change
Expand Up @@ -35,17 +35,17 @@ class MetaTagsAggregator(Aggregator):
'| 养生 | 17 |\n'
'| 科学创新 | 10 |\n'
'\n'
'分析:“信息技术”、“人工智能”、“科学创新”都属于“科技”类别,“医疗'
'## 分析:“信息技术”、“人工智能”、“科学创新”都属于“科技”类别,“医疗'
'”和“养生”跟“健康”有关联,“学习”、“气候变化”和“科技”还有“健康”关'
'联不强,应该被归为“其他”。\n'
'标签合并:\n'
'医疗 -> 健康\n'
'信息技术 -> 科技\n'
'学习 -> 其他\n'
'气候变化 -> 其他\n'
'人工智能 -> 科技\n'
'养生 -> 健康\n'
'科学创新 -> 科技\n'
'## 标签合并:\n'
'医疗归类为健康\n'
'信息技术归类为科技\n'
'学习归类为其他\n'
'气候变化归类为其他\n'
'人工智能归类为科技\n'
'养生归类为健康\n'
'科学创新归类为科技\n'
'- 另外一种情况没有事先给定合并后的标签,需要生成合理的标签类别:'
'| 合并前标签 | 频次 |\n'
'| ------ | ------ |\n'
Expand All @@ -57,25 +57,25 @@ class MetaTagsAggregator(Aggregator):
'| 养生 | 17 |\n'
'| 科学创新 | 10 |\n'
'\n'
'分析:“信息技术”、“人工智能”、“科学创新”这三个标签比较相近,归为'
'## 分析:“信息技术”、“人工智能”、“科学创新”这三个标签比较相近,归为'
'同一类,都属于“科技”类别,“医疗”和“养生”都跟“健康”有关系,可以归'
'类为“健康”,“学习”和“气候变化”跟其他标签关联度不强,且频次较低,'
'统一归类为“其他”。\n'
'标签合并:\n'
'医疗 -> 健康\n'
'信息技术 -> 科技\n'
'学习 -> 其他\n'
'气候变化 -> 其他\n'
'人工智能 -> 科技\n'
'养生 -> 健康\n'
'科学创新 -> 科技\n')
'## 标签合并:\n'
'医疗归类为健康\n'
'信息技术归类为科技\n'
'学习归类为其他\n'
'气候变化归类为其他\n'
'人工智能归类为科技\n'
'养生归类为健康\n'
'科学创新归类为科技\n')

DEFAULT_INPUT_TEMPLATE = ('| 合并前标签 | 频次 |\n'
'| ------ | ------ |\n'
'{tag_strs}')
DEFAULT_TAG_TEMPLATE = '| {tag} | {cnt} |'

DEFAULT_OUTPUT_PATTERN = r'\n\s*(.*?)\s*->\s*(.*?)\s*(\Z|\n)'
DEFAULT_OUTPUT_PATTERN = r'\n(.*?)归类为(.*?)(\Z|\n)'

def __init__(self,
api_model: str = 'gpt-4o',
Expand Down

0 comments on commit 1c74709

Please sign in to comment.