Skip to content

Commit

Permalink
meta tags aggregator
Browse files Browse the repository at this point in the history
  • Loading branch information
BeachWang committed Dec 19, 2024
1 parent a997726 commit 2642847
Showing 1 changed file with 15 additions and 15 deletions.
30 changes: 15 additions & 15 deletions data_juicer/ops/aggregator/meta_tags_aggregator.py
Original file line number Diff line number Diff line change
Expand Up @@ -39,13 +39,13 @@ class MetaTagsAggregator(Aggregator):
'”和“养生”跟“健康”有关联,“学习”、“气候变化”和“科技”还有“健康”关'
'联不强,应该被归为“其他”。\n'
'## 标签合并:\n'
'医疗归类为健康\n'
'信息技术归类为科技\n'
'学习归类为其他\n'
'气候变化归类为其他\n'
'人工智能归类为科技\n'
'养生归类为健康\n'
'科学创新归类为科技\n'
'** 医疗归类为健康 **\n'
'** 信息技术归类为科技 **\n'
'** 学习归类为其他 **\n'
'** 气候变化归类为其他 **\n'
'** 人工智能归类为科技 **\n'
'** 养生归类为健康 **\n'
'** 科学创新归类为科技 **\n'
'- 另外一种情况没有事先给定合并后的标签,需要生成合理的标签类别:'
'| 合并前标签 | 频次 |\n'
'| ------ | ------ |\n'
Expand All @@ -62,20 +62,20 @@ class MetaTagsAggregator(Aggregator):
'类为“健康”,“学习”和“气候变化”跟其他标签关联度不强,且频次较低,'
'统一归类为“其他”。\n'
'## 标签合并:\n'
'医疗归类为健康\n'
'信息技术归类为科技\n'
'学习归类为其他\n'
'气候变化归类为其他\n'
'人工智能归类为科技\n'
'养生归类为健康\n'
'科学创新归类为科技\n')
'** 医疗归类为健康 **\n'
'** 信息技术归类为科技 **\n'
'** 学习归类为其他 **\n'
'** 气候变化归类为其他 **\n'
'** 人工智能归类为科技 **\n'
'** 养生归类为健康 **\n'
'** 科学创新归类为科技 **\n')

DEFAULT_INPUT_TEMPLATE = ('| 合并前标签 | 频次 |\n'
'| ------ | ------ |\n'
'{tag_strs}')
DEFAULT_TAG_TEMPLATE = '| {tag} | {cnt} |'

DEFAULT_OUTPUT_PATTERN = r'\n(\w+)归类为(\w+)($|\n)'
DEFAULT_OUTPUT_PATTERN = r'\*\*\s*(\w+)归类为(\w+)\s*\*\*'

def __init__(self,
api_model: str = 'gpt-4o',
Expand Down

0 comments on commit 2642847

Please sign in to comment.