-
Notifications
You must be signed in to change notification settings - Fork 1
/
validate.py
98 lines (72 loc) · 3.19 KB
/
validate.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
import os
import json
import logging
from datetime import datetime
from collections import defaultdict
def setup_logger():
"""로깅 설정"""
log_dir = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'log')
os.makedirs(log_dir, exist_ok=True)
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
log_file = os.path.join(log_dir, f'validate_{timestamp}.log')
logger = logging.getLogger('validator')
logger.setLevel(logging.INFO)
file_handler = logging.FileHandler(log_file, encoding='utf-8')
file_handler.setLevel(logging.INFO)
console_handler = logging.StreamHandler()
console_handler.setLevel(logging.INFO)
formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
file_handler.setFormatter(formatter)
console_handler.setFormatter(formatter)
logger.addHandler(file_handler)
logger.addHandler(console_handler)
return logger
def validate_json_files():
logger = setup_logger()
# dataset 디렉토리 경로
dataset_dir = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'dataset')
if not os.path.exists(dataset_dir):
logger.error(f"dataset 디렉토리를 찾을 수 없습니다: {dataset_dir}")
return
# 모든 제품 정보를 저장할 딕셔너리
all_products = defaultdict(list)
duplicate_count = 0
total_products = 0
# 각 JSON 파일 검사
for filename in os.listdir(dataset_dir):
if not filename.endswith('.json'):
continue
category = filename.replace('.json', '')
file_path = os.path.join(dataset_dir, filename)
logger.info(f"\n{category} 파일 검사 중...")
try:
with open(file_path, 'r', encoding='utf-8') as f:
products = json.load(f)
category_products = len(products)
total_products += category_products
logger.info(f"{category}: {category_products}개 제품 확인")
# 중복 검사
for product in products:
product_name = product.get('제품명', '')
if not product_name:
logger.warning(f"제품명이 없는 항목 발견: {product}")
continue
all_products[product_name].append(category)
except Exception as e:
logger.error(f"{filename} 파일 처리 중 오류 발생: {str(e)}")
continue
# 중복 항목 보고
logger.info("\n중복 항목 검사 결과:")
for product_name, categories in all_products.items():
if len(categories) > 1:
duplicate_count += 1
logger.warning(f"중복 제품: {product_name}")
logger.warning(f"발견된 카테고리: {', '.join(categories)}")
# 최종 보고서
logger.info("\n검증 완료:")
logger.info(f"총 제품 수: {total_products}개")
logger.info(f"중복 제품 수: {duplicate_count}개")
if duplicate_count == 0:
logger.info("중복되는 제품이 없습니다.")
if __name__ == "__main__":
validate_json_files()