Skip to content

Latest commit

 

History

History
73 lines (47 loc) · 2.72 KB

README.md

File metadata and controls

73 lines (47 loc) · 2.72 KB

Danawa PC 부품 크롤러

이 프로젝트는 다나와 웹사이트에서 PC 부품 정보를 자동으로 수집하는 크롤러입니다.

매일 UTC 15시 (한국 시간 기준 자정)에 자동으로 Workflow가 실행되어 최신 데이터가 갱신됩니다.

직접 실행할 필요 없이 데이터 확인만이 필요하실 경우 dataset 폴더 내의 JSON 파일을 확인하시기 바랍니다.

또한 dataset/history 폴더에서 지난 데이터를 확인할 수 있습니다.

기능

  • 다나와 웹사이트에서 지정된 카테고리의 PC 부품 정보를 수집합니다.
  • 수집된 정보는 JSON 형식으로 저장됩니다.
  • 멀티스레딩을 사용하여 여러 카테고리를 동시에 크롤링합니다.
  • 선택적으로 제품 이미지를 다운로드할 수 있습니다.

요구사항

  • Python 3.7 이상
  • pip (Python 패키지 관리자)

설치

  1. 이 저장소를 클론합니다:

    git clone https://github.com/your-username/Danawa-PCParts-Crawler.git
    cd Danawa-PCParts-Crawler
    
  2. 필요한 패키지를 설치합니다:

    pip install -r requirements.txt
    

사용 방법

  1. target-list.json 파일에 크롤링할 카테고리와 URL을 지정합니다. (링크를 직접 확인해보시면 대부분의 카테고리는 동일한 레이아웃을 가지고있습니다. 미리 사전작성된 카테고리 리스트 외에도 레이아웃이 동일한 다른 카테고리들을 추가하실 수 있습니다. 대표적으로 주변기기 대분류의 모니터 카테고리가 있습니다.)

  2. 기본 옵션으로 크롤러 실행 (멀티 스레드로 동시에 모든 카테고리를 크롤링함):

    python crawler.py
    

    상품 이미지 다운로드를 허용:

    python crawler.py --save-images
    
  3. 크롤링 결과는 dataset 폴더에 JSON 파일로 저장됩니다.

주의사항

  • 이 크롤러는 교육 및 개인 사용 목적으로만 사용해야 합니다.
  • 다나와의 서버에 과도한 부하를 주지 않도록 주의하세요.
  • 크롤링한 데이터의 상업적 사용은 법적 문제를 일으킬 수 있습니다.

라이선스

이 프로젝트는 MIT 라이선스 하에 배포됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.

기여

버그 리포트, 기능 제안, 풀 리퀘스트 등 모든 기여를 환영합니다. 중요한 변경사항이나 제안사항이 있으시다면 먼저 이슈를 열어 논의해 주세요.

연락처

프로젝트 개발자: Xeros


이 프로젝트는 다나와(http://www.danawa.com)의 공식 API나 승인을 받지 않았습니다. 비상업적 용도로만 사용해 주시기 바랍니다.