Skip to content

데이터를 수집한 방법

[2기-1반] 이정규 edited this page Sep 29, 2021 · 2 revisions

데이터를 얻어오기 위한 사이트

Contents Data

  • TMDB
  • JustWatch
  • JustWatch에 없는 기타 OTT서비스 플랫폼 (쿠팡플레이, 티빙등..)

OTT서비스 Data

  • 각 OTT서비스 사이트

데이터를 얻어오기 위해 생각한 방법들

Contents Data

  1. BeatuifulSoup을 이용해 크롤링 하는 방법
    • 장점
      가장 쉬운 방법.
    • 단점
      위 사이트 3군데가 무한 스크롤 형식으로 계속해서 웹페이지의 변화를 줘야하므로 어려움
  2. Selenium
    • 장점
      무한 스크롤의 문제를 해결했음.
    • 단점
      실제 웹브라우저를 띄워 실행하는 것으로 매우 느리고 데이터가 1980개 이상이 넘어가면 더이상 스크롤을 지원하지 않는 문제가 발생해 전체 데이터를 가져오는데 어려움이 있음

해결 방안

api서버에 "직접" 요청하여 데이터를 얻어오는 방법

api주소의 규칙성만 찾아낸다면 데이터를 충분히 얻어올 수 있다.
api주소로 직접 요청하여 데이터를 얻어오기 때문에 매우 빠르다.

만약 api서버에 요청하는 URL이 Encoding되어 있다면 URL Decoder를 통해 Decoding한 뒤에 사용한다.