Skip to content

데이터를 수집한 방법

[2기-1반] 이정규 edited this page Sep 29, 2021 · 2 revisions

데이터를 얻어오기 위한 사이트

Contents Data

  • TMDB
  • JustWatch
  • JustWatch에 없는 기타 OTT서비스 플랫폼 (쿠팡플레이, 티빙등..)

OTT서비스 Data

  • 각 OTT서비스 사이트

얻어오는 방법

Contents Data

  1. BeatuifulSoup을 이용해 크롤링 하는 방법
    • 장점
      가장 쉬운 방법.
    • 단점
      위 사이트 3군데가 무한 스크롤 형식으로 계속해서 웹페이지의 변화를 줘야하므로 어려움
  2. Selenium
    • 장점
      무한 스크롤의 문제를 해결했음.
    • 단점
      실제 웹브라우저를 띄워 실행하는 것으로 매우 느리고 데이터가 1980개 이상이 넘어가면 더이상 스크롤을 지원하지 않는 문제가 발생해 전체 데이터를 가져오는데 어려움이 있음
  3. api서버에 "직접" 요청하여 데이터를 얻어오는 방법
    • 장점
      해당 api주소로 직접 요청하여 데이터를 얻어오기 때문에 매우 빠르다.
      크롤링 할 필요가 없다.

만약 api서버에 요청하는 URL이 Encoding되어 있다면 URL Decoder를 통해 Decoding한 뒤에 사용한다.

Clone this wiki locally