Skip to content

Latest commit

 

History

History
28 lines (24 loc) · 747 Bytes

README.md

File metadata and controls

28 lines (24 loc) · 747 Bytes

Projet MAD

Web crawling de Wikipedia, en partant de la page concernant l'analyse de données.

Installation

  # Install dependencies
  bundle

Usage

Crawling à partir de URL, de profondeur DEPTH du parcours, avec THREAD_COUNT threads en parallèle, et écriture des données dans FILE sous la forme : url\tmot\tfrequence\n

  ruby crawler.rb URL FILE DEPTH THREAD_COUNT

On peut stopper le processus sans conséquence.

Analyse des données, en prenant les WORD_COUNT mots les plus fréquents dans tous les documents, qu'on appelle par la commande :

  ruby analyzer.rb SRC DEST WORD_COUNT

où SRC est le fichier à analyser, DEST le fichier dans lequel on écrit les résultats