scraping script for https://books.toscrape.com/ (beta version), all details in mission folder
# navigation dans un terminal :
pwd # affiche le repertoire de travail
ls # liste les éléments contenus dans répertoire
cd .. # permet de remonter au dossier parent
cd 'name_dossier' # permet d'accéder à un dossier fils
3. Créer un nouveau dossier "etl_script" où l'on va importer le script python ETL à l'aide de la commande "mkdir" :
mkdir etl_script
cd etl_script
git clone https://github.com/Nidal94320/OC_P2.git
python -m venv env
env/Scripts/activate # sous Windows
source env/bin/activate # sous Mac
pip install –r requirements.txt
9. Exécuter le script en entrant la commande "python main.py" (patienter 5-10mn jusqu’à la fin de l’exécution) :
python main.py
cd data # Pour accéder aux données des livres de chaque catégorie au format csv
cd data/img # Pour accéder aux images des livres
# to navigate in a terminal:
pwd # print working directory
ls # list folder elements
cd .. # navigate to the parent folder
cd 'name_dossier' # navigate to a son folder
mkdir etl_script
cd etl_script
git clone https://github.com/Nidal94320/OC_P2.git
python -m venv env
env/Scripts/activate # under Windows
source env/bin/activate # under Mac
pip install –r requirements.txt
python main.py
cd data # To get books data through csv files (more info about how to read csv files https://www.youtube.com/watch?v=XsTvCcejcYE)
cd data/img # to get books images
If you have any feedback or questions, please reach out to me at [email protected]