Facultad de Ingeniería - Universidad de la República
En este documento se presentan las indicaciones para generar el ambiente de trabajo que se utilizará durante el curso para los desarrollos que se realicen. Sugerimos a los estudiantes instalar las herramientas aquí presentadas, para facilitar el desarrollo de las tareas que se indiquen durante el curso, y para luego realizar el trabajo final.
El ambiente está compuesto por entornos y herramientas muy populares, todas de código abierto, que permiten el desarrollo tanto en Python como en R.
Anaconda es una distribución de Python y R pensada especialmente para desarrollos de Ciencia de Datos. Incluye (o permite desargar) múltiples paquetes de computación científica que ya vienen por defecto. Viene con un gestor de instalaciones, ambientes y dependencias llamado conda muy fácil de utilizar.
Anaconda y sus paquetes están disponible para todas las plataformas (Linux, Windows, Mac OS X).
Para instalar Anaconda, descárgue la versión para Python 3.7 correspondiente a su Sistema Operativo aquí. Una vez instalado, hay dos formas principales de acceder:
- Vía la línea de comandos, utilizando conda
- Vía un navegador gráfico llamado Anaconda Navigator.
Para verificar que ha instalado correctamente la distribución o para actualizar la distribución a las últimas versiones, abra una terminal, y ejecute los comandos:
$ conda update conda
$ conda update anaconda
Links adicionales:
Por defecto, Anaconda no incluye el intérprete y los paquetes principales de R, así que debemos instalarlos. Como ya tenemos conda, lo utilizamos:
$ conda install r-base r-essentials
Los notebooks de Jupyter son una herramienta de código abierto que permiten crear documentos que incluyen código ejecutable, así como visualizaciones, ecuaciones, y texto. Permiten experimentar fácilmente, y distribuir en forma conjunta análisis realizados y los comentarios asociados, así como reproducirlos por parte de quien los recibe. En principio, los documentos e informes utilizados en este curso serán todos Jupyter Notebooks. El nombre Jupyter surge de Julia, Python y R, tres de los principales lenguajes de programación utilizados en la Ciencia de Datos.
Para ejecutar un notebook de Jupyter, ir al directorio donde existe el notebook (la extensión de los notebooks es .ipynb) y ejecutar
$ jupyter notebook
Esto creará un servidor, y probablemente abra un link en su navegador para poder acceder a una visión de los directorios con los archivos. Si no lo abre, el notebook queda corriendo en esta dirección local:
La nueva interfaz para los notebooks se llama Jupyter Lab, y presenta varias innovaciones para facilitar el uso. Para acceder a Jupyter Lab, utilizando el mismo servidor, basta con acceder a la dirección:
(también es posible, para ejecutar los notebooks bajo Jupyter lab, ejecutar directamente "jupyter lab" en la línea de comandos al comienzo).
Los notebooks de Jupyter presentan varias facilidades para programar en entornos interactivos, permitiendo documentos "vivos", donde es posible inspeccionar el ambiente de desarrollo, realizar pruebas, documentar (utilizando los lenguaajes Markdown e incluso fórmulas al estilo LaTeX), incluir imágenes, etc.
Por más información, consultar la documentación o uno de los miles de tutoriales que hay en Internet.
Un aspecto interesante de los Notebooks de Jupyter es que github los visualiza automáticamente.
Para esto, utilice Jupyter Lab, y cree un nuevo documento. La interfaz deberá ofrecerle la opción de crear un notebook de R o de Python. En el mismo directorio que este documento están los Notebooks HelloR.ipynb y HelloPython.ipynb. Intente abrirlos y ejecutar el código. Si no tiene errores, usted tiene seguramente el ambiente configurado para empezar a trabajar.
Bienvenidos al curso de Introducción a la Ciencia de Datos