Skip to content

gonzalezulises/101_Data_Analytics_Rizoma

Repository files navigation

Repositorio de curso sobre Data Analytics

Data Analytics (DA) es un campo fundamental que se dedica a la exploración y el análisis de grandes volúmenes de datos para extraer información valiosa sobre el desempeño empresarial pasado. Este análisis permite a las organizaciones obtener una visión clara de sus operaciones históricas, identificar patrones y tendencias, y utilizar estos conocimientos para guiar la planificación y la toma de decisiones estratégicas futuras.

El curso de Data Analytics que presentamos está diseñado para proporcionar una comprensión profunda de los métodos avanzados centrados en datos. Estos métodos abarcan las tres direcciones principales de la Business Analytics (BA):

  • Análisis Descriptivo: Responde a la pregunta "¿Qué pasó?". Se centra en la interpretación de datos históricos para identificar patrones, tendencias y anomalías. Este tipo de análisis es fundamental para entender el contexto y el desempeño pasado de una organización. Utiliza técnicas como la estadística descriptiva, visualización de datos y la elaboración de informes para transformar datos en información comprensible.

  • Análisis Predictivo: Responde a la pregunta "¿Qué pasará?". Utiliza técnicas estadísticas y de machine learning para hacer predicciones sobre futuros eventos basándose en datos históricos y actuales. Este análisis permite a las organizaciones anticipar tendencias, comportamientos y resultados futuros. Herramientas como modelos de regresión, análisis de series temporales y algoritmos de clasificación son cruciales en esta etapa.

  • Análisis Prescriptivo: Responde a la pregunta "¿Qué debería pasar?". Va un paso más allá del análisis predictivo al no solo prever lo que podría suceder, sino también recomendar acciones específicas que podrían afectar esos resultados futuros. Este análisis utiliza técnicas avanzadas de optimización y simulación para proporcionar recomendaciones sobre la mejor manera de manejar posibles escenarios futuros.

El curso aplica estos métodos a diversos casos de negocios para demostrar cómo se puede extraer valor comercial de los datos. Los estudiantes aprenderán a brindar soporte para la toma de decisiones basada en datos y a implementar principios efectivos de gestión de datos. Los casos de estudio abarcarán una variedad de industrias y situaciones, ofreciendo una perspectiva amplia y aplicada del análisis de datos.

Los participantes adquirirán habilidades prácticas en el uso de herramientas y software de análisis de datos, desarrollando la capacidad de aplicar estos conocimientos en contextos reales. El curso también abordará temas críticos como la calidad de los datos, la ética en el análisis de datos y las mejores prácticas para la visualización de datos, asegurando que los estudiantes no solo puedan realizar análisis precisos, sino también comunicar sus hallazgos de manera efectiva.

Instructor: Ulises Gonzalez (Rizoma, Linkedin)

Binder

Nombre de la sesión Objetivos de aprendizaje
Sesión 1: Introducción a Python - Comprender los conceptos fundamentales de la analítica de datos.
- Familiarizarse con el flujo de trabajo en un proyecto de analítica de datos.
Sesión 2: Obtención de Datos - Aprender a obtener y cargar datos desde diversas fuentes (CSV, Excel, SQL, APIs).
- Introducción a la biblioteca Pandas y sus estructuras de datos principales (Series y DataFrames).
Sesión 3: Análisis exploratorio de Datos I - Realizar análisis exploratorios de datos (EDA) para descubrir patrones, detectar anomalías y verificar supuestos.
- Utilizar técnicas de agrupación y agregación de datos.
Sesión 4: Visualización de Datos - Conocer las herramientas y bibliotecas para la visualización de datos en Python (Matplotlib, Seaborn).
- Crear gráficos básicos y avanzados para representar datos.
Sesión 5: Evaluación de modelos de pronóstico - Introducción a los modelos de pronóstico y su aplicación en la analítica de datos.
- Entender los conceptos de regresión lineal y su uso en la predicción.
Sesión 6: Logistic Regression - Comprender los principios de la regresión logística y su aplicación en la clasificación.
- Conocer los árboles de decisión y su uso en problemas de clasificación y regresión.
Sesión 7: Clustering - Introducción a las técnicas de clustering (agrupamiento) y su aplicación en la segmentación de datos.
- Evaluar la calidad y efectividad de los modelos de clustering.
Sesión 8: Uso de Tableau - Familiarizarse con Tableau como herramienta de visualización de datos.
- Crear dashboards interactivos y visualizaciones efectivas.

Antes de que comience el curso

Recursos adicionales de práctica


Sesión 1: Introducción a Data Analytics

  • Bienvenida a la formación
  • Resumen del curso(presentación)
  • Introducción a Data Analytics ([lectura](bibliografia/Sesion 1/Python Data Analitics -fragmento.pdf))
  • Tipos de datos(lectura)
  • Dispones de las siguientes fuentes de datos públicos si deseas practicar fuentes de datos publicos

Asignación:

Recursos Adicionales:


¿Quieres ir más allá de lo aprendido?

Podrías aprender Git y Markdown que son herramientas valiosas para la analítica de datos por varias razones como:

Git

  • Control de Versiones: Git permite gestionar cambios en el código y los datos a lo largo del tiempo. Esto es esencial en proyectos de análisis de datos, donde se realizan múltiples iteraciones y ajustes en los scripts y datasets.
  • Colaboración: Git facilita la colaboración entre equipos, permitiendo que múltiples analistas trabajen en el mismo proyecto sin conflictos. Cada miembro puede hacer cambios en su propia rama y luego fusionar los resultados.
  • Rastreo de Historial: Con Git, puedes rastrear quién hizo qué cambios y cuándo. Esto es crucial para auditar y entender cómo y por qué evolucionó un análisis específico.
  • Gestión de Proyectos: Git integra herramientas para gestionar proyectos de datos, como issues y pull requests, que ayudan a organizar y revisar el trabajo.

Markdown

  • Documentación Clara: Markdown permite crear documentación clara y estructurada, que es fácil de leer y escribir. Documentar el código y los análisis es fundamental para asegurar que los resultados sean reproducibles y comprensibles.
  • Reportes Dinámicos: Herramientas como Jupyter Notebooks utilizan Markdown para combinar texto, código y visualizaciones en un solo documento. Esto facilita la creación de reportes dinámicos que muestran tanto el proceso como los resultados del análisis.
  • Compatibilidad y Portabilidad: Markdown es un formato ligero y ampliamente compatible que puede ser convertido a varios formatos (HTML, PDF, etc.), lo que facilita compartir y publicar resultados.

Integración Práctica

  • Jupyter Notebooks: En estos entornos, el conocimiento de Git y Markdown es crucial para manejar notebooks y colaborar eficientemente. Git gestiona el versionado y la colaboración, mientras que Markdown documenta y explica los análisis.
  • Proyectos Reproducibles: Con Git para el control de versiones y Markdown para la documentación, los proyectos de analítica de datos se vuelven más reproducibles y fáciles de entender para otros analistas o stakeholders.
  • Comunicación de Resultados: Markdown ayuda a comunicar los resultados de forma clara y visualmente atractiva, lo cual es esencial para presentar hallazgos a equipos no técnicos o directivos.

Recursos Git y Markdown:

  • Pro Git es un excelente libro para aprender Git lea los dos primeros capítulos para obtener una comprensión más profunda del control de versiones y los comando básicos.
  • Si quieres practicar mucho Git y aprender muchos más comandos), Git Immersion
  • Si quieres entender cómo contribuir en GitHub, primero tienes que entender forks and pull requests.
  • GitRef es mi guía de referencia favorita para los comandos Git, y Git quick reference for beginners es una guía más corta con comandos agrupados por flujo de trabajo
  • Cracking the Code to GitHub's Growth explicaPorQuéGithubEsTanPopularEntreLosDesarrolladores
  • Markdown Cheatsheet proporcionaUnConjuntoExhaustivoDeEjemplosDeMarkdownConExplicacionesConcisasGithub'sMastering MarkdownesUnaGuíaMásSimpleYAtractiva,PeroEsMenosIntegral

Recursos de línea de comandos:

  • Si quieres profundizar mucho en la línea de comando, Data Science at the Command Line es un gran libro.El companion website Proporciona instrucciones de instalación para una "caja de herramientas de ciencia de datos" (una máquina virtual con muchas más herramientas de línea de comandos), así como una larga guía de referencia para las herramientas de línea de comandos populares.
  • Si desea hacer más en la línea de comando con archivos CSV, pruebe csvkit, que se puede instalar a través de pip.

Sesión 2: Obtención de datos e iniciación con Pandas

  • Obtención de datos (slides)
  • Iniciación con Pandas (slides)

Asignación:

Recursos:

Recursos adicionales:

  • Browsing or searching the Pandas API Reference es una excelente manera de localizar una función incluso si no sabe su nombre exacto.

  • What I do when I get a new data set as told through tweets es una mirada divertida (pero esclarecedora) al proceso de análisis de datos exploratorios.

  • Recursos API: Este guión de Python para query the U.S. Census API fue creado por un ex alumno de DA.Es un poco más complicado que el ejemplo que usamos en la clase, está muy bien comentado y puede proporcionar un marco útil para escribir su propio código para consultar las API.

  • Mashape y ApigeePermitirle explorar toneladas de diferentes API.Alternativamente, un Python API wrapper está disponible para muchas API populares.

  • the Data Science Toolkit es una colección de API basadas en la ubicación y relacionadas con el texto.

  • API Integration in Python Proporciona una introducción muy legible a las API REST.

  • Microsoft's Face Detection API, que poderesHow-Old.net, es un gran ejemplo de cómo se puede aprovechar una API de aprendizaje automático para producir una aplicación web convincente.


¿Quieres ir más allá de lo aprendido?

Pandas AI es una mejora de la librería de Pandas, que ha sido combinada con la tecnología de OpenAI, con el resultado de pode ahorrarnos tiempo en tener que seleccionar los encabezados, franjas y demás. Además de eso, también puede hacer cosas que le pidamos, en relación a los csv o dataframes, que le indiquemos. Puedes obtener información si deseas llevar al siguiente nivel:


Sesión 3: Combinación de datos y Análisis de datos exploratorios

  • Análisis de datos exploratorios (slides)
  • Parte 2 del análisis de datos exploratorios con pandas(code)

Asignación:

Recursos:

Recursos adicionales:


Sesión 4: Visualización de Datos

Asignación:

Recursos:


¿Quieres ir más allá de lo aprendido?

En el mundo actual, la capacidad de interpretar y visualizar datos de manera efectiva se ha convertido en una habilidad esencial para profesionales de diversas disciplinas. Scimago Graphica es una aplicación innovadora que ha surgido como una herramienta poderosa para satisfacer esta necesidad. Diseñada para transformar datos complejos en visualizaciones intuitivas y significativas. Aplicaciones como Scimago Graphica, Datawraper o Graphex no sólo facilitan el análisis de datos, sino que también mejoran la comunicación de información crucial.

¿Qué son estás aplicaciones?

Son herramientas low-code de visualización de datos avanzada que permite a los usuarios crear gráficos interactivos y dinámicos de manera rápida y sencilla. Con un enfoque en la accesibilidad y la facilidad de uso, esta herramienta está diseñada para ser utilizada por una amplia variedad de profesionales, desde científicos e investigadores hasta analistas de negocios y educadores.

Motivación para su uso

  1. Simplicidad y Potencia en un Solo Lugar: Combinan una interfaz de usuario intuitiva con capacidades robustas de análisis y visualización. No se requiere ser un experto en programación o en software de análisis de datos para comenzar a crear visualizaciones impactantes.

  2. Interactividad y Dinamismo: Las visualizaciones creadas son interactivas, lo que permite a los usuarios explorar los datos en profundidad y descubrir patrones y tendencias ocultas. Esta característica es especialmente valiosa para presentaciones y reportes, donde la claridad y la capacidad de respuesta son cruciales.

  3. Colaboración Efectiva: En un entorno cada vez más colaborativo, permiten compartir fácilmente visualizaciones y proyectos con colegas y equipos, facilitando la colaboración y la toma de decisiones basada en datos.

  4. Aplicaciones Multidisciplinarias: Desde la investigación académica hasta el análisis de mercado, pasando por la educación y la gestión de proyectos, Son herramientas versátiles que pueden adaptarse a las necesidades de diversos campos. Esto las convierte en una inversión valiosa para cualquier profesional que trabaje con datos.

  5. Acceso a Recursos y Soporte: ofrecen una variedad de recursos, incluyendo tutoriales y soporte técnico, para ayudar a los usuarios a maximizar su experiencia y aprovechar al máximo las capacidades de la herramienta.

Herramientas:


Clase 5: Evaluación de modelos de pronósticos y regresión lineal

Asignación:

  • Leer Data Manipulation and visualization in python
  • Desarrollar el 05_Laboratorio_de_Visualización (Asignación)
  • Obtén inspiración desde esta galería

Recursos de aprendizaje automático:

Recursos de cuaderno de iPython

Recursos de regresión lineal


Clase 6: Regresión logística y árboles de decisión

  • Regresión logística ([notebook] (notebooks/06_logistic_regression.ipynb)
  • Confusion Matrix ([notebook] (notebooks/06_Metricas_matriz_confusion.ipynb)
  • Árboles de decisión (notebook)

Tarea:

  • Si aún no se siente cómodo con toda la terminología de la matriz de confusión, mire los videos de Rahul Patwari en [Sensibilidad y especificidad intuitiva] (https://www.youtube.com/watch?v=U4_3fditnwg) (9 minutos) y [[9 minutos) y [[9 minutos) y [[La compensación entre sensibilidad y especificidad] (https://www.youtube.com/watch?v=vtydyggeqyo) (13 minutos).
  • Asignación de video/lectura en [curvas ROC y AUC] (tarea/13_roc_auc.md)
  • Asignación de video/lectura en [Validación cruzada] (tarea/13_cross_validation.md)

Recursos de regresión logística:

  • Para profundizar en la regresión logística, lea las primeras tres secciones del Capítulo 4 de An Introduction to Statistical Learning,O mira el first three videos (30 minutos) de ese capítulo.
  • Para una explicación matemática de la regresión logística, mire los primeros siete videos (71 minutos) de la semana 3 de Andrew Ng's machine learning course, o leer el related lecture notes compilado por un estudiante.
  • Para obtener más información sobre la interpretación de los coeficientes de regresión logística, lea este excelente guidepor el idre de UCLA y estos lecture notes de la Universidad de Nuevo México.
  • TLa documentación de Scikit-Learn tiene una buena explanation de lo que significa para una probabilidad prevista para ser calibrada.
  • Supervised learning superstitions cheat sheetes una muy buena comparación de cuatro clasificadores que cubrimos en el curso (regresión logística, árboles de decisión, KNN, Naive Bayes) y un clasificador que no cubrimos (Máquinas de vectores de soporte).

Recursos de matriz de confusión:

Tarea:

Recursos:

  • La documentación de Scikit-Learn en decision trees Incluye una buena descripción de los árboles, así como consejos para el uso adecuado.
  • Para una introducción más exhaustiva a los árboles de decisión, lea la Sección 4.3 (23 páginas) de Introduction to Data Mining. (El Capítulo 4 está disponible como descarga gratuita).
  • Si quieres profundizar en los diferentes algoritmos de árbol de decisión, este mazo de diapositivas contiene A Brief History of Classification and Regression Trees.
  • The Science of Singing Along Contiene un árbol de regresión ordenado (página 136) para predecir el porcentaje de una audiencia en un lugar de música que cantará junto con una canción pop.
  • Los árboles de decisión son comunes en el campo de la medicina para el diagnóstico diferencial, como este árbol de clasificación para identifying psychosis.

Clase 7: Clustering y Evaluación de modelos

  • Evaluación de modelos (notebook)
  • K-Near más vecinos y scikit-learn ([notebook] (notebooks/07_knn_sklearn.ipynb))
  • Explorando la compensación de varianza de sesgo ([notebook] (notebooks/07_clustering.ipynb))

Asignación:

RECURSOS KNN

Recursos Seaborn:

Recursos de Clustering:

Evaluación básica del modelo

Recursos de evaluación del modelo *Para un resumen de algunos de los puntos clave de la lección de hoy, mira Comparing machine learning models in scikit-learn(27 minutos).

  • For Otra explicación del error de entrenamiento versus el error de prueba, la compensación de varianza de sesgo y la división de trenes/pruebas (también conocido como "enfoque de conjunto de validación"), mira el video de Hastie y Tibshirani enestimating prediction error (12 minutos, comenzando a las 2:34).
  • El aprendizaje de Caltech de los datos incluye un video fantástico en visualizing bias and variance (15 minutos).
  • Random Test/Train Split is Not Always EnoughExplica por qué la división aleatoria de trenes/pruebas puede no ser un procedimiento de evaluación de modelo adecuado si sus datos tienen un elemento de tiempo significativo.

Recursos de reproducibilidad


Clase 8: Introducción a Tableau


Revisión del curso y recursos adicionales

Recursos:


Datos ordenados

Databases y SQL

Recursos ROC:

Recursos de validación cruzada:

Otros recursos:

Regularización y expresiones regulares

Recurso de regularizacións:

Regular Expressions Resources:

Scikit-learn y Clustering avanzado

recursos de Scikit-Learn:

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published