Esta disciplina tem objetiva familiarizar o aluno com o novo paradigma científico centrado em dados. Serão apresentadas e discutidas técnicas para coleta, integração, visualização, pré-processamento e análise de dados, e comunicação de resultados. O aluno também será introduzido a técnicas básicas de aprendizado supervisionado, não-supervisionado e análise exploratória de dados. Na parte de visualização de dados, o foco será tanto nos aspectos interpretativos (uso de gráficos e figuras para análise de dados) quanto comunicativos (uso de elementos visuais para comunicar os resultados da análise). Para isso, serão apresentadas ferramentas e bibliotecas para visualização de gráficos. Finalmente, serão abordados conceitos de ética e privacidade no contexto de big data e ciência dos dados.
- O quarto paradigma científico: mudança do paradigma centrado em hipóteses para o centrado em dados
- O que é ciência dos dados?
- Big data e ciência dos dados
- Capacidades exigidas de um cientista de dados.
- O ecossistema de ciência dos dados
- Coleta e pré-processamento de dados
- Coleta de dados online -- data scraping -- (Web, APIs, tipos/formatos de dados)
- Pré-processamento (limpeza, normalização, seleção de atributos e amostras)
- Análise exploratória de dados:
- Conceitos de análise exploratória
- Estatísticas descritivas (revisão de conceitos e implementações em R e Python)
- Visualização de dados (tipos de gráficos/dados, por que visualizar, ferramentas para construção de gráficos estáticos, dinâmicos e interativos)
- Introdução a mineração de dados (aprendizado supervisionado/não-supervisionado)
- Aprendizado estatístico (Regressão Linear/Logística)
- Classificação (árvores de decisão, naive Bayes, k nearest neighbors)
- Agrupamento (k-means, agrupamento hierárquico)
- Mineração de padrões frequentes (regras de associação)
- Medidas de interesse/qualidade (Acurácia, precisão-revocação, curva ROC)
- Ética e privacidade no contexto de big data e ciência dos dados
-
Hey, T., Tansley, S. and Tolle, K.M., 2009. The fourth paradigm: data-intensive scientific discovery (Vol. 1). Redmond, WA: Microsoft research.
-
Munzner, T., 2014. Visualization Analysis and Design. CRC Press.
-
Provost, F. and Fawcett, T., 2013. Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media, Inc.
-
James, G., Witten, D., Hastie, T. and Tibshirani, R., 2013. An introduction to statistical learning (Vol. 6). New York: Springer.
-
Zaki, M.J. and Meira Jr, W., 2014. Data mining and analysis: fundamental concepts and algorithms. Cambridge University Press.
-
McKinney, W., 2012. Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. O'Reilly Media, Inc.
-
Grus, J., 2015. Data Science from Scratch: First Principles with Python. O'Reilly Media, Inc.
-
Wickham, H., 2009. ggplot2: elegant graphics for data analysis. Springer Science & Business Media.
-
Wickham, H., 2014. Advanced R. CRC Press.
-
Wickham, H. and Grolemund, G., 2016. R for Data Science: Visualize, Model, Transform, Tidy, and Import Data. O'Reilly Media, Inc.