aula01-datascience.Rmd

---
title: "IF1015 -- Introdução a Ciência dos Dados"
subtitle: "Aula01 -- O que é Ciência dos Dados?"
author: "Renato Vimieiro <br> rv2 [em] cin.ufpe.br"
date: "março -- 2017"
output: 
    ioslides_presentation:
        footer: "Copyright (c) 2017, Renato Vimieiro"
        css: mytemplate.css
        widescreen: true
        smart: true
        self_contained: false
#        mathjax: local
        bibliography: reference.bib
        fig_caption: true
        
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE)
```

## Dilúvio de dados (1/2)

- Houve uma evolução drástica da infraestrutura para armanezagem e coleta de dados nos últimos 15 anos 
- Praticamente todas as instituições coletam dados sobre seus processos e clientes
- Estima-se que 90% de todos os dados disponíveis no mundo hoje foram coletados nos últimos 5 anos

> A IBM estimou que, em 2012, 2.5 bilhões de gigabytes eram produzidos diariamente, sendo 75% dos dados não estruturados (texto, voz, vídeo e imagens) (Wall, 2014)

## Dilúvio de dados (2/2)

- De acordo com um estudo da EMC (Burn-Murdoch, 2012), a quantidade de dados armazenado em 2012 era de **2.8 ZB**, com projeções de chegar a **40 ZB em 2020**

- Contudo, o mesmo estudo revela que, dentre esses mesmos **2.8 ZB de dados**, apenas **0.5%** foram analisados

- Esse contexto mostra a necessidade eminente de usar os dados coletados para extrair informação e conhecimento. Isto é, esse é o contexto que surge *Data Science*

## Oportunidades nos dados

- A análise de dados para se obter vantagens competitivas não é algo novo
- Empresas já contratavam times de estatísticos e/ou atuários desde o início do século passado
- A mudança para os dias de hoje está na inviabilidade da análise manual desses dados
- Os computadores modernos possibilitaram automatizar o cruzamento de dados, o que, consequentemente, permitiu que análises mais profundas fossem realizadas

## Data Science, Data Mining, Machine Learning, Business Intelligence ...

- A formalização do processo (semi)automatizado de análise de dados tem recebido diferentes nomes ao longo dos anos
- Muitos dos métodos classificados como de Data Mining, também são classificados como de Aprendizado de Máquinas
- Há ainda interseções (ou sobreposições) com Business Intelligence, que muitas vezes inclui métodos de data mining/machine learning e outras técnicas da área de Banco de Dados
- Mais recentemente, o processo de análise de dados tem sido conhecido como Data Science

## Vantagens competitivas da análise de dados

- Para exemplificar as vantagens competitivas que a análise sistemática de dados pode trazer, veremos alguns casos reais de sua aplicação
- São eles:
    - Previsão do consumo de itens em situações de emergência
    - Antecipação da possibilidade de troca de cia telefônicas
    - Avaliação de crédito

## Previsão do consumo de itens em situações de emergência (1/2)

- Em 2004, um ciclone tropical (Furacão Frances) se formou nas águas do Atlântico entre a América do Sul e África, cruzando o Caribe em direção ao Atlântico norte
- Dada a previsão de que o furacão atingiria a Flórida, os executivos do Wal-Mart decidiram testar algumas das suas novas armas para análise de dados (Hays, 2004)
- Usando dados de outro furacão (Charley) que atingira a costa sul dos EUA no mesmo ano, eles queriam prever quais itens seriam consumidos para reforçar o estoque em suas lojas

## Previsão do consumo de itens em situações de emergência (2/2)

- Qual o comportamento esperado numa situação como esta?
    - Aumento no consumo de água mineral ou de pilhas?
    - Aumento no consumo de um determinado DVD?
- A análise dos dados mostrou que há um aumento nas vendas de:
  <div class="centered">
  <img src="http://cdn.alleywatch.com/wp-content/uploads/2014/07/beer-and-pop-tarts.jpg" 
  alt="Wal-Mart previsão furacão Frances" height="58%" width="55%">
  </div>
  

## Previsão de churn em telecomunicações (1/3)

- Número de telefones celulares em relação a população de acordo com o Banco Mundial

<div class="centered">
  <img src="http://blogs.worldbank.org/publicsphere/files/publicsphere/Johanna/Screen%20Shot%202013-07-24%20at%2012.23.41%20PM%20copy.jpg" 
  alt="Número de celulares em relação a população" height="58%" width="55%">
</div>

## Previsão de churn em telecomunicações (2/3)

- O mercado de telefonia móvel já está saturado na maioria dos lugares
- Estudos mostram que no Brasil já existem cerca de 250 milhões de usuários
- Oportunidades reduzidas de conquistar novos clientes
- Operadoras lutam para manter seus clientes e evitar migrações para outras empresas (**churn**)

## Previsão de churn em telecomunicações (3/3)

- Esse cenário oferece uma excelente oportunidade para entender o motivo da troca e, assim,
tentar manter o cliente antes que o contrato expire
- Várias empresas de telecomunicações possuem grandes equipes de cientistas de dados para
estudar esse e outros problemas como fraude, planejamento de capacidade, melhoria na satisfação de clientes, ...

## Análise de crédito (1/3)

- Na década de 1990, Richard Fairbank e Nigel Morris revolucionaram a indústria de crédito
- Eles propuseram flexibilizar as linhas de crédito (inicialmente via cartões de crédito) para os clientes de instituições financeiras
- Anteriormente, as taxas e valores dos cartões de crédito eram fixos, e os clientes eram somente aprovados ou reprovados

## Análise de crédito (2/3)

- A proposta de Fairbank e Morris era usar as informações dos clientes para prever o risco de inadimplência e ajustar os valores consequentemente
- O problema era que as instituições financeiras não possuíam essa informação
- Após várias tentativas fracassadas, eles convenceram um pequeno banco (Signet Bank) a coletar esses dados para realizar a modelagem

## Análise de crédito (3/3)

- A coleta de dados resultou em prejuízos para o banco inicialmente, mas depois as taxas de inadimplência decaíram substancialmente, aumentando o lucro da instituição
- Esse processo foi estendido a outras linhas de crédito e é o padrão das indústria atualmente
- De fato, essa linha de raciocínio de aprimorar a experiência dos usuários é usada pelas gigantes da internet (Amazon, Google, Facebook, etc.)

## Perfil de um cientista de dados

- Vimos que data science é a sistematização da análise de dados
- Assim, qual o perfil de um cientista de dados
- De acordo com [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram), o profissional deve possuir o seguinte perfil

<div class="centered">
  <img src="https://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w" 
  alt="Perfil de um cientista de dados" height="38%" width="35%">
</div>

## Data Science não é Big Data

- Há uma frequente associação entre Data Science e Big Data
- Essa associação não implica que ambos sejam a mesma coisa
- Data Science é o processo de análise
- Big Data é: ?????

## Big Data

- Big data, apesar de ser um termo muito usado, não possui uma definição precisa
- Em linhas gerais, entende-se que o termo expressa grandes volumes de dados estruturados ou não
- Muitas vezes é associado aos 3 V's
    - **Volume**: grande quantidade de dados coletados de diferentes fontes
    - **Velocidade**: dados de streaming (tempo real), ocorrendo atualizações constantes
    - **Variedade**: mistura de dados de diferentes tipos; estruturados, não-estruturados; emails, texto, áudio, vídeo, ...
  
## O ecossistema de data science

- Vimos que o perfil de um cientista de dados exige diferentes proficiências
- No entanto, a pessoa normalmente possui uma área de formação básica que, certamente, ainda não é em data science
- Pessoas com diferentes formações vão escolher diferentes ferramentas de trabalho
- Diferentes empresas também ofertam diferentes ferramentas

## O ecossistema de data science

- Se fizermos uma busca pelo ecossistema de data science, encontramos

<div class="centered">
  <a href=https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png target="_blank">
  <img src="https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png" 
  alt="Ecossistema de data science" height="58%" width="55%"></a>
</div>

## O ecossistema de data science

- Existem outras imagens que mostram esquematicamente a divisão das ferramentas necessárias

<div class="centered">
  <a href="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" target="_blank">
  <img src="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" 
  alt="Ecossistema resumido de data science" height="68%" width="65%"></a>
</div>


## Referências

<font size=3>
Wall, M. (2014) *Big Data: Are you ready for blast-off?*. BBC News. http://www.bbc.com/news/business-26383058

Burn-Murdoch, J. (2012) *Study: less than 1% of the world's data is analysed, over 80% is unprotected*. The Guardian. https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume

Hays, C. L. (2004) *What Wal-Mart Knows About Customers' Habits*. The New York Times. http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html
</font>