Diciembre 2021
M. Sc. Liliana Millán Núñez [email protected]
- R
- Python
- Análisis exploratorio de datos
Sin importar la herramienta que utilices para el análisis de los datos y el modelado, necesitarás tener tus datos en formato tidy
.
Recordemos que el formato tidy
implica que:
- Cada fila es una observación
- Cada columna es una variable/característica de cada observación
- Se tiene una matriz de observaciones
La estructura de datos que se ocupa tanto en R como en Python/Pandas es el Data Frame que asimila una tabla -matriz- que sigue la filosofía de datos tidy
.
-
Lenguaje de programación estadístico
-
OpenSource
-
R base
-
RStudio
-
Tidyverse: La primera vez:
install.packages("tidyverse")
, una vez instalado, cargar la librería conlibrary(tidyverse)
-
Dplyr: La primera vez:
install.packages("dplyr")
, una instalado, cargar la librería conlibrary(dplyr)
. -
Librerías de ML: Depende del algoritmo, modelo que quieres utilizar.
Si por algún motivo no puedes instalar R y RStudio en tu máquina, puedes ocupar rdrr.io
para correr código de R en tu browser rdrr.io.
- Lenguaje de programación general
- OpenSource
- Pandas: Paquete que habilita a Python para análisis de datos (simil de R).
- Seaborn: Paquete que habilita a Python para realizar gráficas.
- Scikit-learn: Paquete que habilita a Python la parte de machine learning.
- Spark: Paquete que habilita a Python al análisis de datos y machine learning en cluster.
Si no quieres/puedes instalar python y demás paquetes en tu máquina, puedes ocupar google colab
para generar y correr notebooks de Python que te permiten analizar tus datos. Se guardan como scripts en Drive. Google Colab
En Pandas hay dos tipos básicos de estructuras de datos las Series
y los DataFrames
. Las Series
son las columnas y los DataFrames
son las matrices creadas a partir de un conjunto de Series
.
Objetivos de un EDA:
- Conocer los datos -nivelar conocimiento con el cliente/socio-
- Identificar errores en los datos
- Responder preguntas de hipótesis que se tienen sobre los datos
- Identificar variables que aportan información para responder una pregunta analítica -generalmente predictiva-
Ocuparemos los datos de Covid 19 de México para realizar un análisis exploratorio de datos.
Queremos contestar las siguientes preguntas:
- ¿Con qué variables contamos?
- ¿Los datos están en formato
tidy
? - ¿Desde cuándo hasta cuándo tenemos datos de casos de Covid 19?
- ¿Tenemos datos de todas las entidades federativas?
- ¿Existen casos en donde la fecha de defunción suceda antes de la fecha de ingreso?
- ¿Cuántos casos hay por año?
Hipótesis
- Personas mayores de 60 años tienen mayor defunción que otros grupos de edad
- Los hombres son más susceptibles a morir por COVID-19
- Una vez que eres intubado es poco probable que sobrevivas
- Personas con comorbilidades tienen mayor probabilidad de morir por COVID-19
- Estados "turísticos" tienen más casos
- Un par de semanas después de fechas "feriadas" -día de las madres, semana santa, navidad, año nuevo- hay más contagios