El contenido de este documento esta basado en mis apuntes del curso del mismo nombre dictado por Jorge Velez en la Universidad del Norte.
- Introducción
- Análisis y vistualización
- Modelos Predictivos
- Métodos Cuantitativos en Alta Dimensión
- Tópicos Avanzados
R es un entorno de programación y lenguaje para el análisis gráfico y estadístico de datos que fue creado por Robert Gentleman y Ross Ihaka en Agosto de 1993. Este es un lenguaje orientado a objetos y es multiplataforma, es similar al lenguaje S, pero bajo licencia GNU. Proporciona una gran cantidad de métodos estadísticos y gráficos, además de ser altamente extendible.
RStudio es el entorno de desarrollo integrado (IDE). Este incluye una consola, un editor de sintaxis resaltado y soporta la ejecución directa del codigo, así como herramientas para gráficos, historial de acciones, workspace, etc.
Análogamente R sería como el motor de un carro, y RStudio sería el "cascarón" y resto de feautres del carro. Sin el motor, el carro no funciona, pero sin el cascaron el motor si puede funcionar.
Los paquetes o packages son una colección de funciones y conjuntos de datos que ayudan a potencializar las funcionalidades de R, cada paquete tiene su documentación. A día de hoy existen más de 17000 paquetes, algunos ejemplos conocidos son: MASS, ggplot2, shiny, caret, entre otros.
Los paquetes se encuentran en repositorios los principales repositorios son: CRAN (Repositorio Oficial), Github y Bioconductor. Los paquetes se descargan, se instalan, se cargan y luego se usan.
Las instrucciones que escribir son:
install.packages('YourPackageName', dependencies = TRUE)
require(YourPackageName)
update.packages(ask = FALSE)
library(YourPackageName)
La diferencia entre require() y library() es que el primero devuelve un mensaje invisible o ghost value que entrega True o False si el paquete está instalado o no. Mientras que library() sirve para cargar un paquete ya instalado.
En R existen funcionalidades para leer casi cualquier tipo de datos, algunas funciones clave son:
scan()
read.table()
read.csv()
readLines()
read.xls() #del paquete gdata
fread() #del paquete data.table
Además podemos leer datos desde una URL, de la siguiente manera:
## lectura de datos
url <- "https://bit.ly/2RmO1OR"
datos <- read.table(url, header = TRUE)
Recordemos que R es un lenguaje orientado a objetos, y es importante conocer la estructura del objeto para saber que funciones podemos aplicarle, esto se puede saber utilizando la siguiente función:
str(objeto)
Las funciones son un conjunto de instrucciones organizadas guardadas en un objeto que el intérprete de R puede entender y completar una acción con los argumentos o inputs de dicha función. Se pueden construir funciones propias o usar las que ya están creadas en los diferentes paquetes, algunos ejemplos son:
sqrt()
mean()
summary()
rowSums()
colSums()
Las funciones siguen la siguiente estructura:
Ejemplo de creación de una función:
## Cálculo del coeficiente de variación
CV <- function(x, na.rm = TRUE){
m <- mean(x, na.rm = na.rm)
s <- sd(x, na.rm = na.rm)
s/m
}