Skip to content

cristiambustos/Curso_AppliedDataAnalytics

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 

Repository files navigation

Curso Applied Data Analytics con R

Introduccion al documento

El contenido de este documento esta basado en mis apuntes del curso del mismo nombre dictado por Jorge Velez en la Universidad del Norte.

Tabla de contenido

Introducción R y RStudio

¿Qué es R?

R es un entorno de programación y lenguaje para el análisis gráfico y estadístico de datos que fue creado por Robert Gentleman y Ross Ihaka en Agosto de 1993. Este es un lenguaje orientado a objetos y es multiplataforma, es similar al lenguaje S, pero bajo licencia GNU. Proporciona una gran cantidad de métodos estadísticos y gráficos, además de ser altamente extendible.

¿Qué es RStudio?

RStudio es el entorno de desarrollo integrado (IDE). Este incluye una consola, un editor de sintaxis resaltado y soporta la ejecución directa del codigo, así como herramientas para gráficos, historial de acciones, workspace, etc.

Análogamente R sería como el motor de un carro, y RStudio sería el "cascarón" y resto de feautres del carro. Sin el motor, el carro no funciona, pero sin el cascaron el motor si puede funcionar.

Paquetes de R

Los paquetes o packages son una colección de funciones y conjuntos de datos que ayudan a potencializar las funcionalidades de R, cada paquete tiene su documentación. A día de hoy existen más de 17000 paquetes, algunos ejemplos conocidos son: MASS, ggplot2, shiny, caret, entre otros.

Los paquetes se encuentran en repositorios los principales repositorios son: CRAN (Repositorio Oficial), Github y Bioconductor. Los paquetes se descargan, se instalan, se cargan y luego se usan.

Las instrucciones que escribir son:

  install.packages('YourPackageName', dependencies = TRUE)
  require(YourPackageName)
  update.packages(ask = FALSE)
  library(YourPackageName)

La diferencia entre require() y library() es que el primero devuelve un mensaje invisible o ghost value que entrega True o False si el paquete está instalado o no. Mientras que library() sirve para cargar un paquete ya instalado.

¿Como se leen datos en R?

En R existen funcionalidades para leer casi cualquier tipo de datos, algunas funciones clave son:

scan()
read.table()
read.csv()
readLines()
read.xls() #del paquete gdata
fread() #del paquete data.table

Además podemos leer datos desde una URL, de la siguiente manera:

## lectura de datos
url <- "https://bit.ly/2RmO1OR"
datos <- read.table(url, header = TRUE)

Recordemos que R es un lenguaje orientado a objetos, y es importante conocer la estructura del objeto para saber que funciones podemos aplicarle, esto se puede saber utilizando la siguiente función:

str(objeto)

Definición y creación de funciones

Las funciones son un conjunto de instrucciones organizadas guardadas en un objeto que el intérprete de R puede entender y completar una acción con los argumentos o inputs de dicha función. Se pueden construir funciones propias o usar las que ya están creadas en los diferentes paquetes, algunos ejemplos son:

sqrt()
mean()
summary()
rowSums()
colSums()

Las funciones siguen la siguiente estructura:

Ejemplo de creación de una función:

## Cálculo del coeficiente de variación
CV <- function(x, na.rm = TRUE){
m <- mean(x, na.rm = na.rm)
s <- sd(x, na.rm = na.rm)
s/m
}

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • R 100.0%