Social_Network_Analysis_Visualization

Bases de datos y R, la unión perfecta

Partiendo de la base que tenemos nuestra copia de R instalada en un ordenador, el objetivo de este post es guiar al nuevo usuario en este paquete estadístico a conectar R con la base de datos y proceder a los primeros análisis esenciales.

Instalación y conexión a la base de datos

Instalación del paquete RMySQL

Con la interfaz de R arrancada, ejecutamos la instrucción

install.packages('RMySQL', type='source')

Esto nos instalará el paquete en el directorio de librerías que tengamos asignado (normalmente des del directorio raíz en la subcarpeta R, por ejemplo

/home/user/R/x86_64-pc-linux-gnu-library/3.1

Uso del package RMySQL y conexión a la base de datos

Cada vez que iniciemos R, debemos indicarle que queremos hacer uso de dicho package y cuales son las credenciales de conexión a la base de datos en cuestión.

library(RMySQL)

con = dbConnect(MySQL(), user = 'nombre_de_usuario_', password = 'contraseña', host = 'url_del_host_de_la_base_de_datos', dbname = 'nombre_de_la_base_e_datos')

Obtención de tablas de la base de datos

Para obtener los datos de la base de datos, tenemos varias opciones;

Obtención de la tabla completa

Si lo que deseamos es obtener toda una tabla, podemos optar por ejecutar

dbReadTable(conn = con, name = ‘nombre_de_la_tabla’)

Realización de una select

Para obtener un fragmento de la tabla, se puede realizar una sentencia sql como

dbGetQuery(conn = con, statement = “query”)

Las queries pueden incluir cualquier tipo de operación válida en MySQL tales como joins, wheres, groups, limits,...

Trabajar con tablas en R

Guardar una consulta en una tabla

Suele ser útil guardar el resultado de una consulta en una tabla para empezar a trabajar con ella en R. Para ello hacemos una asignación con la instrucción

nombre_tabla

Ejemplos:

  • tempTable = '2015-01-01'  and country = 'US';")
  • tempTable = '2015-01-01'  and country = 'US'")

 

Cabeceras de las tablas

A la hora de acceder a las tablas, se suele hacer referencia al nombre de la columna en cuestión en lugar de su posición. Por defecto, R asigna a cada columna el propio nombre que ya tenía en la base de datos. Podemos revisar el orden y el nombre de las mismas haciendo

colnames(nombre_tabla)

Ejemplo

  • colnames(tempTable) devolvería [1] "id"         "name"              "email"               "month"

Filtrar tablas

Muchas veces nos interesará un conjunto de datos de la base de datos para luego hacer subconjuntos de la misma para hacer diferentes tipos de análisis. Así por ejemplo, podríamos extraer el conjunto total de pagos del sistema entre dos fechas dadas con una select, pero luego dividirlos en el tipo de pago (transferencia bancaria, pago con Paypal, con TPV,...)

nombre_subtabla

La restricción viene dada por la estructora

campo_a_comparar comparador valor

Ejemplos:

  • januaryUsers 
  • februaryUsers

Obtener una columna de la tabla

Si nuestra tabla tiene muchas columnas, a veces queremos simplemente obtener una de ellas. Para ello podemos hacer uso del símbolo dólar conocido el nombre de la variable en cuestión:

nombre_tabla$nombre_variable

Tabla de frecuencias

Muchos de los datos que tendremos no nos serán útiles tal cual los saquemos de base de datos, sino que deberemos crear una tabla con ellos. Una tabla recoge la información del número de veces que ocurre cada evidencia (tabla de frecuencias).

table(nombre_tabla_inicial)

Operaciones estadísticas varias

Promedio

mean(columna_de_datos)

Mediana

median(columna_de_datos)

Mínimo y Máximo

min(columna_de_datos)

max(columna_de_datos)

Quantiles

quantile(columna_de_datos)

Varianza

var(columna_de_datos)

Desviación típica

sd(columna_de_datos)

Covarianza y correlación muestral

cov(columna_de_datos)

cor(columna_de_datos)

Número de datos de una tabla

length(columna_de_datos)

Resumen global de datos

Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:

summary(columna_de_datos)

la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.

Covarianza y correlación muestral

cov(columna_de_datos)

cor(columna_de_datos)

Número de datos de una tabla

length(columna_de_datos)

Resumen global de datos

Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:

summary(columna_de_datos)

la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.

 

Y próximamente

Hasta ahora sabemos conectar nuestra base de datos a R, realizar consultas en el servidor y alojar los resultados en nuestra máquina y proceder a su análisis estadístico básico.

En la próxima parte, nos dedicaremos al uso de R para realizar análisis estadísticos, hablaremos de los gráficos a nuestra disposición y de como crearlos. Así que no te lo pierdas, pues sin duda alguna la estadística ayuda a mucha gente a diario, tanto en el mundo educativo, como en las empresas de hoy en día.

Comments 3

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *