Ir al contenido principal

Tablas de contingencia

Las tablas de contingencia o cruzadas son el modelo de análisis bivariante más utilizado en el proceso de datos. Es un modelo descriptivo, pues no existe el concepto de variable explicativa y variable a explicar (independientes y dependientes) sino que ambas variables juegan un mismo papel en el análisis. Uno de los factores que más influyen en su máxima utilización es la facilidad de cálculo y la sencillez de interpretación de sus resultados.

Llamamos tabla de resultados a los cuadros constituidos por disposición ordenada y totalizada de las sumas o frecuencias o porcentajes o cualesquiera valores tabulados referidos a las categorías o dimensiones de una variable o varias relacionadas entre sí.

Una tabla sistematiza un resultado cuantitativo y ofrece una visión general del conjunto estudiado. Con una tabla se culmina una clasificación cuantitativa de los datos. Particularmente, llamaremos tabla de contingencia a las tablas de resultados referentes a dos variables, formada en la cabecera por las categorías o valores de una y en las filas por valores o categorías o intervalos de otra, y situando en las celdillas de la tabla las frecuencias o número de elementos que reúnen a la vez las dos categorías (columna y fila).

Podemos clasificar las tablas cruzadas o de contingencia en cuatro grandes tipos:

  • Tablas marginales (quedarían fuera de este análisis pues no cruzan información). Representan la distribución de frecuencias de una variable, en aboslutos y porcentajes.

  • 1.Tablas de frecuencias cruzadas, aquellas tablas de contingencia donde hay relaciones bivariantes entre 2, 3 o más variables.

  • 2.Tablas de estadísticos, donde se obtiene el cálculo de ciertos estadísticos para cada uno de los grupos (códigos) que conforma una variable codificada.

  • 3.Tablas de grupos, tablas del primer o segundo tipo pero con la particularidad de que cada registro no es la base sino que la base es un nivel de análisis derivado de una variable de grupo.

  • 4.Escalas y cuadros, tablas en las que la cabecera es un conjunto de alternativas de respuesta igual para todas las variables. Suelen ser utilizadas para representar los grids.


Todas ellas tienen algo en común: están formadas por columnas, bases y filas, y también por celdas. A continuación explicamos cada una de ellas.

Columnas (variables de cabecera)


Llamaremos columna a cada una de las categorías de las distintas variables que Figuran en la cabecera. El sistema entiende por categoría a todo aquel valor previamente definido en la codificación de la variable y ese código es representado por el texto definido para ese valor.

Una de las ventajas que ofrece el software con el que estamos trabajando, es que toda variable tiene además de las categorías definidas por el usuario las opciones de no sabe, no contesta y de no definido, categorías ya comentadas previamente, no teniendo en cuanta en la base de casos totales para las variables los filtros establecidos en el cuestionario.

Filas (variables de fila)


Dentro de una tabla básica, llamaremos fila a cada una de las categorías de las distintas variables que figuran en las filas. Además de las categorías ya mencionadas anteriormente, en las tablas básicas una variable elegida en filas agregarán frecuencias o estadísticos

Sub totales en el cálculo: las bases y / o filtros


El concepto de base debe ser catalogado como un subtotal de casos en la muestra. Cada pregunta (variable) en el cuestionario tiene su particular base de cálculo, que puede ser formulada de diversas formas: total de casos menos los filtrados, total de casos que han respondido algo (incluyendo el no sabe pero eliminando filtrados y no contesta), total de casos con respuesta codificada (excluyendo filtrados, no sabe, no contesta, y no definidos).  Cuando se realiza una tabla sin hacer selección de casos, el TOTAL de registros procesado que interviene en el cálculo de porcentajes coincide normalmente con el total de casos que hay en el fichero. Pero imaginemos ahora que en una base de datos, como suele pasar en la realidad, haya una serie de variables que sólo pueden tener información si se cumple una condición, por ejemplo:

  • Marca de tabaco que fuma, número de cigarrillos consumidos: si fuma.

  • Gasto en pinturas: si la industria utiliza pinturas.


Podemos observar, que normalmente será incongruente para el investigador recibir resultados porcentuales de esas variables tomando como base el TOTAL de casos. Por lo tanto cualquier porcentaje de esas variables no deberá hacer referencia al 100% de la base de datos sino a los que cumplan la condición de la base (fumadores e industrias utilizadoras de pinturas, en los ejemplos citados).

Las celdas de la tabla


Al hacer una tabla, en las celdas esperamos obtener unos valores que llamaremos estadísticos de celda. Los estadísticos de celda son aquellos valores que podemos calcular en cada una de las celdas que componen una tabla. Para que se calculen, tras hacer la tabla y tener la ventana de resultados delante, basta con hacer clic en el botón correspondiente en la base de la ventana (estadísticos de celda), y marcar en las casillas de verificación. Entre ellas podemos destacar las frecuencias o valores absolutos, así como los porcentajes tanto verticales, horizontales, como totales; de ellos hablaremos a continuación. El software te debe permitir combinar varios de estos estadísticos de celda en la misma tabla, en lugar de obtenerlos en tablas separadas, si se activa la opción Combinar en la base de la ventana de resultados y luego se van pinchando los botones respectivos.
Frecuencias (observadas en la muestra o reales)

Definimos frecuencia absoluta como el número de casos que en nuestro fichero de datos cumplen las características (o se encuentran en los intervalos) fijadas tanto por la variable que da lugar a la creación de una columna, como por la variable que da lugar a la creación de una fila si hablamos de tabla de resultados o al número de veces que se repite un determinado valor (o el intervalo al que pertenece) si hablamos de una distribución. Estadísticamente la definiremos, por tanto, como el número de veces que se repite en una población o muestra cada una de las categorías de una variable cualitativa o de los valores de una variable cuantitativa.
Porcentajes verticales o de columna

Expresión de los valores de una distribución, en función de 100, o igualando a 100 el total general de dichos valores. Es llamado vertical, porque el 100% será la base de los casos en columna para un cruce de variable por variable en una tabla de doble entrada (total marginal de columna).
Porcentajes horizontales o de fila

Expresión de los valores de una distribución en función de 100, o igualando a 100 el total general de dichos valores. Es llamado horizontal, porque el 100% será la base de los casos en fila para un cruce de variable por variable en una tabla de doble entrada (total marginal de fila).
Porcentajes totales o sobre el total muestral

Expresión de los valores de una distribución en función de 100, o igualando a 100 el total general de dichos valores. Es llamado total, porque el 100% será la base de los casos totales valorados en una tabla de doble entrada (total de casos en la muestra o población).
Valor ChiSQ

Este resultado nos indica que valor ha obtenido la prueba ChiSQ que se ha realizado en esa celdilla. Es el valor utilizado para marcar la celdilla como significativa. Habitualmente en Investigación de mercados el valor de control sería el 3,84 (valores> 3.84 al 95,5%).
Frecuencias esperadas

Las frecuencias esperadas son aquellas observaciones que cabría esperar, si no hubiera asociación alguna entre las variables tabuladas. Su cálculo es muy sencillo: si tomamos el total marginal de la columna i, y lo multiplicamos por el total marginal de la fila j, dividiendo posteriormente por el total de observaciones, obtendremos un número llamado frecuencia esperada de la celdaij. Esta frecuencia esperada —la misma que en las pruebas derivadas de ChiSQ— es muy utilizada para realizar contrastes de frecuencias. Esta frecuencia esperada será la base del análisis de residuos y también de las posteriores pruebas estadísticas que analizaremos.
Residuos

Diferencias entre la frecuencia esperada y la observada. Se presenta en tres formas distintas que se desarrollan en el apartado de análisis estadístico de residuos.
Otros estadísticos en columnas, filas y celdas

Manteniendo las definiciones anteriormente aportadas de columnas y filas, y añadiendo en este caso también el de celda —unidad de la tabla— podemos hacer tablas que contengan medidas estadísticas en columnas, en filas o en celdas.

  • Base, número de casos que intervienen en el cálculo de estadísticos o dicho de otra forma número de casos válidos (con respuesta numérica) que se han utilizado para estimar los estadísticos.

  • Suma de casos, valor resultante de la adición de los valores tomados por una variable numérica métrica. El cálculo resultante será la suma de la información de la variable para todos los casos seleccionados.

  • Máximo valor, punto en el que la distribución de frecuencias de una variable métrica alcanza su valor más elevado. Los valores anteriores y posteriores en la distribución siempre serán más bajos.

  • Mínimo valor, punto en que la distribución de frecuencias de una variable métrica alcanza un valor más bajo. Los valores anteriores y posteriores en la distribución serán siempre más altos.

  • Media aritmética, la media aritmética, conocida como “media” generalmente es una medida de tendencia central paramétrica, aplicable específicamente en el caso de variables cuantitativas con escalas de intervalo o de razón, que representa el punto de la distribución de los valores de una variable, en el que se hacen iguales las desviaciones con relación a dicho punto, de los valores de la distribución situados sobre ese punto con los situados por debajo de ese punto.

  • Desviación típica, medida de dispersión paramétrica igual a la raíz cuadrada de la varianza, o de la media del cuadrado de las desviaciones de los valores de una distribución desde su media. Exige para ser válido su valor, por su condición de estadístico paramétrico, que la variable se distribuya normalmente y que esté medida por intervalos (métrico).

  • Varianza, medida de dispersión paramétrica igual a la media del cuadrado de las desviaciones de los valores de una distribución desde su media. Exige para ser válido su valor por su condición de estadístico paramétrico, que la variable se distribuya normalmente y que esté medida por intervalos (métrico)

  • Coeficiente de variación, recibe este nombre la dispersión relativa que se pueda dar en una distribución de frecuencias. Al ser un cociente sin dimensión, puede servir como medida de comparación de dos distribuciones con media y desviaciones diferentes.

  • Intervalo de confianza para la media, intervalo generado alrededor de la media partiendo del valor de la desviación típica, donde podemos asegurar con cierto grado de confianza, que la media deberá estar incluida en él. El programa utiliza por defecto un nivel de confianza del 95%, por tanto z, es 1,96.

  • Prueba t - Student, contraste estadístico del mismo nombre. Dadas dos variables numéricas métricas se aplica la prueba para medias de muestras pequeñas e independientes. En la fórmula n1 y n2 son los tamaños muestrales y S1 y S2 son las desviaciones típicas de ambas muestras.

  • Coeficiente de correlación, coeficiente lineal y paramétrico que relaciona las variables de forma que estudia la variación que supone en una variable modificaciones de la otra variable. Entre - 1 y 1 valores próximos a 0 implican ausencia de correlación o ausencia de correlación. Valores próximos a 1 implican correlación o relación directa (aumentos provocan aumentos, disminuciones provocan disminuciones en el índice del coeficiente) y valores próximos a - 1 implican relación o correlación inversa (aumentos implican disminuciones y disminuciones provocan aumentos entre la variables). Dado su carácter lineal y paramétrico, su aplicación exige que la relación entre las variables sea lineal y que pueda ser expresada por la ecuación de la línea recta, por otro lado, le pediremos a las variables que tengan una escala al menos de intervalo y que su distribución sea normal o tendente a una normal.

  • Razones o ratios, en nuestro caso consideramos el estadístico razón, como el cociente de la variable 1 y la variable 2 en la tabla. Es decir, tras sumar los valores de 1 y 2, se dividen ambos.

Entradas populares de este blog

SegmentaNet y R

En breve será presentado SegmentaNet, el nuevo proyecto en el que ando metido en los últimos seis meses. Un proyecto que con el respaldo y la aportación de todos los miembros del equipo de TESIa los que agradezco su apoyo. A Vicent Rosell y a Elsa Sebastià por su aportación día a día escribiendo código; al resto de programadores de TESI, Carles Climent, Carlos Anduj, Vicent Baixauli, Amalia Curiel, Eduardo Moreno, Enric Sanchis y también a Raúl Piera, reciente incorporación al equipo de soporte: sin que asumiérais una gran parte de nuestro trabajo, esto no hubiera sido posible. Del mismo modo, gracias a Josep, Raquel, Ángel y Yolanda por liberarnos de mucha carga de trabajo y de contactos con usuarios de nuestro software.

Acabados los agradecimientos, debo decir que SegmentaNet,será una plataforma de reporting para usuarios con necesidades de análisis de datos básico (descriptivos, tablas, gráficos) y de presentación de resultados, organizados en dashboards o con acceso individual.

Per…

Barbwin2R, o como pasar datos de BarbWin a R

Son muchas las veces que ya me han preguntado por cómo manipular los datos (transformaciones, cálculos, reediciones, etc) para luego llevarlos a R. Está claro que desde EXCEL o CSV (texto), es directo, y también con SPSS, siendo este último el preferido, pues conserva las etquetas de variable y de los valores.
Dado que mi conocimiento sobre R, aunque mayor día a día, está a años luz de lo que podría considerarse un óptimo para trabajar única y exclusivamente con R, sigo utilizando mi BarbWin de siempre, aunque cada vez más haya procesos que hago con R. Para mí ha sido un descubrimiento esta aplicación, y no dejo de hablar de sus bondades y su potencial de integración con otras herramientas de análisis y publicación a todos los que me quieran escuchar y sean habituales del análisis de datos. Está claro que con otros usuarios, es mejor ni mentar R y sus infinitas bondades.
Así que la pregunta que plantea esta entrada tiene una respuesta que sembrará más confusión: SPSS.
Así es, guardan…

Errores y encuestas

Errores y encuestas son dos términos que viajan conjuntamente en el mundo de la investigación de mercados. El error es inherente al ejercicio de la encuesta. No hay encuestas sin errores. Aquí os dejo dos gráficos que utilizo en mis sesiones de investigación que muestran las diferentes fuentes de error que pueden existir en una encuesta. Por un lado, el reconocimiento de  lo que viene a ser llamado el error total, que agrupa aquellos errores que pueden ser atribuibles al muestreo, y aquellos que no provienen del hecho de trabajar con muestras. Este grupo, es la fuente de error que debemos tratar de minimizar.



El segundo gráfico, muestra las diferentes formas en las que el error de respuesta y otros, se puede materializar. Y es evidente que todos ellos son trabajables y mejorables en elementos que forman parte del plan de investigación:

Planteamiento de la investigación
Diseño de la investigación
Formación del entrevistador
Formulación de las preguntas: enunciado, tipo de respuesta solicita…