Ir al contenido principal

Chi Square, contraste de independencia en una tabla de contingencia

Más lejos de la pura relación que muestra una tabla de contingencia está el deseo del investigador de analizar si existe una relación de dependencia entre dos variables de tipo nominal. Para analizar esta hipótesis de partida, disponemos de un conjunto de medidas estadísticas derivadas de los cálculos de tablas de contingencia de variable por variable. Las pruebas las clasificaremos según las variables que se estén analizando, bien sean nominales o bien sean ordinales, o bien siendo del tipo que sean, las hemos nominalizado a partir de utilizar unas categorías creadas por nosotros mismos.

Es en esta situación cuando aparece Chi Square, contraste de independencia en una tabla de contingencia. Más conocida la prueba general de tabla que veremos en un posterior test (que se una extensión de esta misma) la denominada Chi Square de celda es una prueba muy utilizada entre las empresas de investigación. Está basada en un desarrollo parcial de la prueba Chi Square de Pearson (ChiSquare de tabla) pero en lugar de para toda la tabla se calcula una prueba para cada una de las celdas de la misma.

Aunque su cálculo se realiza con los valores absolutos, su interpretación comercial se realiza con los porcentajes de columna o verticales. Su realización permite poder observar de un solo vistazo cuáles son las celdas que presentan una determinada significación en la tabla. En términos no estadísticos podemos decir, que nos permite conocer cuáles son los resultados (alternativas de respuesta) que presentan un resultado más dispar en una tabla, dados unos porcentajes marginales determinados. En estas pruebas la celdilla (alternativa de respuesta) estudiada se convierte en la celda superior izquierda de una tabla 2x2 de 4 campos: ella misma, el total de su columna, el total de su fila, y el total general.











frecuencia observadatotal fila
total columnatotal muestra

El resultado de la prueba será significativo si es mayor que 3'84, valor tomado con un 95.45 % de confianza. La operativa es muy sencilla Debemos calcular la frecuencia esperada de cada celda y compara la frecuencias realmente obtenidas (frecuencia observada) con las frecuencias esperadas que son las que corresponderían a cada casilla de la tabla si su valor se ajustase a cualquier norma teórica previamente adoptada; en nuestro caso, una distribución proporcional de frecuencias normales. En definitiva, “se está calculando un índice acerca de la distancia entre lo real y lo esperado” (Sánchez Carrión, 1989). El valor numérico se obtiene como...

chi-celda | chi-celda2


siendo …

  • i=1, en la prueba Chi Square de celda

  • fo, será las frecuencias observada en el experimento o muestra

  • fe, serán las frecuencia esperada teóricamente, calculada con la segunda fórmula (tabla 2*2 mencionada anteriormente)

  • Ntotal, es el número de efectivos muestrales


Esta prueba se suele utilizar (entre muchas otras posibilidades) para contrastar la hipótesis nula que los resultados obtenidos de una muestra no son significativos con relación a la población total, o bien como prueba de independencia para comprobar la existencia o no de asociación entre las variables. En este caso, la prueba indica la existencia de asociación pero no la cuantifica.

La mayoría de los programas que contienen esta prueba de referencia Barbwin, Systat, SPSS (recientemente incluida en las tablas personalizadas) no dan el valor exacto de la prueba para cada celda, sino que marca en los porcentajes verticales aquellas celdillas que se consideren significativas con un (> o un +) si el porcentaje vertical está sobre el porcentaje de totales o con un (< o un -) si está por debajo del porcentaje de totales.
























































































































































TOTALEDAD
% Verticales con marca ChiSquare-25-35-45-5555
TOTAL384124104644052
Notoriedad espontánea
P10384124104644052
Peugeot 307 Toruing52.148.450.062.560.046.2
Otros34.425.8>50.0>56.320.0<7.7
Xsara Picasso32.338.742.318.830.0<15.4
Corolla Verso13.512.915.46.320.015.4
Volkswagen Touran12.5>19.47.712.510.07.7
Megane Scenic11.512.97.76.3>30.07.7
Otros Renault Space10.4<3.2>19.26.310.015.4
Volkswagen Sharan6.33.27.7>12.510.0
Otros Opel Zafira4.2<3.86.310.07.7
Chrysler Grand Voyager4.2<7.7>12.5
Seat Alhambra2.13.23.8
NS/NC9.46.57.76.3>30.8

Bibliografía


Sánchez Carrión, J., 1989, Análisis de tablas de contingencia, CIS.

Entradas populares de este blog

Google Forms y SPSS

Google Forms y SPSSSon muchos los alumnos que se han dirigido a mí en la última etapa del máster de investigación de mercados, para poder adaptar el archivo obtenido de Google Forms a SPSS. Los principales problemas que se presentaban, están relacionados con que el archivo CSV (texto separado por comas) o EXCEL que se genera, lo hace con las descripciones de las etiquetas de los códigos, es decir. Si en Google Forms pusiste en la pregunta acerca del género del individuo Hombre y Mujer en las opciones de respuesta, en tu EXECL o CSV encuentras esos valores de texto en lugar de 1 o 2, que sería lo que esperabas.

Es evidente, que con las funciones REEMPLAZAR texto de EXCEL podríamos llegar a la situación que deseamos, que si bien no es necesaria en las variables nominales, es más "lógica". En SPSS las variables nominales pueden ser de texto, pero mejor si son números, sobre todo para establecer filtros sobre los datos.

Como algunos de vosotros ya sabéis, yo utilizo de forma habit…

Selección de marcas con prioridad en iQuest

Un nuevo ejemplo práctico del potencial del software de encuestación de TESI. Diseñamos este ejercicio con iQuest, por lo que podríamos administrar una encuesta con este ejercicio entre sus preguntas tanto en MobiNet (CAPI) como en CawiNet (CAWI) y también por qué no en CatiNet (CATI).

Aprovechando la consulta de un usuario, os dejo aquí en este post la explicación de cómo hacer una selección de 3 marcas entre 25 posibles elecciones, que deben ser después evaluadas, pero con la condición de que existe una prioridad para elegir aquellas marcas que tengan una menor penetración en el mercado. En nuestro ejemplo, las marcas con PRIORIDAD 1 siempre deben ser elegidas antes que las de prioridad 2 y así sucesivamente. No hay más restricción.

El campo de selección es múltiple, y se puede elegir desde 1 a 25 marcas (hemos agrupado las marcas de 5 en 5 por facilitar la visualización del ejercicio). El resultado final nos arroja siempre 3 o menos marcas elegidas.

Para este ejercicio han hecho falta…

Barbwin2R, o como pasar datos de BarbWin a R

Son muchas las veces que ya me han preguntado por cómo manipular los datos (transformaciones, cálculos, reediciones, etc) para luego llevarlos a R. Está claro que desde EXCEL o CSV (texto), es directo, y también con SPSS, siendo este último el preferido, pues conserva las etquetas de variable y de los valores.
Dado que mi conocimiento sobre R, aunque mayor día a día, está a años luz de lo que podría considerarse un óptimo para trabajar única y exclusivamente con R, sigo utilizando mi BarbWin de siempre, aunque cada vez más haya procesos que hago con R. Para mí ha sido un descubrimiento esta aplicación, y no dejo de hablar de sus bondades y su potencial de integración con otras herramientas de análisis y publicación a todos los que me quieran escuchar y sean habituales del análisis de datos. Está claro que con otros usuarios, es mejor ni mentar R y sus infinitas bondades.
Así que la pregunta que plantea esta entrada tiene una respuesta que sembrará más confusión: SPSS.
Así es, guardan…