Ir al contenido principal

Chi Square, contraste de independencia en una tabla de contingencia

Más lejos de la pura relación que muestra una tabla de contingencia está el deseo del investigador de analizar si existe una relación de dependencia entre dos variables de tipo nominal. Para analizar esta hipótesis de partida, disponemos de un conjunto de medidas estadísticas derivadas de los cálculos de tablas de contingencia de variable por variable. Las pruebas las clasificaremos según las variables que se estén analizando, bien sean nominales o bien sean ordinales, o bien siendo del tipo que sean, las hemos nominalizado a partir de utilizar unas categorías creadas por nosotros mismos.

Es en esta situación cuando aparece Chi Square, contraste de independencia en una tabla de contingencia. Más conocida la prueba general de tabla que veremos en un posterior test (que se una extensión de esta misma) la denominada Chi Square de celda es una prueba muy utilizada entre las empresas de investigación. Está basada en un desarrollo parcial de la prueba Chi Square de Pearson (ChiSquare de tabla) pero en lugar de para toda la tabla se calcula una prueba para cada una de las celdas de la misma.

Aunque su cálculo se realiza con los valores absolutos, su interpretación comercial se realiza con los porcentajes de columna o verticales. Su realización permite poder observar de un solo vistazo cuáles son las celdas que presentan una determinada significación en la tabla. En términos no estadísticos podemos decir, que nos permite conocer cuáles son los resultados (alternativas de respuesta) que presentan un resultado más dispar en una tabla, dados unos porcentajes marginales determinados. En estas pruebas la celdilla (alternativa de respuesta) estudiada se convierte en la celda superior izquierda de una tabla 2x2 de 4 campos: ella misma, el total de su columna, el total de su fila, y el total general.











frecuencia observadatotal fila
total columnatotal muestra

El resultado de la prueba será significativo si es mayor que 3'84, valor tomado con un 95.45 % de confianza. La operativa es muy sencilla Debemos calcular la frecuencia esperada de cada celda y compara la frecuencias realmente obtenidas (frecuencia observada) con las frecuencias esperadas que son las que corresponderían a cada casilla de la tabla si su valor se ajustase a cualquier norma teórica previamente adoptada; en nuestro caso, una distribución proporcional de frecuencias normales. En definitiva, “se está calculando un índice acerca de la distancia entre lo real y lo esperado” (Sánchez Carrión, 1989). El valor numérico se obtiene como...

chi-celda | chi-celda2


siendo …

  • i=1, en la prueba Chi Square de celda

  • fo, será las frecuencias observada en el experimento o muestra

  • fe, serán las frecuencia esperada teóricamente, calculada con la segunda fórmula (tabla 2*2 mencionada anteriormente)

  • Ntotal, es el número de efectivos muestrales


Esta prueba se suele utilizar (entre muchas otras posibilidades) para contrastar la hipótesis nula que los resultados obtenidos de una muestra no son significativos con relación a la población total, o bien como prueba de independencia para comprobar la existencia o no de asociación entre las variables. En este caso, la prueba indica la existencia de asociación pero no la cuantifica.

La mayoría de los programas que contienen esta prueba de referencia Barbwin, Systat, SPSS (recientemente incluida en las tablas personalizadas) no dan el valor exacto de la prueba para cada celda, sino que marca en los porcentajes verticales aquellas celdillas que se consideren significativas con un (> o un +) si el porcentaje vertical está sobre el porcentaje de totales o con un (< o un -) si está por debajo del porcentaje de totales.
























































































































































TOTALEDAD
% Verticales con marca ChiSquare-25-35-45-5555
TOTAL384124104644052
Notoriedad espontánea
P10384124104644052
Peugeot 307 Toruing52.148.450.062.560.046.2
Otros34.425.8>50.0>56.320.0<7.7
Xsara Picasso32.338.742.318.830.0<15.4
Corolla Verso13.512.915.46.320.015.4
Volkswagen Touran12.5>19.47.712.510.07.7
Megane Scenic11.512.97.76.3>30.07.7
Otros Renault Space10.4<3.2>19.26.310.015.4
Volkswagen Sharan6.33.27.7>12.510.0
Otros Opel Zafira4.2<3.86.310.07.7
Chrysler Grand Voyager4.2<7.7>12.5
Seat Alhambra2.13.23.8
NS/NC9.46.57.76.3>30.8

Bibliografía


Sánchez Carrión, J., 1989, Análisis de tablas de contingencia, CIS.

Entradas populares de este blog

SegmentaNet y R

En breve será presentado SegmentaNet, el nuevo proyecto en el que ando metido en los últimos seis meses. Un proyecto que con el respaldo y la aportación de todos los miembros del equipo de TESIa los que agradezco su apoyo. A Vicent Rosell y a Elsa Sebastià por su aportación día a día escribiendo código; al resto de programadores de TESI, Carles Climent, Carlos Anduj, Vicent Baixauli, Amalia Curiel, Eduardo Moreno, Enric Sanchis y también a Raúl Piera, reciente incorporación al equipo de soporte: sin que asumiérais una gran parte de nuestro trabajo, esto no hubiera sido posible. Del mismo modo, gracias a Josep, Raquel, Ángel y Yolanda por liberarnos de mucha carga de trabajo y de contactos con usuarios de nuestro software.

Acabados los agradecimientos, debo decir que SegmentaNet,será una plataforma de reporting para usuarios con necesidades de análisis de datos básico (descriptivos, tablas, gráficos) y de presentación de resultados, organizados en dashboards o con acceso individual.

Per…

Barbwin2R, o como pasar datos de BarbWin a R

Son muchas las veces que ya me han preguntado por cómo manipular los datos (transformaciones, cálculos, reediciones, etc) para luego llevarlos a R. Está claro que desde EXCEL o CSV (texto), es directo, y también con SPSS, siendo este último el preferido, pues conserva las etquetas de variable y de los valores.
Dado que mi conocimiento sobre R, aunque mayor día a día, está a años luz de lo que podría considerarse un óptimo para trabajar única y exclusivamente con R, sigo utilizando mi BarbWin de siempre, aunque cada vez más haya procesos que hago con R. Para mí ha sido un descubrimiento esta aplicación, y no dejo de hablar de sus bondades y su potencial de integración con otras herramientas de análisis y publicación a todos los que me quieran escuchar y sean habituales del análisis de datos. Está claro que con otros usuarios, es mejor ni mentar R y sus infinitas bondades.
Así que la pregunta que plantea esta entrada tiene una respuesta que sembrará más confusión: SPSS.
Así es, guardan…

Errores y encuestas

Errores y encuestas son dos términos que viajan conjuntamente en el mundo de la investigación de mercados. El error es inherente al ejercicio de la encuesta. No hay encuestas sin errores. Aquí os dejo dos gráficos que utilizo en mis sesiones de investigación que muestran las diferentes fuentes de error que pueden existir en una encuesta. Por un lado, el reconocimiento de  lo que viene a ser llamado el error total, que agrupa aquellos errores que pueden ser atribuibles al muestreo, y aquellos que no provienen del hecho de trabajar con muestras. Este grupo, es la fuente de error que debemos tratar de minimizar.



El segundo gráfico, muestra las diferentes formas en las que el error de respuesta y otros, se puede materializar. Y es evidente que todos ellos son trabajables y mejorables en elementos que forman parte del plan de investigación:

Planteamiento de la investigación
Diseño de la investigación
Formación del entrevistador
Formulación de las preguntas: enunciado, tipo de respuesta solicita…