Estoy analizando los resultados de una serie de pruebas, y quiero encontrar una correlación o falta de ella entre un valor cuantitativo y una pregunta de “sí o no”. ¿Cuál es la mejor manera de hacer esto?

Si, puedes hacerlo. Como persona práctica (y algunos puristas de estadísticas no estarán contentos de cortar esquinas y romper suposiciones), veo tres formas relativamente simples de hacerlo.

1. Correlación simple en Excel. Simplemente agregue una columna donde reemplace Sí con 1 y No con 0, y ejecute la correlación entre esta variable ficticia y su variable cuantitativa. Tenga en cuenta que si sus conjuntos Y y N no son representativos, es probable que haya otras variables que puedan explicar total o parcialmente esta correlación. Además, no podrá distinguir del coeficiente de correlación en sí mismo si es estadísticamente significativo.

2. Probar la diferencia de las medias para la significación estadística. Lo que puede hacer es establecer que hay una diferencia en los promedios (llamados ‘medios’ en las estadísticas) para Sí y No, que llamaremos yn, y luego verificar si es estadísticamente significativo. Si es así, has establecido que hay una relación. Nuevamente, al igual que el n. ° 1, asegúrese de asegurarse de que los conjuntos Sí y No sean representativos entre sí y que la diferencia no provenga de alguna otra variable correlacionada con S / N. Si cree que puede haber un caso de influencia, vuelva al n. ° 3, regresión de variable ficticia.

Para verificar la significación estadística, primero ejecute los promedios de Sí y No. En segundo lugar, calcule las desviaciones estándar de la variable cuantitativa para Y y N (solo use la fórmula STDEV.S en Excel), y luego calcule la desviación estándar de la diferencia entre Sí y no como
STD (yn) = SQRT (STD (Y) ^ 2 / Ny + STD (N) ^ 2 / Nn),
donde Ny es el número de observaciones en el conjunto Y, y Nn es el mismo para N.

Si su diferencia yn es al menos dos veces mayor que su error estándar (en su caso, desviación estándar), entonces la diferencia yn es estadísticamente significativa a un nivel de confianza del 95%.

Esto probablemente no sea muy perfecto, y lo hice en la parte posterior de la servilleta usando Stat 101. La idea es que calcules un valor y luego su desviación estándar, y si su desviación estándar es la mitad o menos del valor, entonces el Se cree que el valor es diferente de cero (la prueba de hipótesis nula básica). Calcular la diferencia no es difícil, pero la desviación estándar es un poco complicada. Para eso necesita comprender la diferencia entre la varianza (varianza = STD ^ 2) de la variable y la varianza de su media (es 1 / (N-1), pero bajé -1 por simplicidad y otras consideraciones). Después de eso, puede calcular la desviación estándar de la varianza de una fórmula de suma, suponiendo una covarianza cero.

3. Regresión de variables ficticias. Lo mismo que # 1, pero puede agregar más variables para refinar el impacto de Y y N. Esto solo tendría sentido si Y / N impacta la variable cuantitativa, no al revés. Además, puede ser un poco demasiado agresivo para usted ejecutar una regresión múltiple con muchas variables. Probablemente recomendaría probar otras variables para la correlación / impacto usando primero # 1 y # 2.

La regresión logística es, con mucho, el medio más popular para analizar respuestas binarias con predictores cuantitativos.

Hay docenas de alternativas, pero los logits son bien entendidos, ampliamente utilizados y existen muchos paquetes de software; así que definitivamente recomendaría comenzar allí. Si se siente cómodo con la regresión logística, puede probar y probar otros procedimientos (por ejemplo, probits, árboles de decisión, modelos no lineales).

Las otras respuestas aquí ya lo han señalado a la prueba t combinada de medias y regresión logística como técnicas analíticas, pero puede ser útil trazar los datos antes de ingresar al análisis numérico.

Suponiendo que su valor cuantitativo es continuo, o al menos tiene una amplia gama de valores posibles, los siguientes gráficos pueden ser útiles:

  • Un diagrama de caja de los datos, con la variable cuantitativa como respuesta y la variable binaria como los grupos. Esto le dará una idea de si la distribución de la variable cuantitativa es muy diferente entre los grupos.
  • Histogramas superpuestos de la variable cuantitativa, uno para cada grupo. Esto también le dará una idea de la distribución, pero con un “resaltado” ligeramente diferente al de un diagrama de caja.
  • Un gráfico lineal simple o un gráfico de barras verticales, con la variable cuantitativa como eje xy “% de encuestados seleccionando sí” como eje y. Esto es una especie de inverso del histograma.

Si hay una relación, debe destacarse en una (probablemente más) de esas parcelas, y luego puede ir a una prueba t o regresión logit para cuantificarla.