estadística

Falsas correlaciones

Falsas correlaciones

     Última actualizacón: 4 mayo 2017 a las 10:52

La correlación perfecta, cuando se basa en la experiencia suficiente, es la causalidad en el sentido científico.

Henry E. Niles en Correlation, causation and Wright´s theory of «Path Coefficients», Genetics, 1922, núm. 7, págs. 259-261.

Todos sabemos que correlación no implica causalidad, ¿no? Cuando nos adentramos en el apasionante mundo de la estadística, decimos que dos variables están correlacionadas (por ejemplo, variable 1= fumar; variable 2= sufrir cáncer) cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra. En nuestro ejemplo, existirá correlación entre las dos variables si al aumentar el número de personas fumadoras, aumenta también el número de personas afectadas por el cáncer.

Pero es muy importante tener en cuenta que, en ciencia, que exista una correlación estadística entre dos variables (o conjunto de datos), no implica por sí mismo que haya una relación de causalidad. Esto es, y volviendo a nuestro ejemplo, el hecho de que al aumentar el número de personas que fuman aumenten los casos de cáncer, no implica —a priori y por sí mismo— que fumar produzca cáncer (hoy en día se ponen unos mensajes en las cajetillas de tabaco tales como «Fumar mata» aunque no tengamos el mismo nivel de evidencia de esta relación de causalidad como el que se exige, por ejemplo, para introducir un medicamento en el mercado).

A continuación os dejo con unas tablas que ha elaborado Tyler Vigen donde correlaciona distintas variables para mostrar gráficamente el tratamiento de diferentes grupos de datos:

 

 

 

 

 

Por ejemplo, por muy malas que sean las películas de Nicolas Cage, no son la causa de que mueran más personas ahogadas al caerse en una piscina.

Estas tablas son una pequeña muestra de las que puedes ver en su blog titulado Falsas correlaciones. Como él mismo cuenta, este proyecto nació con la doble finalidad de estudiar de forma divertida las correlaciones, así como reflexionar acerca de los datos. Para él, la investigación empírica es interesante y por eso le encanta preguntarse acerca de la forma en que las variables se combinan.

Más información:

Publicado por José Luis Moreno en BREVE, 0 comentarios
“Estadísticamente significativo”. El valor p y sus controversias

“Estadísticamente significativo”. El valor p y sus controversias

     Última actualizacón: 17 marzo 2018 a las 16:57

En 2008 la revista Nature 1 publicaba un artículo de lectura obligada para todo aquel que divulgue ciencia. En él, Heidi Ledford llamaba la atención sobre algunos de los términos científicos más difíciles de definir, y uno de los ocho elegidos era precisamente «significativo», un adjetivo que los estadísticos emplean para describir la validez científica, y que los investigadores, respaldados o no por la estadística, emplean habitualmente para demostrar la importancia de sus descubrimientos.

Esta significación se ha determinado con el llamado «valor p». Es común leer una explicación de este concepto como la forma de expresar la probabilidad de que el resultado obtenido al realizar un experimento se deba al azar. Nosotros seremos más precisos: que una asociación entre dos variables es «estadísticamente significativa» quiere decir que puede descartarse que haya aparecido por azar, porque si no hubiera dicha asociación, resultados como el observado serían muy poco probables (esta probabilidad se expresa con una p. Un valor inferior a 0,05 es el límite estándar, por lo que un valor de p de 0,01 se califica como una asociación «muy significativa” entre las variables).

De acuerdo con la interpretación frecuente de este indicador, cuando se analiza por ejemplo la eficacia de un medicamento, un resultado experimental «significativo» con un valor p de 0,05 o menos significa que hay una probabilidad de un 5% o menos de que el medicamento no sea eficaz. Sin embargo, si tenemos en cuenta la definición precisa que ofrece la estadística, en realidad queremos decir que hay una probabilidad de un 5% o menos de obtener los datos observados incluso aunque el medicamento sea ineficaz. La diferencia puede parecer imperceptible; en cambio, matemáticamente, es crucial.

Andrew Lang (atribuido)

Entendamos cómo se construye la ciencia

El objeto de la ciencia es el conocimiento de la naturaleza, y la observación es el método idóneo para tal fin. Pero también necesitamos de la especulación, esto es, la investigación teórica que aporta la lógica o razonamiento lógico donde encontramos principalmente dos variantes: el razonamiento deductivo y el inductivo.

En la inferencia deductiva, comenzamos con una hipótesis cualquiera (una afirmación acerca de cómo funciona la naturaleza) y predecimos lo que deberíamos observar si la hipótesis fuera cierta. La deducción es objetiva en el sentido de que las predicciones acerca de lo que veremos son siempre ciertas si la hipótesis de partida es cierta. Su problema, en cambio, es que no podemos utilizar este razonamiento para ampliar nuestro conocimiento más allá de lo que está implícito en la hipótesis planteada.

La inferencia inductiva va en la dirección contraria: sobre la base de lo que observamos en la naturaleza, analizamos qué hipótesis es más viable. La ventaja del pensamiento inductivo es que nuestras conclusiones acerca de los estados no observados de la naturaleza son más amplias que las observaciones en las que están basadas; es decir, usamos esta forma de razonar para generar nuevas hipótesis y para aprender cosasnuevas que no habíamos intuido. La contrapartida es que no podemos estar seguros de que nuestras conclusiones sobre la naturaleza sean realmente ciertas, un inconveniente conocido como el problema de la inducción (puedes leer más en wikipedia o mejor en la Stanford Encyclopedia of Philosophy). Una buena forma de ejemplificar este problema es a través de la historia del descubrimiento de los cisnes negros: todos los cisnes que se podían ver en Europa eran blancos, de ahí que se aceptase que no existían cisnes de otro color. Cuando un explorador descubrió cisnes negros en Australia las concepciones previas tuvieron que cambiarse.

Los filósofos han luchado contra el problema de la inducción y han tratado de resolverlo o de esquivarlo de diferentes formas. Por ejemplo, Karl Popper propuso eliminar completamente la inducción formal y utilizar únicamente los elementos deductivos del razonamiento: los componentes predictivos y de refutación. Por su parte, Rudolf Carnap intentó la estrategia contraria, es decir, hacer el componente inductivo del razonamiento tan seguro como la parte deductiva. Al final comprendieron que no hay una solución metodológica al problema del conocimiento científico falible.

Tomado de Casino, G. (2013)

El método científico propone hipótesis que representan la naturaleza, recoge datos y las pone a prueba con ellos, es decir, la ciencia establece puentes entre las ideas y los datos. La ciencia es falible, en el sentido de que los futuros datos pueden hacer fallar las hipótesis previas, de ahí que los modelos científicos sean constantemente abandonados en beneficio de otros que los mejoran y matizan. En consecuencia, no se pretende que las hipótesis sean definitivamente ciertas, pero sí que sean útiles y ofrezcan claves para interpretar el funcionamiento de la naturaleza.

Y aquí es donde entra la estadística. Determinar qué verdad subyacente es la más probable sobre la base de los datos obtenidos es un problema de probabilidad inversa que solucionó cuantitativamente el reverendo Thomas Bayes hace más de 250 años. En términos no matemáticos, el teorema de Bayes dice que la probabilidad inicial o teórica de un suceso cualquiera puede ser modificada si se cumple alguna condición que afecta a ese suceso, dependiendo de la probabilidad de esa condición y de la probabilidad de que cuando tal condición se cumple se vea afectado el suceso inicial.

Por ejemplo, si seleccionamos una persona al azar, la probabilidad de que sea diabética es 0,03 (por lo tanto, la probabilidad de que no lo sea es 0,97). Si no disponemos de más información ahí queda todo. Pero si tras realizar un análisis de sangre comprobamos que los niveles de glucosa son superiores a 1.000 mg/l (lo que ocurre en el 95% de los diabéticos y sólo en un 2% de las personas sanas) ¿cuál será ahora la probabilidad de que esa persona sea diabética? La respuesta según el teorema de Bayes es que esa información adicional hace que la probabilidad aumente ahora a 0,595.

De esta forma, la información facilitada por el análisis de sangre aumenta la probabilidad inicial de padecer diabetes de 0,03 a 0,595. Correlativamente, si la prueba del análisis de sangre hubiese sido negativa, esta información modificaría las probabilidades de padecer la enfermedad en sentido contrario (en nuestro caso, esta probabilidad se reduciría a 0,0016).

Las críticas a esta metodología se centran en que es preciso asignar una probabilidad inicial a la verdad de una hipótesis (en nuestro ejemplo, la probabilidad de que una persona cualquiera sea diabética), un número considerado «subjetivo» y cuyo valor científico no está del todo claro (quizás por este motivo Bayes no hizo público su descubrimiento y solamente lo conocimos después de su muerte).

Debido a la subjetividad de este método, el esfuerzo de los científicos se centró en desarrollar una inferencia estadística alternativa que utilizara únicamente probabilidades deductivas, calculadas con fórmulas matemáticas que describieran (bajo ciertas asunciones) la frecuencia de todos los resultados experimentales posibles cuando ese experimento se repetía muchas veces. De esta forma se introdujo un índice para medir la fuerza de la prueba llamado «valor p” (propuesto por Fisher en la década de los años veinte del siglo pasado 2.) y un método para elegir entre hipótesis (llamado contraste de hipótesis) desarrollado más tarde por los estadísticos Neyman y Pearson 3.

En realidad estos dos métodos son incompatibles entre sí, pero erróneamente se les considera como parte de un enfoque único y coherente para obtener inferencias estadísticas.

El valor p y el contraste de hipótesis

El «valor p» se propuso originalmente como un índice para medir la discrepancia entre los datos y una hipótesis nula (H0), pero no era parte de un método formal de inferencia. Para su aplicación, los investigadores debían establecer en primer lugar la hipótesis nula que querían refutar ya que la hipótesis alternativa (H1), a la que se contrapone, es la que el investigador pensaba realmente que es la causa de un fenómeno dado. Por ejemplo:

H0 – el ibuprofeno no disminuye el dolor.

H1 – el ibuprofeno disminuye el dolor.

Una vez fijadas las dos hipótesis, debían hacer de abogados del diablo y someter la hipótesis nula a experimentación. El valor p se define entonces como la probabilidad, bajo la asunción de que no hay un efecto (esto es, que la hipótesis nula es cierta) de obtener un resultado igual o más extremo del que se observa en realidad.

La mayoría de los investigadores interpretan que un valor p de 0,05 significa que la hipótesis nula tiene una probabilidad del 5% de ser cierta (es decir, que hay un 95% de probabilidades de que la hipótesis nula sea incorrecta). Sin embargo, esta interpretación es equivocada porque el valor p se calcula sobre la base de que la hipótesis nula es cierta, por lo que no puede ser una medida directa de la probabilidad de que ésta sea falsa.

Neyman y Pearson vieron el valor p propuesto por Fisher como una respuesta incompleta al problema de obtener un método inferencial que dejara de lado el «subjetivo» el teorema de Bayes. En su lugar propusieron el contraste de hipótesis (también llamado test de hipótesis o prueba de significación): en este caso hay que plantear dos hipótesis acerca de la naturaleza, una hipótesis nula (normalmente la afirmación de que hay un efecto nulo) y la hipótesis alternativa, que normalmente es la contraria de la hipótesis nula (por ejemplo, que hay un efecto distinto a cero). El resultado del contraste de hipótesis tenía que ser un comportamiento, no una inferencia: el experimentador tenía que rechazar una hipótesis y aceptar la otra únicamente sobre la base de los datos. Esto ponía a los investigadores ante el riesgo de cometer dos tipos de errores: el primero —y refiriéndonos por ejemplo a una investigación biomédica— pensar que dos tratamientos son diferentes cuando en realidad son el mismo (también conocido como el resultado falso-positivo), o concluir que son el mismo cuando de hecho difieren (resultado falso-negativo).

El desarrollo de este modelo supuso un paso adelante pero como modelo científico era problemático. En particular, no incluía una forma de valorar las pruebas obtenidas experimentalmente (es decir, no se obtenía ninguna conclusión de los datos que llevara a las hipótesis subyacentes). Pero si lo pensamos, esta omisión era necesaria porque Neyman y Pearson trataban evitar acudir al teorema de Bayes, que es precisamente a donde conduce la inducción. En realidad proponían un cambio en el objetivo de la ciencia: ya no se trataba de razonar inductivamente a través de experimentos individuales, sino utilizar métodos deductivos para limitar el número de errores que se podían cometer durante la realización de muchos experimentos diferentes 4 ninguna prueba basada en una teoría de la probabilidad puede por sí misma proporcionar ninguna prueba de la verdad o falsedad de una hipótesis”.]. Por lo tanto, debemos abandonar la posibilidad de medir o juzgar la verdad de un experimento individual.

Creo que muchos considerarán esta forma de actuar como profundamente acientífica —y estarían completamente en lo cierto— sin embargo, este procedimiento se mantiene a menudo como un paradigma del método científico.

La solución aparente

¿Cómo parece resolver el valor p un problema que no tiene solución? En parte dando la impresión de que el valor p es una medida de la prueba de un solo experimento que no viola la lógica a largo plazo impuesta por el contraste de hipótesis.

Adaptado de Goodman (1999).

La figura de arriba muestra la semejanza aparente entre el valor p y el valor α (la tasa de error de falsos positivos). Ambas son probabilidades que limitan el área de la hipótesis nula. El límite correspondiente a la tasa de error de falsos positivos (α) del contraste de hipótesis se fija antes de que comience el experimento (como hemos apuntado, de forma estandarizada se sitúa a 0,05), mientras que el valor p se establece en función de los datos experimentales. Su similitud superficial hace que sea fácil llegar a la conclusión de que el valor p es un tipo especial de tasa de error de falsos positivos, un valor específico para los datos que se están manejando.

Además, siguiendo la lógica de Fisher de que el valor p mide la severidad con la que la hipótesis nula es contradicha por los datos (es decir, que podría servir como una medida de la prueba en contra de la hipótesis nula), tenemos un índice que cumple una doble función: parece que es una tasa de error de falsos positivos de Neyman-Pearson, y una medida de Fisher de la evidencia en contra de la hipótesis nula.

La idea de que el valor p puede desempeñar ambas funciones se basa en una falacia: que un evento se puede observar simultáneamente tanto desde una perspectiva a largo plazo como a corto plazo. En la perspectiva a largo plazo, basada en el error y de tipo deductivo, agrupamos el resultado observado junto con otros resultados que puedan haber ocurrido en las repeticiones hipotéticas del experimento. En la perspectiva de corto plazo, que es evidencial e inductiva, tratamos de evaluar el significado del resultado de un solo experimento. Si pudiéramos combinar estas perspectivas, significaría que el fin de la inducción (extraer conclusiones científicas) se podría cumplir con métodos puramente deductivos (cálculos de probabilidad objetiva). Estas dos visiones no son reconciliables porque un resultado concreto (el corto plazo) puede incluirse legítimamente en diferentes perspectivas a largo plazo.

En definitiva, este resultado desconcertante viene del intento de describir el comportamiento del largo plazo y el significado del corto plazo utilizando el mismo número. Otra forma de explicar la falacia del valor p es que un resultado no puede al mismo tiempo ser un elemento anónimo (intercambiable) de un grupo de resultados (la visión a largo plazo) y un elemento identificable (único) (la visión a corto plazo).

Conclusiones

Muchos investigadores (de distintas disciplinas científicas) ha criticado tanto la utilización del valor p como del método de contraste de hipótesis, llegando a afirmar que su publicación en revistas con revisión por pares supone un respaldo a la pseudociencia 5. Entre otras lindezas, se ha dicho que  los valores p son como los mosquitos, que «[…] tienen un nicho evolutivo en alguna parte y por más que nos rasquemos, los aplastemos, o pulvericemos no los haremos caer.»; o que son como el traje nuevo del emperador (lleno de problemas evidentes que todo el mundo ignora); o la herramienta de un «intelectual libertino y estéril» que embelesa a las doncellas pero no proporciona descendencia científica viable. Un investigador 6 ha sido más creativo al sugerir incluso rebautizar la metodología como «pruebas de inferencia de hipótesis estadísticas» (statistical hypothesis inference testing), que forma un acrónimo muy descriptivo (SHIT, palabra inglesa que no necesita traducción).

Para clarificar un poco este tema, vamos a reproducir en doce puntos las principales ideas equivocadas acerca del valor p y el contraste de hipótesis 7:

  1. El valor p es la probabilidad de que los resultados se podrán reproducir si el estudio se lleva a cabo de nuevo (falso).
  2. Debemos tener más confianza en los valores p obtenidos con Ns (número total de datos) más grandes que pequeños Ns (esto no sólo es falso, sino que es al revés).
  3. El valor p es una medida del grado de confianza del resultado obtenido (falso).
  4. El valor p automatiza el proceso de hacer una inferencia inductiva (falso, el investigador tiene que hacerlo por sí mismo, y la mayoría no se molestan).
  5. El contraste de hipótesis presta objetividad al proceso inferencial (en realidad no lo hace).
  6. El valor p es una inferencia de los parámetros poblacionales a nuestra hipótesis de investigación (falso, es sólo una inferencia de una muestra de datos estadísticos a los parámetros de la población).
  7. El valor p es una medida de la confianza que debemos tener en la veracidad de nuestra hipótesis de investigación (falso).
  8. El valor p dice algo acerca de los elementos de su muestra (no, no lo hace).
  9. El valor p es una medida de la validez de las inducciones hechas sobre la base de los resultados (falso).
  10. El valor p es la probabilidad de que la hipótesis nula sea verdadera (o falsa) según los datos (no lo es).
  11. El valor p es la probabilidad de que la hipótesis alternativa sea verdadera (o falsa; en ambos casos es falso).
  12. El valor p es la probabilidad de que los resultados obtenidos se hayan producido por azar (una creencia muy popular pero, no obstante, false).

Debemos reiterar que todo lo que puede hacer el valor p es sacar una conclusión de los datos asumiendo una hipótesis nula específica. La clave está en que no puede trabajar de manera inversa y hacer declaraciones acerca de la realidad subyacente, eso requiere otra pieza de información: las probabilidades de que un efecto real estuviera allí previamente.

Los investigadores deberían comenzar por informar acerca del efecto de los tamaños de la muestra y los intervalos de confianza. Estos últimos transmiten lo que un valor p no puede: la magnitud y la importancia relativa de un efecto.

En definitiva, ante la pregunta de cómo decide un investigador qué nivel tiene que alcanzar un efecto para que sea preciso informar de él, la respuesta nunca podrá venir de la estadística. Después de todo, no debemos olvidar que el investigador está haciendo ciencia no estadística, por lo que el concepto de qué es «significativo» debería estar basado en la ciencia y en el criterio del científico.

Referencias

Audi, R. (2004), Diccionario Akal de filosofía. Madrid: Akal, 1049 p.

Casino, G. (2013), Bioestadística para periodistas y comunicadores. Barcelona: Fundación Dr. Antonio Esteve, ix, 80 p.

Goodman, S. N. (1999), «Toward evidence-based medical statistics. 1: The P value fallacy». Annals of Internal Medicine, vol. 130, núm. 12, p. 995-1004.

Goodman, S. N. (2001), «Of P-values and Bayes: a modest proposal». Epidemiology, vol. 12, núm. 3, p. 295-297.

Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.

Ledford, H. (2008), «Language: Disputed definitions». Nature, vol. 455, núm. 7216, p. 1023-1028.

Nuzzo, R. (2014), «Statistical errors». Nature, vol. 506, núm. 13, p. 150-152.

Simmons, J. P.;Nelson, L. D. y  Simonsohn, U. (2011), «False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant». Psychological Science, vol. 22, núm. 11, p. 1359-1366.

Notas

  1. Ledford, H. (2008), «Language: disputed definitions». Nature, vol. 455, núm. 7216, p. 1023-1028.
  2. Fisher R. (1925), Statistical methods for research workers. New York: Hafner
  3. Neyman J, Pearson E. (1933), “On the problem of the most efficient tests of statistical hypotheses”. Philosophical Transactions of the Royal Society, Series A, vol. 231, p. 289-337.
  4. Tal y como dejaron escrito: «[…
  5. Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.
  6. Cohen, J. (1994), “The earth is round (p < .05)!. American Psychologist, núm. 12, p. 997–1003.
  7. Tomado de Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.
Publicado por José Luis Moreno en CIENCIA, 2 comentarios