experimento

Un cuchillo de heces humanas, o como funciona la ciencia

Un cuchillo de heces humanas, o como funciona la ciencia

     Última actualizacón: 18 septiembre 2019 a las 13:09

Hace unos días publiqué un par de fotos en Instagram haciendo un comentario sobre un artículo que acaba de aparecer en la revista Journal of Archaeological Science. El trabajo llevaba por título «Experimental replication shows knives manufactured from frozen human feces do not work» 1, y en él, un equipo de investigadores describe que ha realizado un experimento que demostraba que los cuchillos fabricados a partir de heces humanas congeladas no servían para cortar.

Como imaginarás, el artículo (que puedes descargar a partir del enlace que facilito en las referencias) dio pie a todo tipo de comentarios jocosos. Sin embargo, como me hicieron ver varias personas, el trasfondo de esta investigación no era una broma y tenía más sentido del que yo le había otorgado al principio. Así que, siguiendo el lema informal de los premios Ig Nobel que dice que se premian aquellas investigaciones que «primero hacen reír a la gente, y luego la hacen pensar», he decidido escribir sobre este tema tras reflexionar un poco (y, por cierto, al final este trabajo no recibió ningún Ig Nobel).

La arqueología experimental

El equipo que ha publicado el artículo pertenece al departamento de antropología de la Universidad de Kent State, donde llevan años trabajando en el laboratorio de arqueología experimental.

Su trabajo consiste en tratar de recrear la vida de nuestros antepasados estudiando y analizando la cultura material que dejaron tras de sí: sus artefactos, ropas, los patrones de asentamiento, herramientas etc.

La mejor forma de averiguar cómo se ha fabricado un objeto, o cuál era su funcionamiento, es usarlo. Sin embargo, uno no puede coger una punta de flecha o un raspador recuperado en un yacimiento arqueológico y ponerse a trastear con él. Dado el incalculable valor de todo lo que se obtiene tras una excavación arqueológica, es preciso hacer réplicas de los mismos, lo que a su vez obliga a los investigadores a tratar de reproducir los mismos pasos que se dieron en su fabricación y, por supuesto, usar los mismos materiales. De esta forma, es posible fabricar puntas de flecha exactamente iguales a las originales que pueden disparar y someter a otros tipos de pruebas tantas veces como sea necesario.

En definitiva, gracias a la arqueología experimental somos capaces de saber cómo se fabricaban y usaban las herramientas, se construían las cabañas, se tejía la ropa etc. permitiendo a los especialistas entender cómo se comportaban nuestros antepasados.

En España contamos con el excepcional CAREX de Atapuerca que realiza esta misma labor 2.

Los antecedentes de la investigación

Wade Davis, antropólogo, etnobotánico, y fotógrafo canadiense, ha enfocado su trabajo en el estudio de las culturas indígenas de diferentes partes del mundo, especialmente del continente americano.

En 1998 publicó un libro titulado «Shadows in the sun: Travels to landscapes of spirit and desire» donde contaba esta anécdota:

Hay un relato bien conocido sobre un anciano que se negó a marcharse a un asentamiento. A pesar de las objeciones de su familia, hizo planes para quedarse en el hielo. Para evitarlo, le quitaron todas sus herramientas. Entonces, en medio de un temporal de invierno, salió de su iglú, defecó y le dio a las heces una forma de una hoja congelada, que afiló con un chorro de saliva. Con el cuchillo mató a un perro. Usando su caja torácica como un trineo, y su piel para enganchar a otro perro, desapareció en la oscuridad 3.

«Shadows in the sun: Travels to landscapes of spirit and desire» . Página 20.

Esta historia se ha repetido en innumerables documentales, charlas TED (puedes ver el fragmento concreto más abajo), conferencias, libros e incluso anuncios publicitarios.

Pero Davis no ha sido el único en llamar la atención sobre los cuchillos fabricados con heces. Lorenz Peter Elfred Freuchen, un explorador danés, describe un episodio que le ocurrió mientras estaba en el Ártico en su libro «Vagrant viking: my life and adventures» publicado en 1953: una noche de fuerte ventisca quedó bloqueado en su refugio por la densa capa de hielo y nieve que había caído. Pese al miedo inicial a quedar sepultado para siempre, Freuchen afirma que recordó la historia del cuchillo de heces y finalmente pudo salir fabricando uno y usándolo a modo de cincel para retirar la nieve.

Fabricando un cuchillo de heces

Tomando como base estas anécdotas, lo que hizo el equipo de Metin Eren fue contrastar, ni más ni menos, la veracidad de esas afirmaciones.

El argumento de partida fue que si un cuchillo fabricado con heces humanas no podía cortar la piel, los músculos y los tendones de un cerdo en un ambiente controlado, la posibilidad de que ese tipo de herramienta pudiera servir para descarnar un animal completo tenía que descartarse. Para el caso de que esa primera prueba fuera positiva, se plantearía un segundo experimento para hacerlo con un animal completo.

Lo primero que tenía que hacer el equipo era proveerse del «material» adecuado para fabricar los cuchillos. Tan delicada tarea recayó en dos miembros de equipo, quienes se sometieron a una dieta controlada: por un lado, Eren siguió una dieta rica en proteínas y calorías –similar a la alimentación de los Inuit– durante ocho días 4.; mientras que Michelle R. Bebber siguió una dieta más tradicionalmente «occidental».

Acto seguido se fabricaron dos tipos de cuchillos. En unos casos se usó un molde de arcilla para darles forma; mientras que otros se moldearon con las propias manos, tal y como refieren las historias que hemos descrito más arriba. Una vez completado el proceso, todos los cuchillos se conservaron a -20 ºC hasta el comienzo de los experimentos.

Tanto la piel, como el músculo y los tendones del cerdo se mantuvieron a -20 ºC hasta dos días antes de comenzar el experimento. A partir de ahí se permitió que se calentaran hasta una temperatura de 4 ºC.

Los cuchillos se extrajeron del congelador y se afilaron con una lima. Acto seguido se introdujeron en hielo seco a -50 ºC durante unos minutos para asegurarse de que estaban completamente congelados antes de comenzar los cortes…

Y el resultado fue que ninguno de los cuchillos consiguió hacer el más pequeño corte.

Conclusiones

Este experimento ha demostrado que, aun contando con las mejores condiciones para que el cuchillo pudiera hacer cortes, no fue capaz de hacer un mínimo arañazo en la piel.

Como adelantamos al principio, la publicación de este artículo ha generado una cascada de bromas y chistes de todo tipo. Sin embargo, hubo unos pocos que manifestaron un genuino interés por este estudio ya que el trabajo de un arqueólogo experimental es precisamente este: tratar de comprender cómo vivieron las personas en el pasado, fabricando y usando sus herramientas y objetos. Con este trabajo se ha seguido el método científico de esta disciplina: hacer una réplica del objeto y probar su uso. Y gracias a él, se ha conseguido desmontar una historia falsa, o cuando menos, con unos aderezos que la hacen poco verosímil.

Hoy en día resulta incuestionable que las observaciones etnográficas, arqueológicas y experimentales respaldan la idea de que los indígenas actuales y sus antepasados prehistóricos eran y son personas tecnológicamente ingeniosas, innovadoras y con un profundo conocimiento de su ambiente. Basta que pensemos cuánto tiempo podría sobrevivir cualquiera de nosotros —personas acostumbradas al tipo vida cómoda que nos ofrece nuestra sociedad— en un lugar como Groenlandia sin disponer de herramientas. La verdad es que duraríamos muy poco.

Por este mismo motivo, si una historia como la del cuchillo de heces se difunde sin contrastar, por más que se emplee para apoyar el argumento de que el pueblo Inuit es ingenioso, no estamos haciendo ningún bien. Por más que esta anécdota pueda parecer inocua, estamos abriendo la veda a aceptar cualquier argumento espurio: no habría ninguna razón por la cual no se pueda emplear otra historia falsa en apoyo de proposiciones que sí que puedan ser perjudiciales para esas sociedades.

El artículo que hemos analizado termina así:

Los antropólogos deben recabar de forma activa afirmaciones sin contrastar, suposiciones, rumores y leyendas urbanas, para ponerlas a prueba y asegurarse de que cualquier narrativa que se apoye en ellas sea lo más sólida posible.

Y tú, ¿qué opinas de este tema?

Referencias

  1. Eren, M. I., et al. (2019), «Experimental replication shows knives manufactured from frozen human feces do not work«. Journal of Archaeological Science: Reports, vol. 27, p. 102002.
  2. Te recomiendo que visites la siguiente página web: «Arqueología experimental en el «Diario de Atapuerca».
  3. La traducción es propia, puedes leer aquí el original.
  4. Aparece detallada en la información complementaria publicada junto al estudio
Publicado por José Luis Moreno en ANTROPOLOGÍA, 0 comentarios
Practicando con aguafuerte

Practicando con aguafuerte

     Última actualizacón: 8 octubre 2019 a las 11:50

Mañana dará comienzo la cuarta temporada de las Tertulias Literarias de Ciencia. Este proyecto, que comenzó como lo hacen todos, de forma tímida, se ha convertido en un referente de la blogosfera en castellano. Este año vamos a analizar el libro Los engaños de la mente de Susana Martinez-Conde y Stephen L. Macknick, cuyos autores «han convencido a un selecto grupo de magos para que les permitan estudiar algunas de sus técnicas, revelar sus secretos e investigar las implicaciones de sus descubrimientos en el campo de la neurociencia».

Desde aquí os invito a todos a participar en los debates (aunque no hayáis leído el libro) porque os garantizo que lo pasaremos bien y aprenderemos mucho.

botella

Además de esto, quería dejaros también una entrada en forma de videoblog sobre una actividad paralela a las Tertulias que se llamó «Practicando»… En fin, no os cuento más detalles y os dejo con ella:

Para quien tenga curiosidad, así quedó la botella:

resultadoaguafuerte2

Y éstos son los restos de su contenido:

resultadoaguafuerte1

Publicado por José Luis Moreno en VÍDEO, 1 comentario
“Estadísticamente significativo”. El valor p y sus controversias

“Estadísticamente significativo”. El valor p y sus controversias

     Última actualizacón: 17 marzo 2018 a las 16:57

En 2008 la revista Nature 1 publicaba un artículo de lectura obligada para todo aquel que divulgue ciencia. En él, Heidi Ledford llamaba la atención sobre algunos de los términos científicos más difíciles de definir, y uno de los ocho elegidos era precisamente «significativo», un adjetivo que los estadísticos emplean para describir la validez científica, y que los investigadores, respaldados o no por la estadística, emplean habitualmente para demostrar la importancia de sus descubrimientos.

Esta significación se ha determinado con el llamado «valor p». Es común leer una explicación de este concepto como la forma de expresar la probabilidad de que el resultado obtenido al realizar un experimento se deba al azar. Nosotros seremos más precisos: que una asociación entre dos variables es «estadísticamente significativa» quiere decir que puede descartarse que haya aparecido por azar, porque si no hubiera dicha asociación, resultados como el observado serían muy poco probables (esta probabilidad se expresa con una p. Un valor inferior a 0,05 es el límite estándar, por lo que un valor de p de 0,01 se califica como una asociación «muy significativa” entre las variables).

De acuerdo con la interpretación frecuente de este indicador, cuando se analiza por ejemplo la eficacia de un medicamento, un resultado experimental «significativo» con un valor p de 0,05 o menos significa que hay una probabilidad de un 5% o menos de que el medicamento no sea eficaz. Sin embargo, si tenemos en cuenta la definición precisa que ofrece la estadística, en realidad queremos decir que hay una probabilidad de un 5% o menos de obtener los datos observados incluso aunque el medicamento sea ineficaz. La diferencia puede parecer imperceptible; en cambio, matemáticamente, es crucial.

Andrew Lang (atribuido)

Entendamos cómo se construye la ciencia

El objeto de la ciencia es el conocimiento de la naturaleza, y la observación es el método idóneo para tal fin. Pero también necesitamos de la especulación, esto es, la investigación teórica que aporta la lógica o razonamiento lógico donde encontramos principalmente dos variantes: el razonamiento deductivo y el inductivo.

En la inferencia deductiva, comenzamos con una hipótesis cualquiera (una afirmación acerca de cómo funciona la naturaleza) y predecimos lo que deberíamos observar si la hipótesis fuera cierta. La deducción es objetiva en el sentido de que las predicciones acerca de lo que veremos son siempre ciertas si la hipótesis de partida es cierta. Su problema, en cambio, es que no podemos utilizar este razonamiento para ampliar nuestro conocimiento más allá de lo que está implícito en la hipótesis planteada.

La inferencia inductiva va en la dirección contraria: sobre la base de lo que observamos en la naturaleza, analizamos qué hipótesis es más viable. La ventaja del pensamiento inductivo es que nuestras conclusiones acerca de los estados no observados de la naturaleza son más amplias que las observaciones en las que están basadas; es decir, usamos esta forma de razonar para generar nuevas hipótesis y para aprender cosasnuevas que no habíamos intuido. La contrapartida es que no podemos estar seguros de que nuestras conclusiones sobre la naturaleza sean realmente ciertas, un inconveniente conocido como el problema de la inducción (puedes leer más en wikipedia o mejor en la Stanford Encyclopedia of Philosophy). Una buena forma de ejemplificar este problema es a través de la historia del descubrimiento de los cisnes negros: todos los cisnes que se podían ver en Europa eran blancos, de ahí que se aceptase que no existían cisnes de otro color. Cuando un explorador descubrió cisnes negros en Australia las concepciones previas tuvieron que cambiarse.

Los filósofos han luchado contra el problema de la inducción y han tratado de resolverlo o de esquivarlo de diferentes formas. Por ejemplo, Karl Popper propuso eliminar completamente la inducción formal y utilizar únicamente los elementos deductivos del razonamiento: los componentes predictivos y de refutación. Por su parte, Rudolf Carnap intentó la estrategia contraria, es decir, hacer el componente inductivo del razonamiento tan seguro como la parte deductiva. Al final comprendieron que no hay una solución metodológica al problema del conocimiento científico falible.

Tomado de Casino, G. (2013)

El método científico propone hipótesis que representan la naturaleza, recoge datos y las pone a prueba con ellos, es decir, la ciencia establece puentes entre las ideas y los datos. La ciencia es falible, en el sentido de que los futuros datos pueden hacer fallar las hipótesis previas, de ahí que los modelos científicos sean constantemente abandonados en beneficio de otros que los mejoran y matizan. En consecuencia, no se pretende que las hipótesis sean definitivamente ciertas, pero sí que sean útiles y ofrezcan claves para interpretar el funcionamiento de la naturaleza.

Y aquí es donde entra la estadística. Determinar qué verdad subyacente es la más probable sobre la base de los datos obtenidos es un problema de probabilidad inversa que solucionó cuantitativamente el reverendo Thomas Bayes hace más de 250 años. En términos no matemáticos, el teorema de Bayes dice que la probabilidad inicial o teórica de un suceso cualquiera puede ser modificada si se cumple alguna condición que afecta a ese suceso, dependiendo de la probabilidad de esa condición y de la probabilidad de que cuando tal condición se cumple se vea afectado el suceso inicial.

Por ejemplo, si seleccionamos una persona al azar, la probabilidad de que sea diabética es 0,03 (por lo tanto, la probabilidad de que no lo sea es 0,97). Si no disponemos de más información ahí queda todo. Pero si tras realizar un análisis de sangre comprobamos que los niveles de glucosa son superiores a 1.000 mg/l (lo que ocurre en el 95% de los diabéticos y sólo en un 2% de las personas sanas) ¿cuál será ahora la probabilidad de que esa persona sea diabética? La respuesta según el teorema de Bayes es que esa información adicional hace que la probabilidad aumente ahora a 0,595.

De esta forma, la información facilitada por el análisis de sangre aumenta la probabilidad inicial de padecer diabetes de 0,03 a 0,595. Correlativamente, si la prueba del análisis de sangre hubiese sido negativa, esta información modificaría las probabilidades de padecer la enfermedad en sentido contrario (en nuestro caso, esta probabilidad se reduciría a 0,0016).

Las críticas a esta metodología se centran en que es preciso asignar una probabilidad inicial a la verdad de una hipótesis (en nuestro ejemplo, la probabilidad de que una persona cualquiera sea diabética), un número considerado «subjetivo» y cuyo valor científico no está del todo claro (quizás por este motivo Bayes no hizo público su descubrimiento y solamente lo conocimos después de su muerte).

Debido a la subjetividad de este método, el esfuerzo de los científicos se centró en desarrollar una inferencia estadística alternativa que utilizara únicamente probabilidades deductivas, calculadas con fórmulas matemáticas que describieran (bajo ciertas asunciones) la frecuencia de todos los resultados experimentales posibles cuando ese experimento se repetía muchas veces. De esta forma se introdujo un índice para medir la fuerza de la prueba llamado «valor p” (propuesto por Fisher en la década de los años veinte del siglo pasado 2.) y un método para elegir entre hipótesis (llamado contraste de hipótesis) desarrollado más tarde por los estadísticos Neyman y Pearson 3.

En realidad estos dos métodos son incompatibles entre sí, pero erróneamente se les considera como parte de un enfoque único y coherente para obtener inferencias estadísticas.

El valor p y el contraste de hipótesis

El «valor p» se propuso originalmente como un índice para medir la discrepancia entre los datos y una hipótesis nula (H0), pero no era parte de un método formal de inferencia. Para su aplicación, los investigadores debían establecer en primer lugar la hipótesis nula que querían refutar ya que la hipótesis alternativa (H1), a la que se contrapone, es la que el investigador pensaba realmente que es la causa de un fenómeno dado. Por ejemplo:

H0 – el ibuprofeno no disminuye el dolor.

H1 – el ibuprofeno disminuye el dolor.

Una vez fijadas las dos hipótesis, debían hacer de abogados del diablo y someter la hipótesis nula a experimentación. El valor p se define entonces como la probabilidad, bajo la asunción de que no hay un efecto (esto es, que la hipótesis nula es cierta) de obtener un resultado igual o más extremo del que se observa en realidad.

La mayoría de los investigadores interpretan que un valor p de 0,05 significa que la hipótesis nula tiene una probabilidad del 5% de ser cierta (es decir, que hay un 95% de probabilidades de que la hipótesis nula sea incorrecta). Sin embargo, esta interpretación es equivocada porque el valor p se calcula sobre la base de que la hipótesis nula es cierta, por lo que no puede ser una medida directa de la probabilidad de que ésta sea falsa.

Neyman y Pearson vieron el valor p propuesto por Fisher como una respuesta incompleta al problema de obtener un método inferencial que dejara de lado el «subjetivo» el teorema de Bayes. En su lugar propusieron el contraste de hipótesis (también llamado test de hipótesis o prueba de significación): en este caso hay que plantear dos hipótesis acerca de la naturaleza, una hipótesis nula (normalmente la afirmación de que hay un efecto nulo) y la hipótesis alternativa, que normalmente es la contraria de la hipótesis nula (por ejemplo, que hay un efecto distinto a cero). El resultado del contraste de hipótesis tenía que ser un comportamiento, no una inferencia: el experimentador tenía que rechazar una hipótesis y aceptar la otra únicamente sobre la base de los datos. Esto ponía a los investigadores ante el riesgo de cometer dos tipos de errores: el primero —y refiriéndonos por ejemplo a una investigación biomédica— pensar que dos tratamientos son diferentes cuando en realidad son el mismo (también conocido como el resultado falso-positivo), o concluir que son el mismo cuando de hecho difieren (resultado falso-negativo).

El desarrollo de este modelo supuso un paso adelante pero como modelo científico era problemático. En particular, no incluía una forma de valorar las pruebas obtenidas experimentalmente (es decir, no se obtenía ninguna conclusión de los datos que llevara a las hipótesis subyacentes). Pero si lo pensamos, esta omisión era necesaria porque Neyman y Pearson trataban evitar acudir al teorema de Bayes, que es precisamente a donde conduce la inducción. En realidad proponían un cambio en el objetivo de la ciencia: ya no se trataba de razonar inductivamente a través de experimentos individuales, sino utilizar métodos deductivos para limitar el número de errores que se podían cometer durante la realización de muchos experimentos diferentes 4 ninguna prueba basada en una teoría de la probabilidad puede por sí misma proporcionar ninguna prueba de la verdad o falsedad de una hipótesis”.]. Por lo tanto, debemos abandonar la posibilidad de medir o juzgar la verdad de un experimento individual.

Creo que muchos considerarán esta forma de actuar como profundamente acientífica —y estarían completamente en lo cierto— sin embargo, este procedimiento se mantiene a menudo como un paradigma del método científico.

La solución aparente

¿Cómo parece resolver el valor p un problema que no tiene solución? En parte dando la impresión de que el valor p es una medida de la prueba de un solo experimento que no viola la lógica a largo plazo impuesta por el contraste de hipótesis.

Adaptado de Goodman (1999).

La figura de arriba muestra la semejanza aparente entre el valor p y el valor α (la tasa de error de falsos positivos). Ambas son probabilidades que limitan el área de la hipótesis nula. El límite correspondiente a la tasa de error de falsos positivos (α) del contraste de hipótesis se fija antes de que comience el experimento (como hemos apuntado, de forma estandarizada se sitúa a 0,05), mientras que el valor p se establece en función de los datos experimentales. Su similitud superficial hace que sea fácil llegar a la conclusión de que el valor p es un tipo especial de tasa de error de falsos positivos, un valor específico para los datos que se están manejando.

Además, siguiendo la lógica de Fisher de que el valor p mide la severidad con la que la hipótesis nula es contradicha por los datos (es decir, que podría servir como una medida de la prueba en contra de la hipótesis nula), tenemos un índice que cumple una doble función: parece que es una tasa de error de falsos positivos de Neyman-Pearson, y una medida de Fisher de la evidencia en contra de la hipótesis nula.

La idea de que el valor p puede desempeñar ambas funciones se basa en una falacia: que un evento se puede observar simultáneamente tanto desde una perspectiva a largo plazo como a corto plazo. En la perspectiva a largo plazo, basada en el error y de tipo deductivo, agrupamos el resultado observado junto con otros resultados que puedan haber ocurrido en las repeticiones hipotéticas del experimento. En la perspectiva de corto plazo, que es evidencial e inductiva, tratamos de evaluar el significado del resultado de un solo experimento. Si pudiéramos combinar estas perspectivas, significaría que el fin de la inducción (extraer conclusiones científicas) se podría cumplir con métodos puramente deductivos (cálculos de probabilidad objetiva). Estas dos visiones no son reconciliables porque un resultado concreto (el corto plazo) puede incluirse legítimamente en diferentes perspectivas a largo plazo.

En definitiva, este resultado desconcertante viene del intento de describir el comportamiento del largo plazo y el significado del corto plazo utilizando el mismo número. Otra forma de explicar la falacia del valor p es que un resultado no puede al mismo tiempo ser un elemento anónimo (intercambiable) de un grupo de resultados (la visión a largo plazo) y un elemento identificable (único) (la visión a corto plazo).

Conclusiones

Muchos investigadores (de distintas disciplinas científicas) ha criticado tanto la utilización del valor p como del método de contraste de hipótesis, llegando a afirmar que su publicación en revistas con revisión por pares supone un respaldo a la pseudociencia 5. Entre otras lindezas, se ha dicho que  los valores p son como los mosquitos, que «[…] tienen un nicho evolutivo en alguna parte y por más que nos rasquemos, los aplastemos, o pulvericemos no los haremos caer.»; o que son como el traje nuevo del emperador (lleno de problemas evidentes que todo el mundo ignora); o la herramienta de un «intelectual libertino y estéril» que embelesa a las doncellas pero no proporciona descendencia científica viable. Un investigador 6 ha sido más creativo al sugerir incluso rebautizar la metodología como «pruebas de inferencia de hipótesis estadísticas» (statistical hypothesis inference testing), que forma un acrónimo muy descriptivo (SHIT, palabra inglesa que no necesita traducción).

Para clarificar un poco este tema, vamos a reproducir en doce puntos las principales ideas equivocadas acerca del valor p y el contraste de hipótesis 7:

  1. El valor p es la probabilidad de que los resultados se podrán reproducir si el estudio se lleva a cabo de nuevo (falso).
  2. Debemos tener más confianza en los valores p obtenidos con Ns (número total de datos) más grandes que pequeños Ns (esto no sólo es falso, sino que es al revés).
  3. El valor p es una medida del grado de confianza del resultado obtenido (falso).
  4. El valor p automatiza el proceso de hacer una inferencia inductiva (falso, el investigador tiene que hacerlo por sí mismo, y la mayoría no se molestan).
  5. El contraste de hipótesis presta objetividad al proceso inferencial (en realidad no lo hace).
  6. El valor p es una inferencia de los parámetros poblacionales a nuestra hipótesis de investigación (falso, es sólo una inferencia de una muestra de datos estadísticos a los parámetros de la población).
  7. El valor p es una medida de la confianza que debemos tener en la veracidad de nuestra hipótesis de investigación (falso).
  8. El valor p dice algo acerca de los elementos de su muestra (no, no lo hace).
  9. El valor p es una medida de la validez de las inducciones hechas sobre la base de los resultados (falso).
  10. El valor p es la probabilidad de que la hipótesis nula sea verdadera (o falsa) según los datos (no lo es).
  11. El valor p es la probabilidad de que la hipótesis alternativa sea verdadera (o falsa; en ambos casos es falso).
  12. El valor p es la probabilidad de que los resultados obtenidos se hayan producido por azar (una creencia muy popular pero, no obstante, false).

Debemos reiterar que todo lo que puede hacer el valor p es sacar una conclusión de los datos asumiendo una hipótesis nula específica. La clave está en que no puede trabajar de manera inversa y hacer declaraciones acerca de la realidad subyacente, eso requiere otra pieza de información: las probabilidades de que un efecto real estuviera allí previamente.

Los investigadores deberían comenzar por informar acerca del efecto de los tamaños de la muestra y los intervalos de confianza. Estos últimos transmiten lo que un valor p no puede: la magnitud y la importancia relativa de un efecto.

En definitiva, ante la pregunta de cómo decide un investigador qué nivel tiene que alcanzar un efecto para que sea preciso informar de él, la respuesta nunca podrá venir de la estadística. Después de todo, no debemos olvidar que el investigador está haciendo ciencia no estadística, por lo que el concepto de qué es «significativo» debería estar basado en la ciencia y en el criterio del científico.

Referencias

Audi, R. (2004), Diccionario Akal de filosofía. Madrid: Akal, 1049 p.

Casino, G. (2013), Bioestadística para periodistas y comunicadores. Barcelona: Fundación Dr. Antonio Esteve, ix, 80 p.

Goodman, S. N. (1999), «Toward evidence-based medical statistics. 1: The P value fallacy». Annals of Internal Medicine, vol. 130, núm. 12, p. 995-1004.

Goodman, S. N. (2001), «Of P-values and Bayes: a modest proposal». Epidemiology, vol. 12, núm. 3, p. 295-297.

Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.

Ledford, H. (2008), «Language: Disputed definitions». Nature, vol. 455, núm. 7216, p. 1023-1028.

Nuzzo, R. (2014), «Statistical errors». Nature, vol. 506, núm. 13, p. 150-152.

Simmons, J. P.;Nelson, L. D. y  Simonsohn, U. (2011), «False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant». Psychological Science, vol. 22, núm. 11, p. 1359-1366.

Notas

  1. Ledford, H. (2008), «Language: disputed definitions». Nature, vol. 455, núm. 7216, p. 1023-1028.
  2. Fisher R. (1925), Statistical methods for research workers. New York: Hafner
  3. Neyman J, Pearson E. (1933), “On the problem of the most efficient tests of statistical hypotheses”. Philosophical Transactions of the Royal Society, Series A, vol. 231, p. 289-337.
  4. Tal y como dejaron escrito: «[…
  5. Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.
  6. Cohen, J. (1994), “The earth is round (p < .05)!. American Psychologist, núm. 12, p. 997–1003.
  7. Tomado de Lambdin, C. (2012), «Significance tests as sorcery: Science is empirical—significance tests are not». Theory & Psychology, vol. 22, núm. 1, p. 67-90.
Publicado por José Luis Moreno en CIENCIA, 2 comentarios
Practicando en las tertulias literarias de ciencia. El ludión

Practicando en las tertulias literarias de ciencia. El ludión

     Última actualizacón: 3 agosto 2017 a las 17:57

Aquellos que sigan este blog conocerán las tertulias literarias de ciencia, aunque ahora disponemos de una nueva sección llamada practicando donde cada quincena nos proponen una serie de experimentos prácticos con las suficientes indicaciones para que cualquiera con un poco de interés los pueda hacer.

En este caso, vamos a realizar la segunda práctica donde construiremos un ludión, también llamado ―bajo mi punto de vista, incorrectamente― el diablo o diablillo de Descartes.

Materiales:

  • Una botella de plástico vacía (de litro y medio en nuestro caso)
  • Un botecito de cristal
  • Tuercas de distintos tamaños (que actuarán como “lastre”)
  • Pegamento (dado que tiene que ser resistente al agua, yo recomendaría una silicona)



En primer lugar llenamos la botella de agua hasta el borde. Acto seguido tomaremos el vial de cristal y lo introduciremos boca abajo en la botella. Tenemos que comprobar si se hunde lo suficiente ya que, en caso contrario ―como sucede aquí― tendremos que colocar algo de “lastre” para que se hunda casi por completo. Como vemos en la siguiente imagen, he colocado dos lastres, una tuerca y una arandela de metal, que he pegado con una silicona especial para metal y cristal resistente al agua (he tenido que probar con varias tuercas ya que algunas, al ser demasiado pesadas, hacían que el tubo de cristal se fuera al fondo nada más introducirlo en la botella). Debemos recordar que los «lastres» que fijemos tienen que permitir el paso del agua al interior del tubo.

Una vez listo nuestro ludión, cerramos la botella con el tapón y podemos comenzar con el experimento:

Al apretar las paredes de la botella, la presión del agua en su interior aumenta (en estas condiciones, el agua se comporta como un fluido incompresible), el agua entra dentro del vial de cristal lo que provoca la compresión del aire de su interior (este aire es lo que contribuye a la flotabilidad del tubo, por lo que aprovechamos la gran compresibilidad del aire frente a la pequeña compresibilidad del agua para variar su peso). Esta presión comprime el aire contenido en el vial, con lo que varía el volumen de líquido desalojado, y por tanto, el empuje, con lo que el peso del tubo lo lleva al fondo de la botella.

Los principios de Pascal y de Arquímedes, así como la ley de Boyle para explicar el aumento de la presión que reduce el volumen del aire atrapado, nos permiten explicar el experimento:

  • Principio o ley de Pascal: la presión ejercida sobre un fluido poco compresible y en equilibrio dentro de un recipiente de paredes indeformables se transmite con igual intensidad en todas las direcciones y en todos los puntos del fluido.
  • Principio de Arquímedes: un cuerpo total o parcialmente sumergido en un fluido en reposo, recibe un empuje de abajo hacia arriba igual al peso del volumen del fluido que desaloja.
  • Ley de Boyle: a temperatura constante, el volumen de una masa fija de gas es inversamente proporcional a la presión que este ejerce.

Un poco de historia

Como hemos apuntado al inicio, el nombre de este curioso experimento se relaciona con el filósofo y matemático René Descartes. Este instrumento lo empleaban los profesores de física para demostrar a sus alumnos algunas propiedades de los líquidos. Sin embargo, como vamos a ver, se llamaba ludione y fue un invento del sacerdote toscano Raffaello Magiotti (en las obras de Descartes no hay ninguna referencia a su supuesta invención, que le fue atribuida, al parecer, por D’Alembert al citarlo en su enciclopedia).

Magiotti, para evitar que «otros al agregar o cambiar algo quisieran hacérselo suyo», escribió un panfleto, casi imposible de encontrar hoy en día, titulado «Renitenza certissima dell’acqua alla compressione, dichiarata con vari scherzi in occasione di altri problemi curiosi (1648)». Para aquel curioso interesado en leer este librito, puede descargarlo aquí en formato PDF.

Raffaello Magiotti fue bautizado en Montevarchi el 5 de septiembre de 1597. Siendo todavía un adolescente se trasladó a Florencia por deseo de sus padres que querían que iniciase la carrera sacerdotal. Una vez en el seminario, además de estudiar teología,asistió a clases de geometría con Galileo Galilei.

En 1630, el cardenal Giulio Cesare Sacchetti se reunió con él y le pidió que lo acompañara a Roma como su secretario. Una vez allí, mientras trabajaba para el cardenal encontró la forma de estudiar con Benedetto Castelli.

Gracias al apoyo del cardenal Sacchetti y por recomendación de otro cardenal más importante, Leopoldo de  Medici,  Raffaello Magiotti fue invitado a participar en la llamada «conversación familiar del Papa», lo que le permitió frecuentar al Sumo Pontífice. En 1636 fue invitado a unirse al personal de la Biblioteca Vaticana como traductor, asumiendo el cargo de pleno derecho en 1637.

Un año después, tanto Galileo como Castelli trataron de convencerlo para que aceptase la cátedra de matemáticas en la Universidad de Pisa —a sugerencia del gran duque Fernando II— aunque prefirió permanecer en Roma. Nunca se arrepintió de esta decisión ya que en allí, junto con Nardi y Torricelli, formaron lo que se llamó “el triunvirato” de Galileo, una posición más prestigiosa que la de un simple “papel” académico.

Poco tiempo después entró en una crisis existencial de la que nunca se recuperó y que le llevó a abandonar todos sus estudios. Antes sin embargo, encontró el estímulo necesario para recoger todos sus estudios de hidráulica en el ensayo «Renitenza certissima dell’acqua alla compressione» (La resistencia del agua a la compresión) que fue publicado el 26 de julio 1648, donde además de probar su hipótesis, razona sobre los experimentos de algunas figuras de cristal que flotan en un cilindro lleno de agua y que a través de la mayor o menor compresión que se realice con un dedo sobre el orificio de dicho cilindro, lo hará bajar o subir en el fluido. En esta obra afirmó que dicha experiencia era suya, antes que cualquiera la concibiese o la pusiera en práctica.

PS. Tengo que agradecer a mi hermana la ayuda al traducir los textos en italiano.

Publicado por José Luis Moreno en CIENCIA, 1 comentario