Método científico: Errores estadísticos

Los valores P, el “estándar de oro” de la validez estadística, no son tan confiables como muchos científicos asumen.

Por Regina Nuzzo.

Por un breve período en 2010, Matt Motyl estuvo en el borde de la gloria científica: había descubierto que los extremistas casi literalmente ven el mundo en blanco y negro.

Los resultados eran “claros como el agua”, recuerda Motyl,  un estudiante de doctorado en psicología, en la Universidad de Virginia, en Charlottesville. Los datos de un estudio de cerca 2000 personas parecían indicar que los moderados políticos veían tonos de grises con mayor precisión que los extremistas de izquierda o de derecha. “La hipótesis era sexy”, señaló, “y los datos entregaban un apoyo evidente”. El valor P, un índice común para la fuerza de la evidencia, era 0,01 -usualmente interpretado como “muy significativo”. La publicación en una revista de alto impacto parecía al alcance de Motyl.

Pero luego intervino la realidad. Sensibles  a las controversias sobre la reproducibilidad, Motyl y su asesor, Brian Nosek, decidieron replicar el estudio. Con datos extra, el valor P arrojó un valor de 0,59 – ni siquiera cerca del nivel convencional de significación, 0,05. El efecto había desaparecido, y con él, los sueños de fama juvenil de Motyl [1].

Resultó que el problema no estaba en los datos, o en los análisis de Motyl. El problema yacía en la naturaleza resbaladiza de los valores P, que no son tan confiables ni objetivos como muchos científicos asumen. “Los valores P no están haciendo su trabajo, porque no pueden”, dice Stephen Ziliak, economista de la Universidad Roosevelt en Chicago, Illinois, y un frecuente crítico de la forma en que se usan las estadísticas.

Para muchos/as científicos/as, esto es especialmente preocupante, a la luz de las preocupaciones sobre la reproducibilidad. En 2005, el epidemiólogo John Ioannidis de la Universidad de Stanford en California, sugirió que la mayoría de los hallazgos publicados son falsos [2]; desde entonces una serie de problemas de replicación de alto perfil ha forzado a los científicos a repensar cómo evalúan los resultados.

Al mismo tiempo, los estadísticos están buscando mejores formas de pensar acerca de los datos, para ayudar a los científicos a evitar perder información importante o actuar sobre falsas alarmas. “Cambia tu filosofía estadística y de improviso cosas diferentes se vuelven importantes”, dice Steven Goodman, médico y estadístico de Stanford. “Entonces las ‘leyes’ entregadas por dios ya no son entregadas por dios. De hecho, son entregadas por nosotros mismos, a través de la metodología que adoptamos”.

Fuera de contexto

Los valores P siempre han tenido críticos.  En sus casi nueve décadas de existencia han sido comparados con los mosquitos (molestos e imposibles de espantar), el traje nuevo del emperador (llenos de problemas evidentes que todos ignoran) y la herramienta de un “rastrillo intelectual estéril” que viola a la ciencia, pero la deja sin descendencia [3]. Un investigador sugirió rebautizar la metodología como “prueba estadística de inferencia de hipótesis” [3], presumiblemente por el acrónimo que produciría   (statistical hypothesis inference testing, o SHIT).

La ironía es que cuando el estadístico británico Ronald Fisher introdujo el valor P en los 1920s no lo pensó como una prueba definitiva. Su intención era considerarlo simplemente como una manera informal de juzgar si la evidencia era significativa en el sentido tradicional: digna de una segunda mirada. La idea era realizar un experimento, luego ver si los resultados eran consistentes con lo que el azar podría producir. Los investigadores establecerían una “hipótesis nula” que quisieran refutar, del tipo que indica la falta de correlación o la igualdad de dos grupos. A continuación, jugarían al abogado del diablo y, asumiendo que esta hipótesis nula era de hecho verdadera, calcularían las posibilidades de obtener resultados al menos tan extremos como aquello que fue observado en realidad. Esta probabilidad era el valor P. Mientras más pequeño era, sugería Fisher, mayor era la probabilidad que el hombre de paja que era la hipótesis nula fuera falsa.

R. NUZZO; SOURCE: T. SELLKE ET AL. AM. STAT. 55, 62–71 (2001)

Frente a la aparente precisión del valor P, Fisher pretendía que fuese solo una parte de un proceso fluido, no numérico, que mezclara datos y conocimientos de fondo para llegar a conclusiones científicas. Pero pronto fue arrastrado hacia un movimiento para hacer la toma de decisiones basada en evidencia, tan rigurosa y objetiva como fuese posible. Este movimiento fue encabezado a finales de los 1920s por los rivales más amargos de Fisher, el matemático polaco Jerzy Neyman y el estadístico británico Egon Pearson, que introdujeron un marco alternativo para el análisis de datos que incluía el poder estadístico, falsos positivos, falsos negativos, y muchos otros conceptos ahora familiares en las clases de introducción a la estadística. Ellos dejaron deliberadamente de lado el valor P.

Pero mientras los rivales peleaban – Neyman llamaba a parte del trabajo de Fisher matemáticamente “peor que inútil”; Fisher calificaba el enfoque de Neyman de “infantil” y “horrible [para] la libertad intelectual en occidente”- otros investigadores perdieron la paciencia y empezaron a escribir manuales de estadística para científicos en ejercicio.  Y debido a que mucho de los autores no eran estadísticos, y no poseían una compresión profunda de cada uno de los enfoques, crearon un sistema híbrido que metía el valor P de Fisher dentro del agradablemente riguroso sistema basado en normas de Neyman y Pearson. Aquí es cuando un valor P de 0,05  se consagró como “estadísticamente significativo”, por ejemplo. “El valor P nunca fue destinado a ser utilizado en la forma en que se usa hoy en día”, dice Goodman.

¿Qué significa todo esto?

Un resultado es una abundancia de confusión acerca de lo que significa el valor P [4]. Consideremos el estudio de Motyl sobre extremistas políticos. La mayoría de los científicos mirarían su valor P original de 0,01 y dirían que hay un 1% de probabilidad de que su resultado fuera una falsa alarma.  Pero estarían equivocados.  El P no puede indicar esto: todo lo que puede hacer es resumir los datos asumiendo una hipótesis nula específica. No puede trabajar hacia atrás haciendo declaraciones sobre la realidad subyacente. Eso requiere otra pieza de información: las probabilidades de que existiese un efecto real en primer lugar. Ignorar esto sería como despertar con dolor de cabeza y concluir que  se tiene un extraño tumor cerebral -posible, pero tan improbable que requiere mucha más evidencia para reemplazar una explicación cotidiana como una reacción alérgica. Mientras menos plausible sea la hipótesis -telepatía, aliens, homeopatía- es más probable que un hallazgo emocionante sea una falsa alarma, sin importar cuál sea el valor P.

Estos son conceptos pegajosos, pero algunos estadísticos han intentado entregar reglas generales de conversión (véase la imagen). De acuerdo a un cálculo ampliamente utilizado [5] un valor P de 0,01 corresponde a una probabilidad de falsa alarma de al menos 11%, dependiendo de la probabilidad subyacente de que exista un efecto real; un valor P de o,o5 eleva esa probabilidad hasta al menos un 29%. Entonces el hallazgo de Motyl tenía una probabilidad mayor de uno en diez de ser una falsa alarma. Del mismo modo, la probabilidad de replicar su  resultado original no era de un 99%, sino algo cercano al 73%. – o solo 50%, si quería otro resultado “muy significativo” [6],[7]. En otras palabras, su incapacidad para replicar el resultado fue casi tan sorprendente como si hubiera pedido ‘cara’ en un lanzamiento de moneda y hubiese salido ‘sello’.

Los críticos también se quejan de la forma en que los valores P pueden fomentar el pensamiento confuso. Un buen ejemplo es la tendencia a desviar la atención del tamaño real de un efecto. El 2013 por ejemplo, un estudio de más de 19.000 personas mostró [8] que quienes conocían a sus esposos/as en línea tenían menos probabilidades de divorciarse (p < 0,002) y eran más propensos a tener una alta satisfacción marital (p < 0,001), que quienes se conocieron offline (véase Nature http://doi.org/rcg; 2013). Eso podría haber sonado impresionante, pero los efectos eran de hecho, pequeños: los encuentros en línea redujeron la tasa de divorcio del 7,67% al 5,96%, y apenas aumentó la felicidad de 5,48 a 5,64 en una escala de 7 puntos. Precipitarse sobre los valores P pequeños y pasar por alto la cuestión más amplia es caer presa de la “seductiva certeza de la significación”, dice Geoff Cumming, psicólogo emérito de la Universidad de La Trobe, en Melbourne, Australia. Pero la significación no es indicador de relevancia práctica, dice: “Debemos preguntarnos: ‘¿Cuánto de un efecto está ahí?’, no ‘¿Hay un efecto?'”

Quizás la peor falacia es la del tipo de auto-engaño, por la cual el psicólogo Uri Simonsohn de la Universidad de Pennsylvania y sus colegas han popularizado el término P-hacking; también conocido como excavación de los datos, espionaje, pesca, persecución de la significación y doble inmersión. El “P-hacking”, dice Simonsohn, “es tratar varias cosas hasta obtener el resultado deseado” -incluso inconscientemente. Puede ser el primer término estadístico en obtener una definición en el Urban Dictionary, donde los ejemplos de uso están diciendo: “Ese hallazgo parece haber sido obtenido a través de p-hacking, los autores abandonaron una de las condiciones para que el valor general de P fuera menor a 0,05”, y “ella es una p-hacker, siempre está monitoreando los datos mientras están siendo recolectados”.

Tales prácticas tienen el efecto de tornar los hallazgos de estudios exploratorios -que deberían ser tratados con escepticismo- en lo que podría sonar a confirmaciones, que luego desaparecen al momento de la replicación. Las simulaciones de Simonsohn han mostrado [9] que cambios en unas pocas decisiones en el análisis de datos puede incrementar la tasa de falso positivo en un solo estudio a un 60%. El  P-hacking dice, es especialmente probable en los actuales ambientes de estudio que persiguen efectos pequeños en datos ruidosos. Es difícil  precisar el alcance del problema, pero Simonsohn tiene la sensación de que es serio. En un análisis [10], encontró evidencia de que muchos de los artículos de psicología publicados reportan valores P que se agrupan sospechosamente alrededor de 0,05, tal como se esperaría si los investigadores estuviesen pescando valores P significativos hasta  encontrar uno.

La manipulación de los números

A pesar de la crítica, la reforma ha sido lenta. “El enfoque básico de la estadística ha permanecido virtualmente sin cambios desde que Fisher, Neyman y Pearson lo introdujeron”, dice Goodman. John Campbell, psicólogo de la Universidad de Minneapolis, lamentó el asunto en 1982, cuando era editor del Journal of Applied Psychology: “Es casi imposible sacar a los autores de sus valores p, y mientras más ceros después de la coma decimal, la gente se aferra con mayor fuerza a ellos” [11]. En 1989, cuando Kenneth Rothman de la Universidad de Boston en Massachusetts inició la revista Epidemiology, hizo lo posible por desalentar los valores P en sus páginas. Pero dejó la revista en 2001, y desde entonces, los valores P han tenido un resurgimiento.

Ioannidis está minando la base de datos de PubMed para entender cómo los autores de varias disciplinas están usando los valores P y otra evidencia estadística. “Una mirada superficial a una muestra de artículos recientemente publicados”, dice, “es convincente que los valores P son aún muy, muy populares”.

Cualquier reforma necesitaría barrer a través de una cultura arraigada. Se tendría que cambiar la forma en que se piensa la estadística, cómo el análisis de los datos es realizado y cómo los resultados son reportados e interpretados. Pero al menos los investigadores están admitiendo que tienen un problema, dice Goodman. “La llamada de atención es que muchos de nuestros hallazgos publicados no son verdad”.  El trabajo de investigadores como Ioannidis muestra el vínculo entre quejas teóricas de estadística y las dificultades actuales, dice Goodman. “Los problemas que los estadísticos han predicho son exactamente los mismos que vemos ahora. Solo que aún no los tenemos todos solucionados”.

Los estadísticos han apuntado a una serie de medidas que pueden ayudar. Para evitar pensar los resultados como significativos o no significativos, por ejemplo, Cumming piensa que los investigadores deberían informar siempre el tamaño de los efectos y los intervalos de confianza. Estos entregan lo que un valor P no puede: la magnitud e importancia relativa de un efecto.

Muchos estadísticos también abogan por reemplazar el valor P con métodos que se sirven de la regla de Bayes: un teorema del siglo XVIII que describe la forma de pensar en la probabilidad como la verosimilitud de un resultado, más que como la frecuencia potencial de ese resultado. Esto implica una cierta subjetividad -algo que los pioneros de la estadística trataron de evitar. Pero el marco bayesiano hace que sea relativamente fácil para los observadores incorporar lo que saben sobre el mundo en sus conclusiones, y calcular cómo las probabilidades cambian a medida que surge nueva evidencia.

Otros están por un enfoque más ecuménico, alentando a los investigadores a utilizar múltiples métodos en el mismo conjunto de datos. Stephen Senn, estadístico del Centro para la investigación en Salud Pública en Luxemburgo, compara esto a usar un robot aspirador que no puede salir de una esquina: cualquier método de análisis de datos eventualmente chocará contra una muralla, y se necesitará algo de sentido común para que el proceso retome su curso. Si los diferentes métodos entregan diferentes respuestas, dice, “esa es una sugerencia para ser más creativos y tratar de averiguar por qué”, lo que debería llevar a un mejor entendimiento de la realidad subyacente.

Simonsohn sostiene que una de las protecciones más fuertes de los científicos es admitir todo. Anima a los autores a marcar sus artículos como “P-certificado,  no P-hackeado”, mediante la inclusión de las palabras: “Nosotros reportamos cómo determinamos nuestro tamaño de la muestra, todas las exclusiones de datos (si las hay), todas las manipulaciones y todas las medidas en el estudio”. Esta declaración, espera, desaliente el P-hacking, o por lo menos alerte a los lectores de las tonterías y les permitan juzgar en consecuencia.

Una idea relacionada que está concitando atención es el análisis en dos etapas o ‘preregistered replication’, dice Andrew Gelman, politólogo y estadístico de la Universidad de Columbia en Nueva York. En este enfoque, los análisis exploratorio y confirmatorios se abordan de manera diferente y están claramente etiquetados. En lugar de hacer cuatro estudios pequeños separados y reportar los resultados en un artículo, por ejemplo, los investigadores prefieren hacer dos estudios exploratorios pequeños y recopilar hallazgos potencialmente interesantes sin preocuparse demasiado por las falsas alarmas. Luego, sobre la base de estos resultados, los autores decidirían exactamente cómo planean confirmar los hallazgos, y preregistrarían públicamente sus intenciones en una base de datos como Open Science Framework. Entonces, llevarían a cabo los estudios de replicación y publicarían los resultados junto con aquellos de los estudios exploratorios. Este enfoque permite libertad y flexibilidad en los análisis, dice Gelman, mientras que provee suficiente rigor para reducir el número de falsas alarmas que son publicadas.

Más ampliamente, los investigadores necesitan darse cuentra de los límites de las estadísticas convencionales, dice Goodman. En su lugar, deberían utilizar en sus análisis elementos de la evalaución científica sobre la plausibilidad de una hipótesis y las limitaciones de un estudio, que usualmente se desvanecen en la sección de discusión: resultados de experimentos idénticos o similares, mecanismos propuestos, conocimiento clínico y así sucesivamente. El estadístico Richard Royall de la Escuela de Salud Pública Bloomberg de la Universidad Johns Hopkins en Baltimore, Maryland, dijo que existen tres preguntas que un científico puede querer formular luego de un estudio: ‘¿Cuál es la evidencia?’ ‘¿Qué debería creer?’ y ‘¿Qué debería hacer?’ Un método no puede responder todas estas preguntas, dice Goodman: “Los números son donde debe comenzar la discusión científica, no terminar”.

Nature 506, 150–152 (13 February 2014) doi: 10.1038/506150a

Referencias:

[1] Nosek, B. A., Spies, J. R. & Motyl, M. Perspect. Psychol. Sci. 7, 615–631 (2012). [Artículo]

[2] Ioannidis, J. P. A. PLoS Med. 2, e124 (2005). [Artículo]

[3] Lambdin, C. Theory Psychol. 22, 67–90 (2012). [Artículo]

[4] Goodman, S. N. Ann. Internal Med. 130, 995–1004 (1999). [Artículo]

[5] Goodman, S. N. Epidemiology 12, 295–297 (2001). [Artículo]

[6] Goodman, S. N. Stat. Med. 11, 875–879 (1992). [Artículo]

[7] Gorroochurn, P., Hodge, S. E., Heiman, G. A., Durner, M. & Greenberg, D. A. Genet. Med. 9, 325–321 (2007). [Artículo]

[8] Cacioppo, J. T., Cacioppo, S., Gonzagab, G. C., Ogburn, E. L. & VanderWeele, T. J. Proc. Natl Acad. Sci. USA 110, 10135–10140 (2013). [Artículo]

[9] Simmons, J. P., Nelson, L. D. & Simonsohn, U. Psychol. Sci. 22, 1359–1366 (2011). [Artículo]

[10] Simonsohn, U., Nelson, L. D. & Simmons, J. P. J. Exp. Psychol.                               http://dx.doi.org/10.1037/a0033242 (2013).

[11] Campbell, J. P. J. Appl. Psych. 67, 691–700 (1982). [Artículo] 

Publicado originalmente en Nature. Aquí se reproduce solo con fines de divulgación.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s