"Tradición" no es la primera palabra que se asocia con la ciencia, aunque los investigadores están familiarizados con ciertos usos y costumbres que tienen un interesante trasfondo histórico. Uno de estos casos es el del nivel de significatividad del 95%.
Este número, el 95, no se puede utilizar como un indicador de la veracidad total, que determine si un estudio es correcto o no. Su uso parece ser más una tradición que una disputa por derechos de autor, con más de 100 años de antigüedad.
Según Brent Goldfarb y Andrew King en un artículo de 2015, es necesario remontarse al siglo pasado, específicamente a los años 20, para conocer a los protagonistas de esta historia: Karl Pearson y Ronald Fisher, conocidos por todos los que han estudiado estadística.
Pearson creó tablas de referencia para el cálculo de los p-valores, medidas que evalúan la probabilidad de que los resultados de un estudio sean al azar o que se pueda confiar en las pruebas realizadas. Al incluir estas tablas en libros de estadística, Pearson recibía pagos por derechos de autor, algo que Fisher no quería hacer.
Fisher decidió hacer su propio método para calcular la significatividad basándose únicamente en dos parámetros, los p-valores 0.05 y 0.01. Según Goldfarb y King, "una interpretación justa de esta historia es que se usan los p-valores al menos parcialmente porque un estadístico tenía miedo de que compartir su trabajo afectara sus ingresos".
La utilidad de los p-valores
El concepto de p-valor se refiere a la probabilidad de cometer un error en el cálculo de un parámetro estadístico, como la efectividad de un tratamiento médico. Por ejemplo, al evaluar si los pacientes que recibieron el tratamiento están realmente mejor que aquellos que recibieron un placebo.
Si el p-valor es mayor que cero, existe la posibilidad de que la premisa inicial, como la eficacia del medicamento, esté equivocada. En este caso, los resultados podrían ser atribuibles al azar en lugar de indicar una diferencia real entre los grupos.
El p-valor se utiliza a veces para niveles discretos de significatividad, es decir, en los umbrales específicos que se eligen para determinar si un resultado es estadísticamente significativo o no, donde el valor se establece en 95%, aunque también a veces en 99% o hasta 99.9%, con p-valor de 0.05, 0.01 o 0.001 respectivamente.
Reconociendo las posibilidades
Según Goldfarb y King, Fisher eventualmente reconoció que el uso de todo el rango de p-valores era mejor que su método binario de , admitiendo que "ningún trabajador científico había fijado un nivel de significatividad al cual, de año en año y en toda circunstancia, se rechacen hipótesis nulas, por lo que se preferiría dejar la decisión a cada caso en particular a partir de sus pruebas e ideas".
Esta idea binaria de significatividad, según los autores del estudio, puede ofrecer una falsa confianza en los resultados basados en la incertidumbre. Esto se debe a que la certeza absoluta no existe, y la probabilidad de error es en sí misma una estimación.
Goldfarb y King, que critican las publicaciones en el ámbito de marketing, estiman en su artículo que entre un 24 y un 40% de los estudios analizados no generarían los mismos resultados si se repitieran, un proceso vital en la ciencia, pues esto permite confirmar o rechazar teorías y posibles estudios erróneos.
Además, la ciencia enfrenta una serie de sesgos, por lo que la posibilidad de errores en los trabajos científicos es conocida desde hace tiempo, siendo una fuente de debate. La necesidad de publicar y las reticencias de las revistas a darle espacio a estudios confirmatorios también son parte del sesgo, según los autores.
Aunque el método científico es la mejor herramienta disponible por ahora, no es perfecto y necesita ajustes ocasionales, como en este caso, el de liberarse de algunas tradiciones arraigadas.