¿Nos podemos fiar de los economistas?
Con mayor o menor fortuna, los economistas académicos intentamos
contribuir a la sociedad analizando la situación económica, evaluando
las políticas públicas y proponiendo medidas basadas en la “evidencia
empírica”. Sin embargo, muchos lectores se preguntarán, legítimamente,
hasta que punto se deberían fiar de los economistas y de nuestra
“evidencia empírica”. Y no son los únicos. Como Edward Leamer observó
hace casi treinta años en un artículo que se ha convertido en un
clásico, “(c)asi nadie se toma el análisis de los datos en serio. O,
para ser más precisos, casi nadie se toma en serio los análisis de los
demás.”
Más allá de los conocidos problemas metodológicos que han sido
discutidos muchas veces en este blog, existe un problema quizás más
básico: ¿cómo sabemos que un economista no ha manipulado los resultados?
Periódicamente saltan a la luz casos de fraude académico. Por ejemplo,
hace unos años se supo que el profesor alemán Hans Werner Gottinger, con
más de 120 publicaciones en su haber, plagiaba el contenido teórico de
sus artículos y se inventaba la parte empírica. (Para mayor esperpento,
en el trascurso de la investigación iniciada por la revista Research
Policy también se descubrió que uno de estos artículos había sido a su
vez plagiado por un tercer autor.) Más recientemente, varias revistas
han decidido retirar los artículos publicados por Ulrich Lichtenthaler,
uno de los economistas más prolíficos de Alemania en el área de Economía
de la Empresa. Aparentemente, además de autoplagiarse repetidamente,
sus artículos contenían errores matemáticos e inconsistencias
metodológicas, incluyendo una falsa significatividad estadística de los
principales resultados.
¿Se trata de casos puntuales que el buen funcionamiento del sistema ha
sabido detectar y depurar o, por el contrario, estaríamos viendo
únicamente la punta del iceberg? Dos recientes artículos examinan la
importancia del problema del fraude académico utilizando perspectivas
muy diferentes. Lars Feld, Sarah Necker y Bruno Frey han realizado
una encuesta anónima entre los economistas asistentes a la conferencia
anual de la European Economic Association donde directamente preguntan
si se ha incurrido en algún tipo de comportamiento poco ético o si lo
han observado en su entorno. Algunos economistas quizás sean tramposos,
pero no se les puede acusar de falta de sinceridad. Un 3% de los
encuestados confiesa haber falseado los datos originales en alguna
ocasión. Un número muy superior, el 36%, admite haberlos “masajeado”. Es
decir, reconoce haber escogido de forma arbitraria las variables de
control para así poder obtener resultados estadísticamente
significativos (“si torturas los datos lo suficiente acabaran
confesando”, que decía Coase). También hay un 32% que admite que en sus
artículos presenta únicamente los resultados que favorecen su tesis y un
21% que no cita los artículos que pudieran contradecirle.
Irónicamente, al poco tiempo de realizarse esta encuesta, uno de sus
autores, Bruno Frey, quizás el economista suizo de mayor fama, se vió
envuelto en un sonado escándalo de autoplagio compulsivo, que provocó
que la universidad de Zurich decidiera no renovar su contrato.
El estudio realizado por Abel Brodeur, Mathias Lé, Marc Sangnier y Yanos
Zylberberg, titulado “Star Wars: the Empirics Strike Back“, emplea una
estrategia empírica diferente para intentar averiguar si los
economistas manipulan sus resultados. En lugar de preguntar a los
economistas, los autores examinan la distribución estadística del grado
de significatividad de sus resultados. En los artículos académicos, por
convención, se suele señalar el grado de significatividad estadística
utilizando estrellas (* significativo al 10%, ** significativo al 5% y
*** significativo al 1%). Un autor que inicialmente observa que su
hipótesis principal no es significativa a estos niveles estándar podría
caer en la tentación de “torturar” los datos hasta alcanzar el número
de estrellas deseado. Si esto fuera un fenómeno muy extendido, habría
relativamente más artículos con coeficientes marginalmente
significativos que artículos con coeficientes claramente significativos o
marginalmente no significativos. Los autores contrastan esta hipótesis
utilizando datos de todos los artículos publicados entre 2005 y 2011 en
tres de las principales revistas de Economía (QJE, AER, JPE). Como se
observa en la siguiente gráfica, la distribución tiene forma de
dromedario. Al comparar estos datos con una serie de posibles
distribuciones contrafactuales, los autores concluyen que el número de
artículos con resultados marginalmente significativos al 5% es excesivo
y faltarían coeficientes entre el 10% y el 25%. Según sus cálculos, en
al menos un 10-20% de los casos se habrían inflado los resultados para
lograr alcanzar un grado de significatividad estándar.
Es
posible que el comportamiento poco ejemplar de algunos economistas se
vea favorecido por la escasez de replicaciones de los artículos
empíricos, quizás una de las grandes asignaturas pendientes de nuestra
disciplina. Como dice Daniel Hamermesh, “los economistas tratamos el
tema de la replicación del mismo modo que los adolescentes tratan el
tema de la castidad: un ideal que debe ser profesado, pero no
practicado”. En nuestra profesión los incentivos a la replicación son
muy escasos. Un artículo que corrobore un resultado ya conocido
difícilmente será publicado. Afortunadamente, los costes de
replicación han disminuido enormemente en los últimos años gracias a la
política de las principales revistas de exigir a los autores la difusión
pública de los datos y los programas utilizados (ver, por ejemplo, AER,
Restud o QJE). Hoy en día, legiones de estudiantes de doctorado
completan su formación examinando en detalle los artículos publicados en
estas revistas, para embarazo de muchos autores. Economistas del
prestigio de Caroline Hoxby, Steven Levitt o Daron Acemoglu han visto
como se cuestionada la credibilidad de sus resultados. Confiemos en que
el resto de revistas académicas adopten pronto esta práctica.
Un problema más amplio es la validez de un determinado resultado en otro
contexto. El coste de una replicación de este tipo puede ser muy
elevado, especialmente en el caso de los experimentos de campo. En este
ámbito debemos dar la bienvenida a iniciativas como la “International
Initiative for Impact Evaluation (3ie)”, financiada por la Bill and
Melinda Gates Foundation (BMGF) y diversas agencias estatales de una
decena de países. 3ie proporciona fondos para la realización de
replicaciones de los estudios científicos más relevantes en el área de
la economía del desarrollo. La lista de 20 artículos a replicar ha sido
elaborada por un grupo de expertos e incluye algunos de los más
brillantes e influyentes artículos de los últimos años.
Esperemos que estas iniciativas sean el principio de una nueva forma de
hacer economía aplicada. Si queremos contar con la confianza de la
sociedad es imprescindible que mejoremos nuestros estándares de calidad y
de control. Mientras tanto, aunque es probable que la mayoría de los
economistas sean honestos en sus análisis, quizás no debería
sorprendernos que la sociedad se tome con cierta cautela la pretendida
seguridad y precisión con la que en ocasiones presentamos nuestros
resultados empíricos.
Nada es Gratis
No hay comentarios:
Publicar un comentario