Por qué demasiada evidencia puede ser mala


En una fila de la policía, la probabilidad de que una persona sea culpable aumenta con los primeros tres testigos que lo identifican por unanimidad, pero luego disminuye con las identificaciones de testigos unánimes adicionales. Las líneas de diferentes colores representan varias tasas de falla / error, y el amarillo representa cero fallas. Crédito: Gunn, et al. © 2016 La Real Sociedad

Según la antigua ley judía, si todos los jueces declaraban culpable por unanimidad a un sospechoso en juicio, el sospechoso era absuelto. Este razonamiento suena contradictorio, pero los legisladores de la época habían notado que un acuerdo unánime a menudo indica la presencia de un error sistémico en el proceso judicial, incluso si la naturaleza exacta del error aún no se ha descubierto. Intuitivamente razonaron que cuando algo parece demasiado bueno para ser verdad, lo más probable es que se haya cometido un error.

En un nuevo artículo que se publicará en The Proceedings of The Royal Society A, un equipo de investigadores, Lachlan J. Gunn, et al., De Australia y Francia, ha investigado más a fondo esta idea, a la que llaman la "paradoja de la unanimidad".

"Si muchos testigos independientes testifican unánimemente sobre la identidad de un sospechoso de un crimen, asumimos que no pueden estar todos equivocados", dijo a Phys.org el coautor Derek Abbott, físico e ingeniero electrónico de la Universidad de Adelaide, Australia. "A menudo se asume que la unanimidad es confiable. Sin embargo, resulta que la probabilidad de que un gran número de personas estén de acuerdo es pequeña, por lo que nuestra confianza en la unanimidad es infundada. Esta 'paradoja de la unanimidad' muestra que a menudo estamos lejos menos seguro de lo que pensamos ".

Acuerdo improbable

Los investigadores demostraron la paradoja en el caso de una formación policial moderna, en la que los testigos intentan identificar al sospechoso entre una fila de varias personas. Los investigadores demostraron que, a medida que aumenta el grupo de testigos que están de acuerdo unánimemente, la posibilidad de que sean correctos disminuye hasta que no es mejor que una suposición aleatoria.

En las filas policiales, el error sistémico puede ser cualquier tipo de sesgo, como la forma en que se presenta la fila a los testigos o un sesgo personal de los propios testigos. Es importante destacar que los investigadores demostraron que incluso un pequeño sesgo puede tener un impacto muy grande en los resultados en general. Específicamente, muestran que cuando solo el 1% de las filas muestran un sesgo hacia un sospechoso en particular, la probabilidad de que los testigos tengan razón comienza a disminuir después de solo tres identificaciones unánimes. Contrariamente a la intuición, si uno de los muchos testigos identificara a un sospechoso diferente, la probabilidad de que los otros testigos estuvieran en lo cierto aumentaría sustancialmente.

La razón matemática de por qué sucede esto se encuentra utilizando el análisis bayesiano, que se puede entender de una manera simplista al observar una moneda sesgada. Si una moneda sesgada está diseñada para caer en cara el 55% de las veces, después de registrar suficientes lanzamientos de moneda, podrá saber que la cara sale con más frecuencia que la cruz. Los resultados no indicarían que las leyes de probabilidad de un sistema binario hayan cambiado, sino que este sistema en particular haya fallado. De manera similar, obtener un gran grupo de testigos unánimes es tan poco probable, de acuerdo con las leyes de probabilidad, que es más probable que el sistema no sea confiable.

Los investigadores dicen que esta paradoja surge con más frecuencia de lo que pensamos. El acuerdo amplio y unánime sigue siendo algo bueno en ciertos casos, pero solo cuando hay un sesgo nulo o casi nulo. Abbott da un ejemplo en el que los testigos deben identificar una manzana en una fila de bananas, una tarea que es tan fácil que es casi imposible equivocarse y, por lo tanto, un acuerdo amplio y unánime es mucho más probable.

Por otro lado, una alineación criminal es mucho más complicada que una con una manzana entre plátanos. Los experimentos con crímenes simulados han mostrado tasas de identificación errónea de hasta el 48% en los casos en que los testigos ven al perpetrador solo brevemente mientras huye de la escena del crimen. En estas situaciones, sería muy poco probable que se llegara a un acuerdo amplio y unánime. Pero en una situación en la que los testigos hubieran sido tomados como rehenes por el perpetrador a punta de pistola durante un mes, la tasa de identificación errónea sería mucho más baja del 48%, por lo que la magnitud del efecto probablemente estaría más cerca de la de la línea bananera. -más que el de los criminales vistos brevemente.

Amplias implicaciones

La paradoja de la unanimidad tiene muchas otras aplicaciones más allá del ámbito legal. Uno importante que los investigadores discuten en su artículo es la criptografía. Los datos a menudo se cifran verificando que un número gigantesco proporcionado por un adversario sea primo o compuesto. Una forma de hacer esto es repetir una prueba probabilística llamada prueba de Rabin-Miller hasta que la probabilidad de que confunda un compuesto como primo sea extremadamente baja: una probabilidad de 2-128 generalmente se considera aceptable.

La falla sistémica que ocurre en esta situación es la falla de la computadora. La mayoría de la gente nunca considera la posibilidad de que un rayo cósmico extraviado pueda voltear un poco, lo que a su vez hace que la prueba acepte un número compuesto como primo. Después de todo, la probabilidad de que ocurra tal evento es extremadamente baja, aproximadamente de 10 a 13 por mes. Pero lo importante es que es mayor que 2-128, por lo que, aunque la tasa de fallas es tan pequeña, domina el nivel de seguridad deseado. En consecuencia, el protocolo criptográfico puede parecer más seguro de lo que realmente es, ya que los resultados de las pruebas que parecen indicar un alto nivel de seguridad en realidad tienen muchas más probabilidades de ser indicativos de fallas en la computadora. Para lograr realmente el nivel de seguridad deseable, los investigadores advierten que estos errores "ocultos" deben reducirse lo más cerca posible de cero.

La paradoja de la unanimidad puede ser contradictoria, pero los investigadores explican que tiene sentido una vez que tenemos la información completa a nuestra disposición.

"Como ocurre con la mayoría de las 'paradojas', no es que nuestra intuición sea necesariamente mala, sino que nuestra intuición ha sido mal informada", dijo Abbott. "En estos casos, nos sorprende porque, en general, no somos conscientes de que las tasas de identificación por parte de los testigos son de hecho tan bajas, y no somos conscientes de que las tasas de error de bits en las computadoras sean significativas cuando se trata de criptografía".

Los investigadores notaron que la paradoja de la unanimidad está relacionada con la hipótesis de Duhem-Quine, que establece que no es posible probar una hipótesis científica de forma aislada, sino que las hipótesis siempre se prueban como un grupo. Por ejemplo, un experimento prueba no solo un determinado fenómeno, sino también la función de corrección de las herramientas experimentales. En la paradoja de la unanimidad, son los métodos (las "hipótesis auxiliares") los que fallan y, a su vez, reducen la confianza en los resultados principales.

Más ejemplos

Otras áreas en las que surge la paradoja de la unanimidad son numerosas y diversas. Abbott describe varios a continuación, en sus propias palabras:

1) El reciente escándalo de Volkswagen es un buen ejemplo. La compañía programó de manera fraudulenta un chip de computadora para hacer funcionar el motor en un modo que minimizara las emisiones de combustible diesel durante las pruebas de emisiones. Pero en realidad, las emisiones no cumplieron con los estándares cuando los autos estaban en la carretera. Las bajas emisiones fueron demasiado consistentes y 'demasiado buenas para ser verdad'. El equipo de emisiones que descubrió a Volkswagen inicialmente sospechó cuando descubrió que las emisiones estaban casi al mismo nivel, ya sea que un automóvil sea nuevo o tenga cinco años. La consistencia delató el sesgo sistémico introducido por el infame chip de computadora.

2) Un caso famoso en el que la evidencia abrumadora era "demasiado buena para ser verdad" ocurrió en el período 1993-2008. La policía de Europa encontró el mismo ADN femenino en aproximadamente 15 escenas de crímenes en Francia, Alemania y Austria. Este misterioso asesino fue apodado el Fantasma de Heilbronn y la policía nunca la encontró. La evidencia de ADN fue consistente y abrumadora, pero estaba equivocada. Resultó ser un error sistémico. Los hisopos de algodón utilizados para recolectar las muestras de ADN fueron contaminados accidentalmente, por la misma señora, en la fábrica que hizo los hisopos.

3) Cuando un gobierno gana una elección, uno lamenta que el partido de su elección a menudo gane con un margen relativamente pequeño. A menudo deseamos que nuestro partido político favorito gane con votos unánimes. Sin embargo, si eso sucediera alguna vez, se nos haría sospechar de un sesgo sistémico causado por la manipulación de votos. Persiste una leyenda urbana de que Putin ganó el 140% (!) De los votos; si esto es cierto, la democracia claramente fracasó en ese caso. La moraleja es que, en una democracia sana, cuando un partido gana por un pequeño margen, en lugar de insultar a los votantes 'tontos' de la oposición, deberíamos estar celebrando el hecho de que los votantes de la oposición preservaron la integridad de democracia.

4) En ciencia, teoría y experimentación van de la mano y deben apoyarse mutuamente. En cada experimento siempre hay "ruido" y, por lo tanto, debemos esperar algún error. En la historia de la ciencia hay una serie de experimentos famosos en los que los resultados fueron "demasiado buenos para ser verdad". Hay muchos ejemplos que se han visto envueltos en controversias a lo largo de los años, y los más famosos son el experimento de la gota de aceite de Millikan para determinar la carga en el electrón y los experimentos de fitomejoramiento de Mendel. Si los resultados son demasiado limpios y no contienen el ruido esperado y los valores atípicos, entonces podemos sospechar una forma de sesgo de confirmación introducido por un experimentador que selecciona los datos.

5) En muchas reuniones de comités, en las grandes organizaciones de hoy, existe una tendencia hacia la idea de que las decisiones deben ser unánimes. Por ejemplo, un comité que clasifica a los solicitantes de empleo o evalúa los indicadores clave de rendimiento (KPI) a menudo discutirá hasta que todos en la sala estén de acuerdo. Si uno o dos miembros están en desacuerdo, el resto del comité tiende a convencerlos antes de seguir adelante. Un mensaje para llevar a casa de nuestro análisis es que la voz disidente debe ser bienvenida. Un comité inteligente debería aceptar esa diferencia de opinión y simplemente registrar que hubo un desacuerdo. El registro del desacuerdo no es negativo, sino positivo que demuestra que es menos probable un sesgo sistémico.

6) Eugene Wigner acuñó una vez la frase "la efectividad irrazonable de las matemáticas" para describir la sensación bastante extraña de que las matemáticas parecen adaptarse perfectamente a la descripción de teorías físicas. En cierto modo, Wigner estaba expresando la idea de que las matemáticas en sí mismas son "demasiado buenas para ser verdad". (Consulte este artículo para obtener más información sobre esta idea). La realidad es que los dispositivos y máquinas modernos ya no se analizan mediante ecuaciones matemáticas analíticas ordenadas, sino mediante fórmulas empíricas integradas en herramientas de software de simulación. Para algunas de las próximas grandes preguntas científicas, particularmente en el área de sistemas complejos, buscamos big data y aprendizaje automático en lugar de matemáticas. La matemática analítica, tal como la conocíamos, no era el guante perfecto que pudiera adaptarse a todo tipo de problema. Entonces, ¿cómo nos sedujo a pensar una vez que las matemáticas eran "irrazonablemente efectivas"? Es el sesgo de confirmación sistémico introducido por el hecho de que por cada gran artículo científico que leemos con una fórmula elegante, hay muchas más fórmulas rechazadas que nunca se publican y que nunca llegamos a ver. Las matemáticas que tenemos hoy fueron seleccionadas.