Las conclusiones sobre las poblaciones antiguas pueden estar drásticamente equivocadas
Cientos de miles de artículos revisados por pares en genética emplean un método llamado Análisis de Componentes Principales. Pero una nueva investigación muestra que este método está muy sesgado. ¡Esto significa que multitud de estudios importantes sobre poblaciones antiguas pueden estar drásticamente equivocados!
El sorteo irresistible de PCA
Es difícil hacer nuevos amigos, especialmente una vez que pasas los treinta. Como dijo Seinfeld de manera tan elocuente: Cualquiera que sea el grupo que tienes ahora, ese es el grupo con el que vas. No estás entrevistando, no estás mirando a ninguna gente nueva, no estás interesado en ver ninguna aplicación. Para los científicos del ADN y los científicos en general, la situación es aún peor. Las largas horas y el aislamiento necesarios para realizar nuestra investigación tienen efectos determinantes en nuestra vida social. Por supuesto, siempre hay excepciones. A veces llegas a conocer a alguien que siempre está ahí para apoyarte, alguien que pide poco y da mucho. Alguien con quien siempre puedes ir a una fiesta y estar orgulloso. Alguien a quien tus amigos y colaboradores admirarán porque te hace lucir inteligente y genial con un profundo conocimiento de la ciencia involucrada. ¿Quién no quiere un amigo así? Reemplace "alguien" con "algo" y comprenderá qué es el Análisis de Componentes Principales (PCA) para los científicos, específicamente, para los genetistas de poblaciones.
¿Qué es el análisis de componentes principales?
PCA es una transformación matemática que toma un conjunto de datos complejo, como 10 000 genomas de 2000 personas en todo el mundo, y lo transforma para que pueda representarse mediante un diagrama de dispersión X-Y colorido con solo hacer clic en un botón. Es el mejor amigo del estudiante procrastinador que tiene una conferencia mañana y necesita obtener algunos resultados rápidamente, el profesor que busca producir artículos rápidamente y el profesor que busca una promoción haciendo afirmaciones exageradas sin evidencia. La cantidad de amigos que tiene PCA es un recordatorio de los buenos días de MySpace: con citas que suman alrededor de 200 000 solo en genética, multiplicado por un número promedio de 10 autores por artículo, tenemos 2 000 000 académicos que escribieron un artículo que usó PCA.
PCA se utiliza para examinar la estructura de la población de un grupo de individuos para determinar su ascendencia, analizar la historia demográfica y la mezcla, decidir sobre la similitud genética de los individuos y excluir los valores atípicos, decidir cómo modelar poblaciones, describir las relaciones genéticas antiguas y modernas entre individuos, inferir parentesco familiar, identificar tendencias ancestrales en los datos, detectar firmas genómicas de selección natural, identificar tendencias evolutivas, respaldar estudios genéticos de enfermedades, geolocalizar individuos, sacar conclusiones históricas y etnobiológicas, y más. Es "El pequeño diagrama de dispersión que pudo".
El problema con PCA fue también su mayor ventaja. Siempre les decía a todos lo que querían escuchar, así que nadie se atrevía a desafiarlo. Así que, naturalmente, lo hice.
PCA: ¿Un método dudoso?
En un artículo publicado en Scientific Reports, mostré que los resultados de PCA son mucho más sensibles a la entrada de lo que nadie ha apreciado. A modo de analogía, piense en PCA como un horno con harina, azúcar y huevos como entrada de datos. Es posible que el horno siempre haga lo mismo, pero el resultado, un pastel, depende en gran medida de la proporción de ingredientes y de cómo se combinen. De la misma manera, cambios menores en la forma en que se ingresan los datos hacen que PCA genere salidas radicalmente diferentes, lo que lleva a resultados incorrectos, conceptos erróneos y falta de replicación.
Uno de los campos considerados mejores amigos para siempre con PCA es la paleogenómica, donde queremos aprender sobre pueblos antiguos e individuos como los europeos de la Edad del Cobre. Se espera que sean similares a los europeos, y los científicos utilizaron PCA para demostrar que los europeos de la Edad del Cobre se agrupan con los europeos. ¿Por qué? Porque la razón de usar PCA es que se puede usar para crear un mapa genético que posicione a la población desconocida junto a las poblaciones con las que está más relacionada. Debido a que PCA solo ve los datos (sin las etiquetas), asumimos que es una herramienta neutral e imparcial, y que la respuesta que da es correcta.
Mi estudio mostró que pequeños cambios en el número de individuos y la elección de poblaciones pueden producir una diferencia muy grande en los resultados de PCA, lo que permite al experimentador un control total de los resultados.
De esta manera, el experimentador (en este caso, yo) puede producir respuestas muy diferentes a la simple pregunta "¿A qué población son genéticamente más cercanos los europeos de la Edad del Cobre?", colocándolos cerca de cualquier población. Lo hice cambiando el número de individuos en cada población (oceánicos, sudasiáticos, etc.) y eligiendo diferentes subpoblaciones. ¿Qué sucedió? Nuestra herramienta supuestamente imparcial, la brújula de los genetistas, produjo cuatro escenarios históricos diferentes (de versiones históricas prácticamente infinitas), todos matemáticamente "correctos", pero solo uno puede ser biológicamente correcto (si es que lo es).
Tales "conclusiones" se derivan de PCA en casi cualquier documento de población genética sobre humanos, plantas, animales, genética médica y pruebas de drogas (donde se comparan casos y controles). Los resultados de PCA no se limitan a artículos científicos. También están integrados en grandes conjuntos de datos, utilizados por empresas de pruebas genéticas y utilizados para respaldar decisiones políticas. No hay un solo lector que no se vea afectado por PCA, ya sea que sepan lo que es o que lo hayan aprendido ahora. Hasta 216 000 artículos revisados por expertos en genética han empleado PCA para explorar y visualizar similitudes y diferencias entre individuos y poblaciones y han basado sus conclusiones en estos resultados.
Esta figura muestra cuatro de los interminables resultados de PCA que describen los orígenes de los europeos de la Edad del Cobre. Los gráficos PCA se generaron utilizando las mismas poblaciones de referencia pero con diferentes tamaños de población, lo que permite que cualquiera elija su escenario histórico favorito. (Proporcionado por el autor)
Las conclusiones científicas pueden estar drásticamente equivocadas
Para poner estos ejemplos en contexto, considere la reciente publicación de “Tumbas judías asquenazíes de la Inglaterra del siglo XII” por Mark G. Thomas (quien ha sido criticado por apropiarse indebidamente de evidencia) e Ian Barnes. Este estudio "explora" la ascendencia de seis individuos antiguos recién descubiertos y, como siempre, comienza con un gráfico PCA en el que los individuos antiguos se proyectan sobre individuos modernos conocidos para identificar su ascendencia (recuerde que superposición = ascendencia).
Algunas cosas son inmediatamente obvias de esta trama. Primero, los judíos asquenazíes se agrupan con los europeos del sur (es decir, son genéticamente indistinguibles de ellos); por lo tanto, toda la premisa de este documento es errónea. Estas personas bien podrían haber sido italianos. En segundo lugar, aunque tres de los individuos antiguos son hermanos, no se agrupan, lo que ya debería generar inquietudes sobre la validez de este enfoque. En tercer lugar, hay muy pocas poblaciones no judías en la parte inferior de la trama, lo que se hizo para a) evitar mostrar que los judíos de hoy en día se superponen con los no judíos modernos y b) hacer que los individuos antiguos se superpongan con los africanos. Finalmente, no hay otras poblaciones antiguas que se agrupen con sus respectivas poblaciones modernas para convencernos de que esta herramienta realmente funciona.
Podemos ver que si bien este gráfico se presenta como una exploración de hipótesis, los experimentadores lo construyeron para producir los resultados deseados, lo cual, lamentablemente, ¡apenas lo hizo! No obstante, los autores concluyeron que "Estos resultados son consistentes con los individuos de Chapelfield que tienen ascendencia judía", citando un artículo irrelevante para agregar credibilidad a sus hallazgos. A pesar de estos problemas, y aunque en ningún momento estas muestras se superpusieron con judíos asquenazíes, se concluyó que eran descendientes de asquenazíes, y el artículo apareció en Nature (una revista con fines de lucro) con mi breve crítica en algún lugar dentro. En este campo, la verdad es tan importante como los calcetines que te quitaste ayer después de un largo día de calor.
Gráfico PCA de los individuos antiguos desconocidos (negro) y las poblaciones modernas conocidas (color) (Proporcionado por el autor)
PCA es una ilustración del dataísmo en la genética de poblaciones. El dataísmo describe una ideología formada por el surgimiento de Big Data, donde medir los datos es el logro final. Los defensores del dataísmo creen que con suficientes datos y poder de cómputo, los misterios del mundo se revelarán. Los entusiastas del dataísmo rara vez se preguntan si los resultados de PCA son correctos, sino cómo interpretar los resultados correctamente. Como tal, el agrupamiento se interpreta como identidad debido a la ascendencia común y su ausencia como deriva genética. En la ciencia impulsada por PCA, casi todas las respuestas son igualmente aceptables, y la verdad está en los ojos del espectador. Si bien PCA no explica nada, ilustra el punto de Seinfeld. Es realmente difícil hacer amigos cuando eres viejo, especialmente si eres científico.
Imagen de Portada: Genetista contemplando su conjunto de datos de ADN Fuente: Grispb / Adobe Stock
Autor Eran Elhaik
Referencias
Elhaik, E. July 30, 2022. Calculating Principal Component Analysis (PCA), step by step using a simple dataset. YouTube. Disponible en: https://www.youtube.com/watch?v=D0KQpiKeZ48&ab_channel=EranElhaik
Elhaik, E. August 29, 2022. Principal Component Analyses (PCA)-based findings in population genetic studies are highly biased and must be re-evaluated. Scientific Reports. Disponible en: https://www.nature.com/articles/s41598-022-14395-4
- Inicie sesión o regístrese para comentar