Hace unos años apareció en mentes febriles el sueño del culturoma, algo así como un genoma de la cultura, un conjunto de matrices invisibles, un código difícil de descifrar pero del que podían desprenderse tendencias y hasta las instituciones del pasado y del presente.
Parecía una locura, sin embargo Google tomó el guante, escaneó millones de libros que fueron cargados en bases de datos y, macerados en el caldo de las trillonarias búsquedas de su web, los puso a disposición de todos los que querían jugar con ellos: los resultados no fueron solamente experiencias lúdicas, sino que fueron publicados varios papers en journals reconocidos.
Con buena parte de la academia en contra, con contradiccones, tropiezos y grandes atajos descubiertos en la espesura de la hipertrofia de datos, poco a poco va llegando la culturómica, un modo cuantitativo de abordar las cosas sociales, con el costo posible de desdibujarlas pero que hasta acá se ha impactado en lexicografía, gramática evolutiva, inteligencia colectiva, difusión de la tecnología, estudios sobre moda, teoría de la censura o epidemiología entre otros.
El asunto posiblemente venga de la biología, que es la disciplina que más se benefició con su versión bioinformática: ramas como la genómica, metabolómica, fluxómica, regulómica o la signalómica empiezan a dar frutos concretos, en modelado de proteínas para desarrollo de medicamentos para el tratamiento del cáncer o de enfermedades degenerativas neurológicas.
Sea como fuere la cultorómica, la bigdata o la minería de datos puestos a disposición de la academia y la empresa son un conjunto todavía problemático: desde el polo del entusiasmo al del escepticismo están ahí las interacciones, comportamientos y opiniones backupeadas en escalas desconocidas para los sociólogos, que se han conformado durante generaciones con el muestreo representativo y advierten que no van a dejarse seducir por las sirenas de grandes volúmenes de datos “hasta que no los vean” y por otro lado, advierten que todo esto no resuelve la vieja cuestión: causalidad, correlación o pronóstico, cuando no determinación.
Así las cosas además de Google otros están atrás del asunto: la empresa IBM ha calculado que la miríada de busquedas en Google, tweets y otras actividades en la web destilan diariamente 2.5 billiones de gigabytes de datos por día. De esas profundidades de ceros y unos aparecen ondas extrañas, desde los 500 años de guerras regulares antes de la caída de Constantinopla a frecuencias de temáticas en la novela inglesa del siglo XIX.
Esto por el lado del los buscadores y los sistemas operativos, pero el asunto va mas allá: desde el mas superficial costado de la industria del entretenimiento se estrenó hace poco Transcendence, una película de ciencia ficción y suspenso que entre otras cosas propone como personaje central un dispositivo maquínico capaz de aprender a partir de grandes. En la trama el software investiga en bases de bases hechas con otras bases de datos y se vuelve capaz de crear y aplicar tratamientos médicos basados en BigData y nanotecnología para traumas, parálisis, ceguera y prácticamente todos los males de mundo conocidos. El film es un paso más en la dirección de Her, trama en la que un sistema operativo ubicuo aprende a relacionarse emocionalmente con los usuarios de Internet, también nutriéndose de enormes bases de datos.
Todas estas historias tienen el común denominador de la detección de patrones para pronosticar comportamientos, cuando no inducirlos. El tema no es nuevo: la arquitectura, las religiones o la política misma hace miles de años han encontrado a fuerza de ensayo y error patrones compartidos socialmente y luego los han puesto a funcionar a beneficio propio, pero de algún modo a lo Marcus Vitruvius, es decir: lo que está es sólido, útil, hermoso, listo, suficiente, no jodamos con cosas nuevas.
La inversión en Trascendence fue de aproximadamente 100 millones de dólares, un poco mas de lo 80 que Nat Turner y Zach Weinberg consiguieron por la venta de Invite Media, una empresa de netvertising basada en BigData que compró Google en 2010.
Invite Media se basa en tomar decisiones escuchando el murmullo de enormes bases de datos en tiempo real, orientando grandes paquetes publicitarios hacia donde y como anunciar.
Hay sin embargo un elemento que enriquece la historia. Turner comenzó a interesarse en el cáncer en 2009 cuando su primo de 7 años de edad, Brennan Simkins, se enfermó, y después de una serie de pruebas se le diagnosticó una leucemia mieloide aguda. Cuatro trasplantes de médula ósea hicieron retroceder la enfermedad, pero en el proceso Turner detectó algo que había visto trabajando con la publicidad online: diferentes plataformas, herramientas, bases de datos que, como instrumentos musicales de una orquesta mal dirigida no terminaban de sonar coordinadamente.
Turner creyó que podían encontrar la forma de producir coherencia en otros campos, ademas del netvertising y convenció a su socio de usar partes de los fondos de la venta de Invite Media para crear Flatiron Salud una empresa que tuviera como objetivo curar el cáncer con ingeniería de sistemas.
La idea resultó ser interesante hasta para el mismísimo Google, que lo demostró invirtiendo más de 100 millones de dolares a través de Google Ventures, su división de capital de riesgo. (En total, Flatiron recaudó unos 140 millones de dólares.)
La tesis de Flatiron es simple: Si en USA sólo el 4 % de los datos del tratamiento de pacientes de cáncer es recolectada de manera sistemática, la sistematización de la información del 96% restante podría ayudar a la medicina a contar con mejores opciones de tratamiento: el procesamiento de datos podría decir que funcionó mejor, detectar deficiencias rápidamente, buscar puntos de derroche y acelerar el desarrollo y la aprobación de nuevos medicamentos.
Con esta especie de Babel cancerológica Turner y Weinberg han estimado conseguir un impacto sobre el 5% de los casi 1,7 millones de estadounidenses diagnosticados con cáncer al año, lo que equivaldría a salvar decenas de miles de vidas.
Lo primero que hicieron Turner y Weinberg fue ponerse de acuerdo en como organizar la montaña de datos clínicos que estaban dispersos en los sistemas de archivo de los centros de tratamiento oncológico en todo Estados Unidos. Se propusieron a recopilar los datos digitales y analógicos y clasificar, agrupar, y ofrecer de nuevo a los médicos con el objetivo de ayudar a tomar mejores decisiones acerca de cómo tratar a los pacientes.
Para Turner y Weinberg el problema de organizar los datos (de oncología clínica en este caso) era algo familiar. Uno de los principales problemas es que los médicos le rehuyen a los registros digitales y por otro lado los datos de un solo paciente puede provenir de docenas de fuentes no digitales: informes de internación, otros oncólogos, radiólogos, cirujanos, laboratorio y patología.
Luego, incluso cuando están digitalizados, los datos, en lugar de estar perfectamente organizados en bases de datos, aparecen en diferentes formatos y muchos escritos a mano, en grabaciones de audio o en archivos PDF de baja resolución de los equipos de fax.
Viendo los primeros archivos, los datos que se habían obtenido mediante procesamiento de lenguaje natural, una metodología por medio de la cual los ordenadores “leen” los documentos analógicos y extraen datos de ellos, estaban llenos de errores, por lo Flatiron creó un sistema de aprendizaje híbrido para capturar y corregir los errores. La compañía contrató a un equipo de 50 enfermeras para introducir datos de los primeros 500 pacientes a mano, lo que permitió crear algoritmos para detectar errores en los datos recopilados de forma automática. Las discrepancias fueron agregadas de nuevo en el sistema informático para ayudar a perfeccionar el proceso de recolección automatizado.
A estos problemas se debe sumar una amplia gama de regulaciones sobre la privacidad del acto médico que rigen la información personal y hace que sea aún más difícil para compartir y ensamblar miles y miles de prácticas de oncología.
Turner y Weinberg pasaron más de dos años desarrollando esa forma de organizar la información clínica en categorías ordenadas que se habían propuesto. Se centraron en el cáncer de colon y descartaron los demás. Visitaron cientos de clínicas, entrevistaron decenas de especialistas. Basados en los ensayos clínicos publicados, extrajeron más de 350 categorías de datos, desde la demografía a las etapas del cáncer, marcadores biológicos de la enfermedad, respuestas a los tratamientos, en fin, todo lo clasificable.
Pero esto no sale de la nada. Flatiron no es el primer proyecto en embarcarse en esta misión. El año pasado, la Sociedad Americana de Oncología Clínica, una asociación profesional sin fines de lucro, anunció CancerLinQ, un esfuerzo para desarrollar un sistema que aprovechara las bases de datos clínicos para ayudar a mejorar la calidad de la atención y descubrir fármacos. Tambien está el antecedente de Cáncer Commons, otra organización sin fines de lucro dirigida por el informático senior Marty Tenenbaum con la esperanza de ayudar aún más a la normalización de los datos clínicos de oncología, en una forma que sea libremente disponible para cualquier persona. IBM misma, a través de su sistema de inteligencia artificial Watson, ya está trabajando con los centros de cáncer Memorial Sloan Kettering como para tamizar a través de millones de registros de datos clínicos, los texto de artículos de revistas e informes de ensayos clínicos para proporcionar automáticamente a los médicos recomendaciones para el tratamiento de sus pacientes .
Por otro lado el Instituto Nacional del Cáncer de Estados Unidos destinó 500 millones de dólares para bioinformática.
Es este contexto Flatiron ha crecido y actualmente trabaja con 210 centros de cáncer que aportan colectivamente alrededor de 300.000 pacientes nuevos cada año.
El mundo del cáncer de colon está lleno de datos, pero todavía parece haber muchas claves por develar, aunque algunas figuras destacadas en el campo son escépticos: el Dr. Robert Weinberg, miembro fundador del Instituto Whitehead para la Investigación Biomédica del MIT, piensa que la explosión de datos puede abrumar a los científicos, que ya tienen problemas para trabajar con muchísima menos data. Su posición es que “la idea de que sólo agregando datos se podrán obtener variables cualitativas que antes no eran accesibles, no es algo que sea evidente…”. En ese sentido Weinberg cree que, incluso si los datos fueran capaces de identificar mejoras en los resultados de ciertos protocolos de tratamiento, los beneficios podrían no ser lo suficientemente importantes como para que los médicos cambiaran sus prácticas habituales.
Por otro lado John Ioannidis, profesor de medicina en la Universidad de Stanford cree que este enfoque podría ayudar a reducir la gran variabilidad en los tratamientos contra el cáncer en distintas clínicas y hospitales.
Por lo que vemos la BigData aplicada que hemos ejemplificado acá está todavía en una zona de intensa polémica, creando esas corriente de admiración y repudio que producen los adolescentes cuando ingresan como bárbaros en campos constituidos, arrasando con todo, o repitiéndolo son saberlo.
Lo de Flatiron es, sin embargo, un ejemplo de lo que está por venir. Idas y venidas, resultados blandos, inversiones millonarias, pérdidas, preguntas nuevas, sospechas industriales. Es también, de algún modo, un sacudón de sillas. Es un burbujeo que dejará cosas atrás y cosas adelante, un sistema de filtrado nuevo, autónomo, donde la subjetividad parece quedar destilada en pliegues, si es que queda. Cada vez será, según parece vislumbrarse, mas difícil mantener a la oncología como una artesanía exquisita, salvo que se sea capaz de comprender las nuevas corrientes.
En definitiva, volviendo a la culturómica, parece que estos modos cuantitativos han venido para quedarse, aunque todavía dan los primeros pasos y los tropiezos serán mucho y los costos altos.
Lo que queda por verse es si podrá hacerse algo por fuera de la interdisciplina, porque los viejos moldes no parecen servir para los nuevos materiales de trabajo.
Socialismo creativo XII | LuKasnet Blog
[…] Lo que sí podemos afirmar es que en el entorno de las tecnologías del cuarto capitalismo. […]