{"id":2199,"date":"2014-08-12T00:56:37","date_gmt":"2014-08-12T03:56:37","guid":{"rendered":"http:\/\/lukasnet.com.ar\/blogwp\/?p=2199"},"modified":"2014-08-12T18:30:24","modified_gmt":"2014-08-12T21:30:24","slug":"big-data-ca","status":"publish","type":"post","link":"https:\/\/lukasnet.com.ar\/blogwp\/big-data-ca\/","title":{"rendered":"Big Data Ca"},"content":{"rendered":"<p><a href=\"https:\/\/lukasnet.com.ar\/blogwp\/wp-content\/uploads\/2014\/07\/hqdefault.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft  wp-image-2201\" src=\"https:\/\/lukasnet.com.ar\/blogwp\/wp-content\/uploads\/2014\/07\/hqdefault-300x225.jpg\" alt=\"hqdefault\" width=\"228\" height=\"171\" srcset=\"https:\/\/lukasnet.com.ar\/blogwp\/wp-content\/uploads\/2014\/07\/hqdefault-300x225.jpg 300w, https:\/\/lukasnet.com.ar\/blogwp\/wp-content\/uploads\/2014\/07\/hqdefault.jpg 480w\" sizes=\"auto, (max-width: 228px) 100vw, 228px\" \/><\/a>Hace unos a\u00f1os apareci\u00f3 en mentes febriles el sue\u00f1o\u00a0del\u00a0<em>culturoma<\/em>, algo as\u00ed como un\u00a0genoma de la cultura, un conjunto de matrices invisibles, un c\u00f3digo dif\u00edcil de descifrar pero del que pod\u00edan desprenderse tendencias y hasta las instituciones del pasado y del presente.<\/p>\n<p>Parec\u00eda una locura, sin embargo Google tom\u00f3 el guante, escane\u00f3\u00a0millones de libros\u00a0que fueron cargados en bases de datos y, macerados en el caldo de las trillonarias b\u00fasquedas de su web, los puso\u00a0a disposici\u00f3n de todos los que quer\u00edan jugar con ellos: los resultados no fueron solamente experiencias l\u00fadicas, sino que\u00a0<a href=\"http:\/\/www.sciencedaily.com\/releases\/2010\/12\/101216142519.htm\">fueron publicados<\/a>\u00a0varios papers en journals\u00a0reconocidos.<\/p>\n<p>Con buena parte de la academia en contra, con contradiccones, tropiezos y grandes atajos descubiertos en la espesura de la hipertrofia de datos, poco a poco va llegando la cultur\u00f3mica, un modo cuantitativo de abordar las cosas sociales, con el costo posible de desdibujarlas\u00a0pero que hasta\u00a0ac\u00e1 se ha impactado\u00a0en lexicograf\u00eda, gram\u00e1tica evolutiva, inteligencia colectiva, difusi\u00f3n\u00a0de la tecnolog\u00eda, estudios sobre moda, teor\u00eda de la\u00a0censura o\u00a0epidemiolog\u00eda entre otros.<\/p>\n<p><!--more--><\/p>\n<p>El asunto posiblemente venga de la biolog\u00eda, que es la disciplina que m\u00e1s se benefici\u00f3\u00a0con su versi\u00f3n\u00a0<em>bioinform\u00e1tica<\/em>: ramas como la gen\u00f3mica, metabol\u00f3mica, flux\u00f3mica, regul\u00f3mica\u00a0o la\u00a0signal\u00f3mica empiezan a dar frutos concretos, en modelado de prote\u00ednas para desarrollo de medicamentos\u00a0para el\u00a0tratamiento del c\u00e1ncer o de enfermedades degenerativas neurol\u00f3gicas.<\/p>\n<p>Sea como fuere la cultor\u00f3mica, la bigdata o la miner\u00eda de datos puestos a disposici\u00f3n de la academia y la empresa son un conjunto todav\u00eda problem\u00e1tico: desde el polo del entusiasmo al del\u00a0<a href=\"href=&quot;http:\/\/www.discoversociety.org\/focus-big-data-little-questions\/\" target=\"_blank\">escepticismo<\/a> est\u00e1n ah\u00ed las interacciones, comportamientos y opiniones backupeadas en escalas desconocidas para los soci\u00f3logos, que se han\u00a0conformado durante generaciones con el <em>muestreo representativo<\/em>\u00a0y\u00a0advierten que no van a dejarse seducir por las sirenas de grandes vol\u00famenes de datos \u00abhasta que no los vean\u00bb y por otro lado, advierten que todo esto no resuelve la vieja cuesti\u00f3n: <a href=\"http:\/\/www.techpageone.com\/technology\/data-center\/crime-punishment-and-the-big-data-revolution\/\" target=\"_blank\">causalidad, correlaci\u00f3n o pron\u00f3stico<\/a>, cuando no determinaci\u00f3n.<\/p>\n<p>As\u00ed las cosas adem\u00e1s de Google otros est\u00e1n atr\u00e1s del asunto: la empresa\u00a0<a href=\"http:\/\/www.ibm.com\/big-data\/us\/en\/\">IBM<\/a> ha calculado que la mir\u00edada de busquedas en Google, tweets y otras actividades en la web destilan diariamente\u00a0<span style=\"font-size: 13px;\">2.5 billiones de gigabytes de datos por d\u00eda. De esas profundidades de ceros y unos aparecen ondas extra\u00f1as, desde los <a href=\"http:\/\/www.oeaw.ac.at\/byzanz\/repository\/Preiser_WorkingPapers_Calculating_I.pdf\" target=\"_blank\">500 a\u00f1os de guerras regulares<\/a> antes de la ca\u00edda de Constantinopla a frecuencias de tem\u00e1ticas en la <a href=\"http:\/\/newleftreview.es\/article\/download_pdf?language=es&amp;id=2440\" target=\"_blank\">novela inglesa<\/a> del siglo XIX.<\/span><\/p>\n<p><span style=\"font-size: 13px;\">Esto por el lado del los buscadores y los sistemas operativos, pero el asunto\u00a0va mas all\u00e1: desde el mas superficial costado\u00a0de la industria del entretenimiento se estren\u00f3 hace poco\u00a0<\/span><a style=\"font-size: 13px;\" href=\"http:\/\/www.transcendencemovie.com\/\">Transcendence<\/a><span style=\"font-size: 13px;\">, una pel\u00edcula de ciencia ficci\u00f3n y suspenso que entre otras cosas propone como personaje central un dispositivo maqu\u00ednico\u00a0capaz de aprender a partir de grandes. En la trama el software investiga en bases de bases hechas con otras bases de\u00a0\u00a0datos y se\u00a0vuelve capaz de\u00a0crear y aplicar tratamientos m\u00e9dicos basados en BigData y nanotecnolog\u00eda para traumas, par\u00e1lisis, ceguera y pr\u00e1cticamente todos los males de mundo conocidos. El film es un paso m\u00e1s en la direcci\u00f3n de\u00a0<\/span><a style=\"font-size: 13px;\" href=\"https:\/\/es.wikipedia.org\/wiki\/Her\" target=\"_blank\">Her<\/a><span style=\"font-size: 13px;\">, trama en la que un sistema operativo ubicuo aprende a relacionarse emocionalmente con los usuarios de Internet, tambi\u00e9n nutri\u00e9ndose de enormes bases de datos.<\/span><\/p>\n<p>Todas estas historias tienen el com\u00fan denominador de la <em>detecci\u00f3n de patrones<\/em>\u00a0para pronosticar comportamientos, cuando no inducirlos. El tema no es nuevo: la arquitectura, las religiones o la pol\u00edtica misma hace miles de a\u00f1os han encontrado a fuerza de ensayo y error patrones compartidos socialmente y luego los han puesto a funcionar a beneficio propio, pero de alg\u00fan modo a lo <a href=\"http:\/\/www.biografiasyvidas.com\/biografia\/v\/vitruvio.htm\" target=\"_blank\">Marcus Vitruvius<\/a>, es decir: lo que est\u00e1 es <em>s\u00f3lido, \u00fatil, hermoso<\/em>, listo, suficiente, no jodamos con cosas nuevas.<\/p>\n<p>La inversi\u00f3n en Trascendence fue de aproximadamente 100 millones de d\u00f3lares, un poco mas de lo 80 que Nat Turner y Zach Weinberg consiguieron por la venta de\u00a0<a href=\"http:\/\/www.businessinsider.com\/meet-the-25-year-old-who-just-sold-a-70-million-company-to-google-2010-6\">Invite Media<\/a>, una\u00a0empresa de netvertising basada en BigData que compr\u00f3 Google en 2010.<\/p>\n<p>Invite Media se basa en tomar decisiones escuchando el murmullo de\u00a0enormes bases de datos en tiempo real, orientando\u00a0grandes paquetes publicitarios hacia\u00a0donde y como anunciar.<\/p>\n<p>Hay sin embargo un elemento que enriquece la historia. Turner comenz\u00f3 a interesarse en el c\u00e1ncer en 2009 cuando su primo de 7 a\u00f1os de edad, <a href=\"http:\/\/www.dailymail.co.uk\/news\/article-2235403\/Brennan-Simkins-Astonishing-bravery-cancer-survivor-10-underwent-FOUR-bone-marrow-transplants--refused-up.html\" target=\"_blank\">Brennan Simkins<\/a>, se enferm\u00f3, y despu\u00e9s de una serie de pruebas se le diagnostic\u00f3 una leucemia mieloide aguda. Cuatro trasplantes de m\u00e9dula \u00f3sea hicieron retroceder la enfermedad, pero en el proceso Turner detect\u00f3 algo que hab\u00eda visto trabajando con la\u00a0publicidad online: diferentes plataformas, herramientas, bases de datos que, como instrumentos musicales de una orquesta mal dirigida no terminaban de sonar coordinadamente.<\/p>\n<p>Turner crey\u00f3 que pod\u00edan encontrar la forma de producir coherencia en otros campos, ademas del netvertising y\u00a0convenci\u00f3 a su socio de usar partes de los fondos de la venta de Invite Media para crear\u00a0<a href=\"http:\/\/www.flatironhealth.com\">Flatiron Salud<\/a>\u00a0una empresa que tuviera como objetivo curar el c\u00e1ncer con ingenier\u00eda de sistemas.<\/p>\n<p>La idea result\u00f3 ser interesante hasta para el mism\u00edsimo Google, que lo demostr\u00f3 invirtiendo m\u00e1s de 100 millones de dolares a trav\u00e9s de <a href=\"https:\/\/www.gv.com\/\" target=\"_blank\">Google Ventures<\/a>, su divisi\u00f3n de capital de riesgo.\u00a0(En total, Flatiron recaud\u00f3 unos\u00a0140 millones de d\u00f3lares.)<\/p>\n<p>La tesis de Flatiron es simple:\u00a0Si en USA s\u00f3lo el 4 % de los datos del tratamiento de pacientes de c\u00e1ncer es recolectada de manera sistem\u00e1tica, la sistematizaci\u00f3n\u00a0de la informaci\u00f3n del 96% restante podr\u00eda ayudar a la medicina a contar con\u00a0mejores opciones de tratamiento:\u00a0el procesamiento de datos podr\u00eda decir que funcion\u00f3 mejor, detectar deficiencias r\u00e1pidamente, buscar puntos de derroche y acelerar el desarrollo y la aprobaci\u00f3n de nuevos medicamentos.<\/p>\n<p>Con esta especie de Babel cancerol\u00f3gica Turner y Weinberg\u00a0han estimado\u00a0conseguir\u00a0un impacto sobre el 5% de los casi 1,7 millones de estadounidenses diagnosticados\u00a0con c\u00e1ncer al a\u00f1o, lo\u00a0que equivaldr\u00eda a salvar decenas de miles de vidas.<\/p>\n<p>Lo primero que hicieron Turner y Weinberg fue ponerse\u00a0de acuerdo en como organizar la monta\u00f1a de datos cl\u00ednicos que estaban dispersos en los sistemas de archivo de los centros de tratamiento oncol\u00f3gico en todo Estados Unidos. Se propusieron a recopilar los datos digitales y anal\u00f3gicos y clasificar, agrupar, y ofrecer de nuevo a los m\u00e9dicos con el objetivo de ayudar a tomar mejores decisiones acerca de c\u00f3mo tratar a los pacientes.<\/p>\n<p>Para Turner y Weinberg el problema de\u00a0organizar los datos (de oncolog\u00eda cl\u00ednica en este caso) era algo familiar. Uno de los principales problemas es que los\u00a0m\u00e9dicos le rehuyen a los registros digitales\u00a0y\u00a0por otro lado\u00a0los\u00a0datos de un solo paciente puede provenir de docenas de fuentes no digitales: informes de internaci\u00f3n, otros onc\u00f3logos, radi\u00f3logos, cirujanos, laboratorio y patolog\u00eda.<\/p>\n<p>Luego, incluso cuando est\u00e1n digitalizados, los datos, en\u00a0lugar de estar perfectamente organizados en bases de datos, aparecen en diferentes formatos\u00a0y muchos\u00a0escritos a mano, en grabaciones de audio\u00a0o en archivos PDF de baja resoluci\u00f3n de los\u00a0equipos de fax.<\/p>\n<p>Viendo los primeros archivos, los datos que se hab\u00edan obtenido\u00a0mediante\u00a0procesamiento de lenguaje natural, una metodolog\u00eda por medio de la cual los ordenadores \u00ableen\u00bb los documentos anal\u00f3gicos y extraen datos de ellos, estaban llenos de errores, por lo Flatiron cre\u00f3 un sistema de aprendizaje h\u00edbrido para capturar y corregir los errores.\u00a0La compa\u00f1\u00eda contrat\u00f3 a un equipo de 50 enfermeras para introducir datos de los primeros\u00a0500 pacientes a mano, lo que permiti\u00f3 crear algoritmos\u00a0para detectar errores en los datos recopilados de forma autom\u00e1tica.\u00a0Las discrepancias fueron agregadas\u00a0de nuevo en el sistema inform\u00e1tico para ayudar a perfeccionar el proceso de recolecci\u00f3n automatizado.<\/p>\n<p>A estos problemas se debe sumar una amplia gama de regulaciones sobre la\u00a0privacidad del acto m\u00e9dico que rigen la informaci\u00f3n personal y\u00a0hace que sea a\u00fan m\u00e1s dif\u00edcil para compartir\u00a0y ensamblar miles y miles de pr\u00e1cticas de oncolog\u00eda.<\/p>\n<p>Turner y Weinberg pasaron m\u00e1s de dos a\u00f1os desarrollando esa\u00a0forma de organizar la informaci\u00f3n cl\u00ednica en categor\u00edas ordenadas que se hab\u00edan propuesto. Se centraron en el c\u00e1ncer de colon y descartaron los dem\u00e1s. Visitaron cientos de cl\u00ednicas, entrevistaron decenas de especialistas. Basados en los ensayos cl\u00ednicos publicados, extrajeron m\u00e1s de 350 categor\u00edas de datos, desde la demograf\u00eda a\u00a0las etapas del c\u00e1ncer, marcadores biol\u00f3gicos de la enfermedad, respuestas a los tratamientos, en fin, todo lo clasificable.<\/p>\n<p>Pero esto no sale de la nada. Flatiron no es el primer\u00a0proyecto\u00a0en embarcarse en esta misi\u00f3n.\u00a0El a\u00f1o pasado, la Sociedad Americana de Oncolog\u00eda Cl\u00ednica, una asociaci\u00f3n profesional sin fines de lucro, anunci\u00f3 <a href=\"http:\/\/www.asco.org\/quality-guidelines\/cancerlinq\">CancerLinQ<\/a>, un esfuerzo para desarrollar un sistema que aprovechara las bases de datos cl\u00ednicos para ayudar a mejorar la calidad de la atenci\u00f3n y descubrir f\u00e1rmacos. Tambien est\u00e1 el antecedente de\u00a0<a href=\"http:\/\/www.cancercommons.org\/\">C\u00e1ncer Commons<\/a>, otra\u00a0organizaci\u00f3n sin fines de lucro dirigida por el inform\u00e1tico senior\u00a0<a href=\"http:\/\/commerce.net\/board-me\">Marty Tenenbaum<\/a>\u00a0con\u00a0la esperanza de ayudar a\u00fan m\u00e1s a la normalizaci\u00f3n de los datos cl\u00ednicos de oncolog\u00eda, en una forma que sea libremente disponible para cualquier persona.\u00a0IBM misma, a trav\u00e9s de su sistema de inteligencia artificial <a href=\"http:\/\/www.research.ibm.com\/articles\/genomics.shtml\">Watson<\/a>, ya est\u00e1 trabajando con los centros de c\u00e1ncer <a href=\"http:\/\/www.mskcc.org\/\">Memorial Sloan Kettering<\/a> como para tamizar a trav\u00e9s de millones de registros de datos cl\u00ednicos, los\u00a0texto de art\u00edculos de revistas\u00a0e\u00a0informes de ensayos cl\u00ednicos para proporcionar autom\u00e1ticamente a los m\u00e9dicos recomendaciones para el\u00a0tratamiento de\u00a0sus pacientes .<\/p>\n<p>Por otro\u00a0lado el\u00a0<a href=\"http:\/\/www.cancer.gov\/espanol\" target=\"_blank\">Instituto Nacional del C\u00e1ncer de Estados Unidos<\/a>\u00a0destin\u00f3\u00a0500\u00a0millones de\u00a0d\u00f3lares para bioinform\u00e1tica.<\/p>\n<p>Es este contexto Flatiron ha crecido y actualmente trabaja con\u00a0210 centros de c\u00e1ncer que aportan\u00a0colectivamente alrededor de 300.000 pacientes nuevos cada a\u00f1o.<\/p>\n<p>El mundo del c\u00e1ncer de colon est\u00e1 lleno de datos, pero todav\u00eda parece haber muchas claves por develar, aunque algunas figuras destacadas en el campo son esc\u00e9pticos: el <a href=\"http:\/\/weinberglab.wi.mit.edu\/\">Dr. Robert Weinber<\/a>g, miembro fundador del Instituto Whitehead para la Investigaci\u00f3n Biom\u00e9dica\u00a0del MIT, piensa que la explosi\u00f3n de datos puede abrumar a los cient\u00edficos, que ya tienen problemas para trabajar con much\u00edsima menos data. Su posici\u00f3n es que\u00a0\u00abla idea de que s\u00f3lo agregando datos se podr\u00e1n obtener variables cualitativas que antes no eran accesibles, no es algo que sea evidente&#8230;\u00bb. En ese sentido Weinberg cree\u00a0que, incluso si los datos fueran capaces de identificar mejoras en los resultados de ciertos protocolos de tratamiento, los beneficios podr\u00edan no ser lo suficientemente importantes como para que los m\u00e9dicos cambiaran sus pr\u00e1cticas habituales.<\/p>\n<p>Por otro lado\u00a0<a href=\"https:\/\/med.stanford.edu\/profiles\/john-ioannidis\">John Ioannidis<\/a>, profesor de medicina en la <a href=\"www.stanford.edu\/\" target=\"_blank\">Universidad de Stanford<\/a> cree que este enfoque podr\u00eda ayudar a reducir la gran variabilidad en los tratamientos contra el c\u00e1ncer en distintas cl\u00ednicas\u00a0y hospitales.<\/p>\n<p>Por lo que vemos la BigData aplicada que hemos ejemplificado ac\u00e1 est\u00e1 todav\u00eda en una zona de intensa\u00a0pol\u00e9mica, creando esas corriente de admiraci\u00f3n y repudio que producen los adolescentes cuando ingresan como b\u00e1rbaros en campos constituidos, arrasando con todo, o repiti\u00e9ndolo son saberlo.<\/p>\n<p>Lo de\u00a0Flatiron es, sin embargo, un ejemplo de lo que est\u00e1 por venir. Idas y venidas, resultados blandos, inversiones millonarias, p\u00e9rdidas, preguntas nuevas, sospechas industriales. Es tambi\u00e9n, de alg\u00fan modo, un sacud\u00f3n de sillas. Es un burbujeo que dejar\u00e1 cosas atr\u00e1s y cosas adelante, un sistema de filtrado nuevo, aut\u00f3nomo, donde la subjetividad parece quedar\u00a0destilada en pliegues, si es que queda. Cada vez ser\u00e1, seg\u00fan parece vislumbrarse, mas dif\u00edcil mantener a la oncolog\u00eda como una artesan\u00eda exquisita, salvo que se sea capaz de comprender las nuevas corrientes.<\/p>\n<p>En\u00a0definitiva, volviendo a la cultur\u00f3mica, parece que estos modos cuantitativos han\u00a0venido para quedarse, aunque todav\u00eda dan los primeros pasos y los tropiezos ser\u00e1n mucho y los costos altos.<\/p>\n<p>Lo que queda por verse es si podr\u00e1 hacerse algo\u00a0por fuera de la interdisciplina, porque los viejos moldes no parecen servir para los nuevos materiales de trabajo.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Hace unos a\u00f1os apareci\u00f3 en mentes febriles el sue\u00f1o\u00a0del\u00a0culturoma, algo as\u00ed como un\u00a0genoma de la cultura, un conjunto de matrices invisibles, un c\u00f3digo dif\u00edcil de descifrar pero del que pod\u00edan desprenderse tendencias y hasta las instituciones del pasado y del presente. Parec\u00eda una locura, sin embargo Google tom\u00f3 el guante, escane\u00f3\u00a0millones de libros\u00a0que fueron cargados &#8230; <span class=\"more\"><a class=\"more-link\" href=\"https:\/\/lukasnet.com.ar\/blogwp\/big-data-ca\/\">[Read more&#8230;]<\/a><\/span><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[231,243,240,232,233,25,242,241,239],"class_list":{"0":"entry","1":"post","2":"publish","3":"author-admin","4":"has-more-link","5":"post-2199","7":"format-standard","8":"category-general","9":"post_tag-big-data","10":"post_tag-bioinformatica","11":"post_tag-culturomica","12":"post_tag-datos","13":"post_tag-google","14":"post_tag-medicina","15":"post_tag-metabolomica","16":"post_tag-signalomica","17":"post_tag-x-omicas"},"_links":{"self":[{"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/posts\/2199","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/comments?post=2199"}],"version-history":[{"count":50,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/posts\/2199\/revisions"}],"predecessor-version":[{"id":2284,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/posts\/2199\/revisions\/2284"}],"wp:attachment":[{"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/media?parent=2199"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/categories?post=2199"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lukasnet.com.ar\/blogwp\/wp-json\/wp\/v2\/tags?post=2199"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}