« Bastardos | Inicio | Ultimas imágenes de la ciencia II »
22 de Julio 2008
Ultimas imágenes de la ciencia I
Chris Anderson es el editor-jefe de la revista Wired.
Un tipo al que se le ha dado por arrojar piedras cognitivas sobre lugares conocidos, a la vista de todos.
El mas reciente de estos lanzamientos es la idea según la cual la avalancha de datos y lo in-acotable de sus fuentes es en la actualidad tal que el método científico ha quedado obsoleto. Voy a tratar en este post de traducir el artículo y comentarlo.
El carozo del artículo de la Wired es que la posibilidad de recolección de hechos y cifras crece hasta llegar a los llamados por los estadísticos grandes números, haciendo que ahora más sea diferente, es decir lo cuantitativo sea cualitativo.
"Todos los modelos están equivocados, pero algunos son útiles" dijo el estadístico George Box hace 30 años y al decir esto quizás se equivocaba, pero su idea si que sería era productiva.
Increíblemente para nosotros los argentinos, Google demuestra que teníamos razón cuando atábamos todo con alambre: el asunto es que así funciona.
Es decir que empresas como Google, que han crecido en (y producido) una época de abundantes datos masivos, no tienen que conformarse con modelos, independientemente si están equivocados o no.
Hace sesenta años, dice la Wired, las computadoras apenas producían Kilobytes de información legible. Hace veinte años tuvimos los primeros Megabytes bajados de Internet. Hace diez años, el primer motor de búsqueda que documentaba Terabytes de datos. Ahora Google está llegando a la mayoría de edad: son los hijos de la Edad petabyte.
En la escala petabyte, la información no es una cuestión de simples de tres y cuatro dimensiones taxonómicas. Se requiere un enfoque totalmente diferente: hay que ver los datos matemáticamente primero y dejar el contexto para más adelante.
La filosofía de Google es que no sabemos por qué un sitio es mejor que otro, pero las matemáticas sí. Confiamos en los enlaces entrantes y los hits, no en la semántica.
En una intervención reciente, Peter Norvig, director de investigación de Google, propuso una actualización a la máxima de George Box : "Todos los modelos están equivocados, y sin embargo se puede tener éxito sin ellos."
Pareciera que la propuesta es que en este mundo de grandes cantidades de datos las matemáticas aplicadas pueden sustituir a las herramientas de conversión de datos en información en las que confiábamos hasta ahora. Primero los datos, despues los modelos y no viceversa.
Y van más allá: cada teoría del comportamiento humano, desde la lingüística a la sociología ya no pueden manejar tantos datos. La taxonomía, la ontología o la psicología:¿ Que saben sobre por qué la gente hace lo que hace? La cuestión es que hacen, y ahora podemos analizar y medir todo esto con una fidelidad sin precedentes.
Profetizan: con suficientes datos, las cifras hablan por sí solas.
¿Y la ciencia? Pues está haciendo todo alrevés, dice Chris Anderson: si el método científico se articula en torno a hipótesis comprobables con lo único que nos encontraremos es con la mente de los científicos.
Los modelos son lo que prueba entonces, y los experimentos confirman o falsean los modelos teóricos de cómo funciona el mundo. Esta es la manera de hacer ciencia ha trabajado durante cientos de años, educando a su vez generaciones de científicos.
Los científicos están entrenados en reconocer causalidades o determinaciones y comprender los mecanismos subyacentes que conectan unos elementos con otros. Una vez que hay un modelo, se pueden conectar a los conjuntos de datos con confianza.
Pero al enfrentarse a datos masivos, este enfoque de la ciencia (hipótesis > modelo > pruebas) se está convirtiendo en obsoleto.
Por ejemplo Newton propuso modelos que fueron aproximaciones de la "verdad". Hace un siglo, basados en estadísticas, contamos con otro modelo, el de la física cuántica.
En la actualidad existe una mejor manera dice Chris Anderson. Los Petabytes nos permiten decir: "La correlación es suficiente." Podemos dejar de buscar modelos.
Podemos analizar los datos sin hipótesis acerca de lo que podría mostrar. Podemos arrojar números en clusters y dejar que los algoritmos encuentren patrones donde la ciencia clásica no puede.
Neoevolución
El mejor ejemplo práctico de que vivíamos equivocados es el programa de secuenciación de genes de J. Craig Venter: usando secuenciadores de alta velocidad y superordenadores analiza estadísticamente los datos que le proveen inmensos ecosistemas. El Océano, la atmósfera, en fin, cualquier lugar donde pueda haber vida le sirve para descubrir miles de especies desconocidas de bacterias y otras formas de vida, así como el DNA que las codifica.
No solo descubrir vida, también diseñarla, patentarla y en el futuro facturar millones.
Es posible que Venter no pueda decir casi nada sobre las especies que encuentra, no sabe a que se parecen, cómo viven, o cualquier otra cosa acerca de su morfología.
Es más, ni siquiera conoce la totalidad de su genoma: todo lo que consigue son secuencias que, a diferencia de cualquier otra secuencia en la base de datos, deberían representar una nueva especie.
Matemáticas biológicas: cada secuencia nueva se puede correlacionar con otras secuencias que se le asemejen. Venter puede hacer conjeturas, pero las hace al modo google.
En esto se basa Chris Anderson para preguntarse: ¿Qué puede hacer la ciencia para aprender de Google?
Publicado por lukasnet a las 22 de Julio 2008 a las 02:13 AM
Comentarios
Publicado por: El ciego amigo a las 26 de Julio 2008 a las 01:45 AM
Publicado por: LuKas a las 28 de Julio 2008 a las 12:12 PM
Publicado por: El ciego amigo a las 1 de Agosto 2008 a las 01:10 PM