Nunca como hasta ahora los humanos habíamos sido capaces de almacenar y procesar tan grandes cantidades de información.
En muchos campos ya no es necesario trabajar con muestras: se tiene acceso a todo el universo de datos. Por ejemplo, los supermercados saben todo lo que compran todos sus clientes (y cuándo y dónde). Las telefónicas saben cuándo llama o envía un SMS cualquiera de sus usuarios. Google sabe lo que busca en Internet el 95% de la población mundial.
Todo se almacena, todo se procesa y todo se cruza, lo cual permite llegar a conclusiones casi mágicas, como por ejemplo saber dónde se dará pronto un brote de gripe o qué postre se vende mejor en los supermercados de Florida antes de que pase un huracán.
Sobre las posibilidades y los retos de esta nueva realidad se empieza a hablar con más frecuencia en distintos foros tecnológicos.
Kenneth Cukier, editor de datos ( data editor ) de The Economist , y Viktor Mayer-Schönberger, profesor de Gobernanza y Regulación de Internet en la Universidad de Oxford, escribieron uno de los libros calificados por la crítica como fundamental para entender la materia: Big data, la revolución de los datos masivos (Turner, 2013).
Juntos, como escribieron esa obra, respondieron a una entrevista solicitada por La Nación . A continuación, un extracto.
¿Cuáles son las principales consecuencias de trabajar con un universo entero y no solo una muestra?
Mirar muestras es un atajo. Antes, recoger y analizar datos era muy caro, por lo que se recogía tan poca información como era posible para responder a una pregunta. Eso tenía dos inconvenientes: primero, que con muestras no es posible mirar en subgrupos y analizarlos, porque los números son demasiado pequeños. Segundo, con muestras uno necesita saber las preguntas antes de recoger los datos, a fin de garantizar que la muestra se selecciona al azar con respecto a la cuestión que nos ocupa. Ambas limitaciones no existen cuando se ha recogido todo, lo cual permite una visión mucho más detallada, mirando más a fondo en las subpoblaciones y dejando que los datos “hablen”. Además, con todos los datos se puede relajar un poco nuestra obsesión por la exactitud y permitir un poco de desorden de los datos.
¿Está la Estadística herida de muerte?
No, en absoluto. La Estadística funciona para pequeñas cantidades de datos. Debemos actualizar algunos de los métodos estadísticos que tenemos para trabajar con big data , pero mucho permanece igual.
En algunos puntos, el libro da la impresión de que los seres humanos no somos libres. Siempre vamos a comprar un producto específico en determinadas condiciones y siempre vamos a actuar de la misma manera bajo ciertos supuestos. ¿Incluso cuando creemos que estamos siendo originales estamos respondiendo a un patrón que ignoramos?
Con big data podemos hacer predicciones probabilísticas, pero no existe certeza. Por lo tanto, nunca vamos a ser capaces de predecir perfectamente el comportamiento de una persona en particular. Todavía existe la voluntad humana.
En un mundo donde todo parece ser predecible, ¿cuál es el papel de la creatividad y la curiosidad? ¿Sabremos algún día cuándo alguien será creativo y cuándo no?
Tal vez. Sin embargo, es muy importante para nosotros pensar en crear un espacio para el ser humano. La creatividad y el ingenio no se pueden predecir y actúan en contra de lo que dicta un algoritmo.
Existe software para analizar las canciones más populares y determinar sus patrones. Se compara eso con nuevas canciones y se define si estas nuevas canciones serán populares o no. En un futuro cercano, ¿vamos a tener acceso únicamente a la información que una máquina concluye que nos va a gustar?
No, en absoluto. Como los algoritmos también descubrirán que al ser humano le gusta ser sorprendido de vez en cuando, lo más probable es que también elaboren un modelo de sorpresa. En el caso de la música, esto conducirá a la promoción, de vez en cuando, de una canción “extraña”, que no encaja dentro del patrón de preferencia de escucha de una persona.
En el mismo contexto de máquinas que nos muestran lo que se supone que nos gusta: ¿existirá un espacio para la disidencia y la crítica social? ¿Existe posibilidad de perderla al menos un poco?
Las máquinas no nos dicen lo que nos gusta. El análisis de big data simplemente indica qué tipo de preferencias están impulsando nuestras decisiones humanas. Eso puede hacernos más predecibles, pero eso no significa que las máquinas nos dicen lo que debemos pensar. El big data no elimina el espacio para la disidencia, sino todo lo contrario: se sentirá la irritación social antes y con más precisión, lo que permitirá a los políticos reaccionar antes.
La expansión del big data plantea muchos desafíos. De las propuestas y recomendaciones que dan, ¿cuáles son las más urgentes para poner en práctica?
La recomendación más urgente es la protección del valor de la voluntad humana y la necesidad de especialistas en algoritmos que miren dentro de la “caja de negra” del big data (el cómo funciona el algoritmo que lleva a una conclusión).
Parece claro que no todos los países ni todas las personas dentro de un mismo país van a obtener los mismos beneficios del big data . ¿Puede su desarrollo ampliar la brecha digital?
Creemos que el big data es ortogonal a la llamada brecha digital. Ambos son importantes, pero son fenómenos distintos que tienen una interacción compleja que escapa a la abstracción simplista. Por supuesto, como con todas las herramientas de gran alcance, es importante que la gente sea capaz de utilizarlas para avanzar y el acceso a estas herramientas debe ser amplio e integral.