BIG DATA: ¿problema u oportunidad?

Diversos técnicos especializados en el análisis y procesamiento de datos afirman que Big Data no puede ser considerada como una ciencia, sino que no es más que un simple problema. La justificación que dan es que el crecimiento exponencial de los datos durante la última década ha dificultado las tareas de análisis debido a las tres características de Big Data: volumen, velocidad y variedad. Personalmente, no coincido en esta simplificada definición y voy a justificarlo con un simple ejemplo relacionado con social media. Empecemos introduciendo las dimensiones de social media para poder llegar a una definición más concreta de Big Data.

Desde el origen de Facebook, en 2006, no ha parado de crecer el número de perfiles creados hasta rebasar los mil millones. Para entender la magnitud de este número sólo hay que pensar en el número de personas que hay en la Tierra, que son aproximadamente siete mil millones, a las que debemos restar los países donde Facebook está censurado (ej: China), poblaciones sin acceso a internet, los niños, etc. Al final te acabas dando cuenta de que la mayoría de los individuos con posibilidad de acceso a Facebook tienen un perfil. He hablado de Facebook como ejemplo representativo, pero podríamos decir lo mismo de otras redes sociales como Twitter, LinkedIn, Youtube y muchas más. En la siguiente imagen veréis una famosa representación de la explosión de datos en la que aparecen diversas menciones a social media. Se representan las cantidades de datos que se generan cada minuto a nivel mundial:

Imagen

¿Por qué digo todo esto? ¿Qué tiene que ver la generación de datos de social media con la definición de Big Data? La respuesta es que esta cantidad de datos no representa sólo un problema en sí, sino también oportunidades de negocio. Social media nos permite obtener información muy poderosa que puede ser de interés de cualquier tipo de individuo u organización. Por ejemplo, una firma puede estar interesada en saber que se comenta sobre ella en las redes sociales para así poder centrar sus productos a las necesidades de sus consumidores. Por otro lado, los partidos políticos pueden estar interesados en saber que políticas generan más indignación en las redes sociales para así poder cambiar su estrategia electoral. Lo que quiero decir es que Big Data no puede ser definida simplemente como problema, a pesar que su obtención y análisis supongas inconvenientes (las tres Vs), porque Big Data ha permitido crear oportunidades de negocio dando la posibilidad a las empresas, asociaciones, instituciones públicas, etc. a conocer más la sociedad y así poder actuar en consecuencia de sus necesidades.

En conclusión, hay que diferenciar dos partes importantes de Big Data: la primera es la relacionada con las herramientas técnicas utilizadas en su análisis; y la segunda, relacionada con las consecuencias que ha generado el desarrollo de esta ciencia. Está claro que en el primer caso se generan diversos problemas relacionados, por ejemplo, con el almacenamiento de datos. Pero debemos ir más allá de estos problemas y saber ver las oportunidades que se generan. Estas oportunidades también forman parte del desarrollo de Big Data y deben tenerse en cuenta en su definición.

Autor: Daniel Bestard Delgado

Big Data, ¿cambio generacional en las bases de datos?

El término Big Data es un concepto rebautizado que ya existía, algo que tiene mucho de tradicional y a su vez mucho nuevo. En primer lugar, un problema de Big Data es un problema de procesamiento de datos en el cuál estaría incluido en alguna de las siguientes problemáticas:

  • Volumen: considerables cantidades de información
  • Variedad: información no estructurada de diferentes fuentes
  • Velocidad: información en movimiento, necesidad de procesar y analizarlo en tiempo real

Estas problemáticas no son nada nuevas, desde hace más de 40 años ya existían estos entornos. Sin embargo ahora hay mejor tecnología que antes, hardware más eficiente, mayor capacidad y velocidad en almacenamiento. La gente de Marketing no habla de “hacer DataWarehouses”, ahora según ellos se habla de “hacer Big Data”.

Respecto a la pregunta inicial, Big Data NO reemplazará a otros sistemas de tradicionales de bases de datos. No desaparecerán ni se convertirán en un cementerio de elefantes. Big Data de la misma manera que otras bases de datos se ha creado para cubrir una serie de necesidades (las problemáticas mencionadas) y que en épocas pasadas era imposible realizarlo pero con la tecnología actual es posible ahora.

Los sistemas tradicionales de bases de datos funcionan muy bien para lo que han sido pensados y van a seguir mejorándose. El SQL va a seguir mucho tiempo y como otras bases de datos trabaja perfectamente para determinados tipos de problemas.

Un claro ejemplo es IBM con su producto DB2 con soporte NoSQL. Un sistema híbrido capaz de trabajar en SQL, procesamiento xml, json, tuplas, etc. Una plataforma de valor que soporta cualquier cosa.

Es cierto que Big Data ha traído consigo nuevas tecnologías y bases de datos como MongoDB, HBase, Hadoop… Pero creo en el futuro próximo no aparecerá un nuevo MongoDB sino todo lo contrario. Es más probable ver casos como el de IBM, un concentramiento de funcionalidades en plataformas únicas.

Autor: A. Balagot

¿Cómo se explica el crecimiento del BIG DATA la última década? ¿Qué retos nos ha planteado esta ciencia?

Aquéllos que han seguido de cerca la evolución de Big Data durante los últimos quince años se habrán dado cuenta de que un imparable fenómeno de dimensiones inimaginables se está desarrollando:

Explosión de datos debido al creciente uso de internet y redes sociales.

Para contrastar esta hipótesis pensemos en los años en los que entraron al mercado las grandes firmas de generación de datos online, como son los buscadores y las redes sociales. Como ejemplo de buscadores podemos destacar Google debido a que posee la mayor cuota de mercado, que es aproximadamente un 70%. Esta firma fue fundada en el año 1998, por tanto, para evidenciar nuestra hipótesis deberíamos observar una explosión de datos a partir de dicho año. Por otro lado, como ejemplos más representativos de redes sociales podemos destacar Twitter y Facebook, que fueron fundadas en 2006. ¿Hasta qué punto podemos decir que estas redes sociales han supuesto la mayor expansión de Big Data de toda la historia? Para verlo solo hay que mencionar la cantidad de datos diarios que generan:

  • Twitter: 340 millones de tweets diarios.
  • Facebook: 800 millones de status diarios.

Si a este fenómeno le sumamos que Google ha conseguido alcanzar  las 1000 millones de búsquedas diarias, podemos empezar a hacernos a la idea de cómo es esta explosión de datos de la que hablamos. Para comprobar que el fenómeno de explosión de datos se coordina con el surgimiento de dicho tipo de firmas observemos un gráfico que represente el crecimiento de Big Data de algunos países desarrollados y del mundo:

Imagen

La línea lila es la que representa el crecimiento de Big Data en todo el mundo. Observemos que en el año 1998 se produce un punto de inflexión en el crecimiento de Big Data que es explicado en gran parte debido a la fundación de Google junto con el gran crecimiento de usuarios de internet. Finalmente, observemos que en el año 2006 se produce otro punto de inflexión, incrementando así la pendiente de la línea, lo que indica un mayor crecimiento de Big Data respecto a los 8 años anteriores. Tal como hemos descrito anteriormente, este fenómeno se puede explicar a partir del surgimiento de las redes sociales.

Hay que destacar que esta explosión de datos de dimensiones inimaginables ha generado multitud de problemas técnicos que han requerido mucha inversión en investigación para conseguir resolverlos. Entre estos problemas podemos destacar:

  • Volumen: almacenar una gran cantidad de datos en un disco duros puede ser una tarea realmente complicada. Para hacernos a la idea de este problema podemos mencionar el ejemplo de Twitter. Esta red social genera 340 millones de tweets diarios que equivalen a un TB de memoria. Almacenar un TB de memoria diariamente puede suponer un problema logístico importante. Como posible solución podemos destacar los Sistemas de Ficheros Distribuidos.
  • Velocidad: no sólo tenemos que tener en cuenta la cantidad de datos que llegan sino también como llegan. Si éstos llegan a tiempo real se necesita un bando de ancha lo suficientemente grande como para poder procesar todos los datos en un periodo de tiempo limitado. Como posible solución podemos destacar los Sistemas de Distribución de Procesos.
  • Variedad: el hecho que llegue mucha información de diferente tipo supone un problema ya que tener muchos datos desordenados no nos permite hacer estudios fiables. Por ello, el crecimiento de Big Data ha requerido un desarrollo de software que permita ordenar todos estos datos. Como posible solución podemos destacar las Bases de Datos Relacionales.

En conclusión, el fenómeno de explosión de datos de los últimos 15 años nos está mostrando la cara real de Big Data creando una serie de problemas logísticos que requieren mucho esfuerzo por parte de la sociedad científica. No sabemos hasta dónde llegará este fenómeno, pero lo que si sabemos es que es una nueva arma para competir en los mercados modernos.

Autor: Daniel Bestard Delgado

Dr. Watson (Parte 2)

En febrero de 2013 comenzaron a brotar los primeros resultados de Watson en el ámbito de la salud. La computadora de IBM ha sido trasladada a una aplicación médica capaz de comparar historiales y hacer recomendaciones sobre tratamientos.

Watson ya colaboraba con Wellpoint, y ahora se le ha unido también el Sloan-Kettering Memorial Center, la mayor y más antigua institución privada del mundo dedicada al estudio del cáncer.

Los creadores anuncian que la supercomputadora será utilizada para avanzar en la cura del cáncer y lo hará en forma de aplicación basada en el cloud y accesible a través de tablets o PCs. Un servicio que promete revolucionar la sanidad.

Por otra parte, en el artículo anterior no se comentó el porqué de la colaboración entre Watson y Wellpoint. Básicamente por dos motivos obvios, el primero era abaratar los costes de atención. El segundo motivo era acelerar diagnósticos y tratamientos. En consecuencia, los ensayos con Watson han demostrado un 90% de diagnósticos correctos de cáncer pulmón en contraste con el 50% de los médicos humanos.

De momento ya hay disponibles tres productos comerciales basados en Watson. El siguiente vídeo muestra cómo trabaja Watson para analizar, diagnosticar y colaborar tratamientos médicos contra las distintas enfermedades del cáncer.

Dr. Watson

¿Qué o quién es Watson? ¿Qué importancia tiene en el ámbito de la salud y Big Data?

En primer lugar, Watson es una potentísima computadora de IBM que venció a los dos mejores concursantes de la historia del concurso “Jeopardy!” (un programa de televisión de preguntas y respuestas), en febrero de 2011.  Una máquina que representa la Inteligencia Artificial en su máxima expresión, capaz de aprender, plantear hipótesis, buscar evidencias, buscar a través de  200 millones de páginas de datos y dar respuestas precisas en apenas segundos.

 IBM_Watson

En segundo lugar, Watson se pone la bata de doctor desde septiembre de 2011, ya que IBM y Wellpoint (el mayor seguro sanitario americano) anunciaron la implementación de la primera aplicación comercial utilizando la capacidad excepcional de Watson.

En tercer y último lugar, la aplicación comentada integra la velocidad de Watson y la amplia base de datos con la información de más de 34 millones de pacientes de la aseguradora americana. Con el objetivo de proporcionar varios  posibles diagnósticos o tratamientos, organizarlo en  orden confianza del computador, y todo junto a la base de su respuesta.

“Sin ninguna duda estamos ante un cambio definitivo en área de la salud”

Ginger.io: tu móvil cuida de tí

Imagen

Los patrones de uso de tu dispositivo móvil dicen mucho sobre cómo te sientes física y emocionalmente. Ginger.io es una aplicación móvil Android que ayuda a predecir el estado de salud físico o mental de una persona. Analiza datos del dispositivo móvil como la ubicación, frecuencia de las llamadas y mensajes de texto…para predecir si esa persona está padeciendo algún problema de salud.


Según Karan Singh, uno de los fundadores de Ginger.io, “Los cambios en la medicación o el estado de ánimo están ligados a los patrones de comunicación y movimiento”. Además “La diversidad de llamadas es un gran ejemplo. Cuando las personas entran en un ciclo de depresión, tienden a ir hacia el aislamiento y sólo llaman a un par de personas.”

La aplicación Ginger.io monitoriza la actividad del uso del móvil de dos formas:

  • Pasiva: mediante comunicación o actividad de movimiento, es información que aporta el dispositivo móvil de forma indirecta como puede ser el gps, sms o las llamadas.
  • Activa: un servicio contínuo que se provee al usuario, mediante notificaciones y cuestionarios diarios como valorar el estado de ánimo. Además puede introducir información adicional manualmente. Es información que el mismo usuario aporta directamente.

Con este método la aplicación es capaz de detectar internamente cambios de comportamiento, comparar comportamiento pasado e incluso comparar comportamiento agregado de individuos de la misma edad y demografía aproximada.

Más información:

Artículo: An App that Looks for Signs of Sickness

Vídeo: The Quantified Self and Ginger.io