Big Data, ¿cambio generacional en las bases de datos?

El término Big Data es un concepto rebautizado que ya existía, algo que tiene mucho de tradicional y a su vez mucho nuevo. En primer lugar, un problema de Big Data es un problema de procesamiento de datos en el cuál estaría incluido en alguna de las siguientes problemáticas:

  • Volumen: considerables cantidades de información
  • Variedad: información no estructurada de diferentes fuentes
  • Velocidad: información en movimiento, necesidad de procesar y analizarlo en tiempo real

Estas problemáticas no son nada nuevas, desde hace más de 40 años ya existían estos entornos. Sin embargo ahora hay mejor tecnología que antes, hardware más eficiente, mayor capacidad y velocidad en almacenamiento. La gente de Marketing no habla de “hacer DataWarehouses”, ahora según ellos se habla de “hacer Big Data”.

Respecto a la pregunta inicial, Big Data NO reemplazará a otros sistemas de tradicionales de bases de datos. No desaparecerán ni se convertirán en un cementerio de elefantes. Big Data de la misma manera que otras bases de datos se ha creado para cubrir una serie de necesidades (las problemáticas mencionadas) y que en épocas pasadas era imposible realizarlo pero con la tecnología actual es posible ahora.

Los sistemas tradicionales de bases de datos funcionan muy bien para lo que han sido pensados y van a seguir mejorándose. El SQL va a seguir mucho tiempo y como otras bases de datos trabaja perfectamente para determinados tipos de problemas.

Un claro ejemplo es IBM con su producto DB2 con soporte NoSQL. Un sistema híbrido capaz de trabajar en SQL, procesamiento xml, json, tuplas, etc. Una plataforma de valor que soporta cualquier cosa.

Es cierto que Big Data ha traído consigo nuevas tecnologías y bases de datos como MongoDB, HBase, Hadoop… Pero creo en el futuro próximo no aparecerá un nuevo MongoDB sino todo lo contrario. Es más probable ver casos como el de IBM, un concentramiento de funcionalidades en plataformas únicas.

Autor: A. Balagot

¿Cómo se explica el crecimiento del BIG DATA la última década? ¿Qué retos nos ha planteado esta ciencia?

Aquéllos que han seguido de cerca la evolución de Big Data durante los últimos quince años se habrán dado cuenta de que un imparable fenómeno de dimensiones inimaginables se está desarrollando:

Explosión de datos debido al creciente uso de internet y redes sociales.

Para contrastar esta hipótesis pensemos en los años en los que entraron al mercado las grandes firmas de generación de datos online, como son los buscadores y las redes sociales. Como ejemplo de buscadores podemos destacar Google debido a que posee la mayor cuota de mercado, que es aproximadamente un 70%. Esta firma fue fundada en el año 1998, por tanto, para evidenciar nuestra hipótesis deberíamos observar una explosión de datos a partir de dicho año. Por otro lado, como ejemplos más representativos de redes sociales podemos destacar Twitter y Facebook, que fueron fundadas en 2006. ¿Hasta qué punto podemos decir que estas redes sociales han supuesto la mayor expansión de Big Data de toda la historia? Para verlo solo hay que mencionar la cantidad de datos diarios que generan:

  • Twitter: 340 millones de tweets diarios.
  • Facebook: 800 millones de status diarios.

Si a este fenómeno le sumamos que Google ha conseguido alcanzar  las 1000 millones de búsquedas diarias, podemos empezar a hacernos a la idea de cómo es esta explosión de datos de la que hablamos. Para comprobar que el fenómeno de explosión de datos se coordina con el surgimiento de dicho tipo de firmas observemos un gráfico que represente el crecimiento de Big Data de algunos países desarrollados y del mundo:

Imagen

La línea lila es la que representa el crecimiento de Big Data en todo el mundo. Observemos que en el año 1998 se produce un punto de inflexión en el crecimiento de Big Data que es explicado en gran parte debido a la fundación de Google junto con el gran crecimiento de usuarios de internet. Finalmente, observemos que en el año 2006 se produce otro punto de inflexión, incrementando así la pendiente de la línea, lo que indica un mayor crecimiento de Big Data respecto a los 8 años anteriores. Tal como hemos descrito anteriormente, este fenómeno se puede explicar a partir del surgimiento de las redes sociales.

Hay que destacar que esta explosión de datos de dimensiones inimaginables ha generado multitud de problemas técnicos que han requerido mucha inversión en investigación para conseguir resolverlos. Entre estos problemas podemos destacar:

  • Volumen: almacenar una gran cantidad de datos en un disco duros puede ser una tarea realmente complicada. Para hacernos a la idea de este problema podemos mencionar el ejemplo de Twitter. Esta red social genera 340 millones de tweets diarios que equivalen a un TB de memoria. Almacenar un TB de memoria diariamente puede suponer un problema logístico importante. Como posible solución podemos destacar los Sistemas de Ficheros Distribuidos.
  • Velocidad: no sólo tenemos que tener en cuenta la cantidad de datos que llegan sino también como llegan. Si éstos llegan a tiempo real se necesita un bando de ancha lo suficientemente grande como para poder procesar todos los datos en un periodo de tiempo limitado. Como posible solución podemos destacar los Sistemas de Distribución de Procesos.
  • Variedad: el hecho que llegue mucha información de diferente tipo supone un problema ya que tener muchos datos desordenados no nos permite hacer estudios fiables. Por ello, el crecimiento de Big Data ha requerido un desarrollo de software que permita ordenar todos estos datos. Como posible solución podemos destacar las Bases de Datos Relacionales.

En conclusión, el fenómeno de explosión de datos de los últimos 15 años nos está mostrando la cara real de Big Data creando una serie de problemas logísticos que requieren mucho esfuerzo por parte de la sociedad científica. No sabemos hasta dónde llegará este fenómeno, pero lo que si sabemos es que es una nueva arma para competir en los mercados modernos.

Autor: Daniel Bestard Delgado

Dr. Watson (Parte 2)

En febrero de 2013 comenzaron a brotar los primeros resultados de Watson en el ámbito de la salud. La computadora de IBM ha sido trasladada a una aplicación médica capaz de comparar historiales y hacer recomendaciones sobre tratamientos.

Watson ya colaboraba con Wellpoint, y ahora se le ha unido también el Sloan-Kettering Memorial Center, la mayor y más antigua institución privada del mundo dedicada al estudio del cáncer.

Los creadores anuncian que la supercomputadora será utilizada para avanzar en la cura del cáncer y lo hará en forma de aplicación basada en el cloud y accesible a través de tablets o PCs. Un servicio que promete revolucionar la sanidad.

Por otra parte, en el artículo anterior no se comentó el porqué de la colaboración entre Watson y Wellpoint. Básicamente por dos motivos obvios, el primero era abaratar los costes de atención. El segundo motivo era acelerar diagnósticos y tratamientos. En consecuencia, los ensayos con Watson han demostrado un 90% de diagnósticos correctos de cáncer pulmón en contraste con el 50% de los médicos humanos.

De momento ya hay disponibles tres productos comerciales basados en Watson. El siguiente vídeo muestra cómo trabaja Watson para analizar, diagnosticar y colaborar tratamientos médicos contra las distintas enfermedades del cáncer.

Dr. Watson

¿Qué o quién es Watson? ¿Qué importancia tiene en el ámbito de la salud y Big Data?

En primer lugar, Watson es una potentísima computadora de IBM que venció a los dos mejores concursantes de la historia del concurso “Jeopardy!” (un programa de televisión de preguntas y respuestas), en febrero de 2011.  Una máquina que representa la Inteligencia Artificial en su máxima expresión, capaz de aprender, plantear hipótesis, buscar evidencias, buscar a través de  200 millones de páginas de datos y dar respuestas precisas en apenas segundos.

 IBM_Watson

En segundo lugar, Watson se pone la bata de doctor desde septiembre de 2011, ya que IBM y Wellpoint (el mayor seguro sanitario americano) anunciaron la implementación de la primera aplicación comercial utilizando la capacidad excepcional de Watson.

En tercer y último lugar, la aplicación comentada integra la velocidad de Watson y la amplia base de datos con la información de más de 34 millones de pacientes de la aseguradora americana. Con el objetivo de proporcionar varios  posibles diagnósticos o tratamientos, organizarlo en  orden confianza del computador, y todo junto a la base de su respuesta.

“Sin ninguna duda estamos ante un cambio definitivo en área de la salud”

Ginger.io: tu móvil cuida de tí

Imagen

Los patrones de uso de tu dispositivo móvil dicen mucho sobre cómo te sientes física y emocionalmente. Ginger.io es una aplicación móvil Android que ayuda a predecir el estado de salud físico o mental de una persona. Analiza datos del dispositivo móvil como la ubicación, frecuencia de las llamadas y mensajes de texto…para predecir si esa persona está padeciendo algún problema de salud.


Según Karan Singh, uno de los fundadores de Ginger.io, “Los cambios en la medicación o el estado de ánimo están ligados a los patrones de comunicación y movimiento”. Además “La diversidad de llamadas es un gran ejemplo. Cuando las personas entran en un ciclo de depresión, tienden a ir hacia el aislamiento y sólo llaman a un par de personas.”

La aplicación Ginger.io monitoriza la actividad del uso del móvil de dos formas:

  • Pasiva: mediante comunicación o actividad de movimiento, es información que aporta el dispositivo móvil de forma indirecta como puede ser el gps, sms o las llamadas.
  • Activa: un servicio contínuo que se provee al usuario, mediante notificaciones y cuestionarios diarios como valorar el estado de ánimo. Además puede introducir información adicional manualmente. Es información que el mismo usuario aporta directamente.

Con este método la aplicación es capaz de detectar internamente cambios de comportamiento, comparar comportamiento pasado e incluso comparar comportamiento agregado de individuos de la misma edad y demografía aproximada.

Más información:

Artículo: An App that Looks for Signs of Sickness

Vídeo: The Quantified Self and Ginger.io

Gapminder World: otra forma de entender las estadísticas

Datos. El mundo posee una gran cantidad de datos, y a medida que pasan los días más. Pero ¿dónde podemos conseguir estos datos y comprenderlos? Nos lo pueden proporcionar: Naciones Unidas, agentes estadísticos nacionales, universidades, organizaciones no gubernamentales, internet… Estos datos se encuentran almacenados en bases de datos, sin embargo entenderlo y ver cómo ha evolucionado el mundo de forma estadística no es efectiva ya que es aburrida.

Con el objetivo de enlazar datos y diseño nace Gapminder, una fundación sin fines de lucro con sede en Estocolmo. En 2005 es creado el software estadístico Gapminder World, de la mano de Hans Rosling. Un visualizador interactivo de gráficos y mapas que permite observar la situación de 259 países mediante una extensa gama de variables. Centrado principalmente en indicadores de desarrollo, Gapminder World presenta un gráfico bidimensional mediante el que los países se posicionan en base a las dos variables seleccionada, apareciendo en diferentes colores. Además este software estadístico introduce la variable tiempo para observar años concretos o para obtener imágenes dinámicas de la evolución experimentada por los países en un gráfico animado.

Imagen

Fig1: Gapminder World

¿Cómo conocer el impacto de las políticas públicas sobre las PYMEs?

Lo permitirá el proyecto europeo MOSIPS (Modeling and Simulation of the Impact of Public Policies on SMEs). El propósito de este proyecto es de desarrollar una herramienta para la simulación y visualización del impacto de políticas públicas en las PYMEs de una forma novedosa: usando modelos ABM (Agent-Based Models).

Imagen

MOSIPS facilitará la toma de decisiones mediante simulaciones de diferentes proyecciones socio-económicas, desde fuentes de datos tradicionales públicas hasta las innovadoras redes sociales.

Esta herramienta podrá ser utilizada tanto en entidades públicas como privadas, a nivel europeo o estatal, incluso cámaras de comercio o otras organizaciones.

MOSIPS actuaría como un túnel de viento, revelando de forma fiable el impacto de las políticas socio-económicas propuestas. El cual permitiría modificaciones en dichas políticas de manera oportuna antes de aplicarlas y  en consecuencia mayor beneficio social.