BIG DATA: ¿problema u oportunidad?

Diversos técnicos especializados en el análisis y procesamiento de datos afirman que Big Data no puede ser considerada como una ciencia, sino que no es más que un simple problema. La justificación que dan es que el crecimiento exponencial de los datos durante la última década ha dificultado las tareas de análisis debido a las tres características de Big Data: volumen, velocidad y variedad. Personalmente, no coincido en esta simplificada definición y voy a justificarlo con un simple ejemplo relacionado con social media. Empecemos introduciendo las dimensiones de social media para poder llegar a una definición más concreta de Big Data.

Desde el origen de Facebook, en 2006, no ha parado de crecer el número de perfiles creados hasta rebasar los mil millones. Para entender la magnitud de este número sólo hay que pensar en el número de personas que hay en la Tierra, que son aproximadamente siete mil millones, a las que debemos restar los países donde Facebook está censurado (ej: China), poblaciones sin acceso a internet, los niños, etc. Al final te acabas dando cuenta de que la mayoría de los individuos con posibilidad de acceso a Facebook tienen un perfil. He hablado de Facebook como ejemplo representativo, pero podríamos decir lo mismo de otras redes sociales como Twitter, LinkedIn, Youtube y muchas más. En la siguiente imagen veréis una famosa representación de la explosión de datos en la que aparecen diversas menciones a social media. Se representan las cantidades de datos que se generan cada minuto a nivel mundial:

Imagen

¿Por qué digo todo esto? ¿Qué tiene que ver la generación de datos de social media con la definición de Big Data? La respuesta es que esta cantidad de datos no representa sólo un problema en sí, sino también oportunidades de negocio. Social media nos permite obtener información muy poderosa que puede ser de interés de cualquier tipo de individuo u organización. Por ejemplo, una firma puede estar interesada en saber que se comenta sobre ella en las redes sociales para así poder centrar sus productos a las necesidades de sus consumidores. Por otro lado, los partidos políticos pueden estar interesados en saber que políticas generan más indignación en las redes sociales para así poder cambiar su estrategia electoral. Lo que quiero decir es que Big Data no puede ser definida simplemente como problema, a pesar que su obtención y análisis supongas inconvenientes (las tres Vs), porque Big Data ha permitido crear oportunidades de negocio dando la posibilidad a las empresas, asociaciones, instituciones públicas, etc. a conocer más la sociedad y así poder actuar en consecuencia de sus necesidades.

En conclusión, hay que diferenciar dos partes importantes de Big Data: la primera es la relacionada con las herramientas técnicas utilizadas en su análisis; y la segunda, relacionada con las consecuencias que ha generado el desarrollo de esta ciencia. Está claro que en el primer caso se generan diversos problemas relacionados, por ejemplo, con el almacenamiento de datos. Pero debemos ir más allá de estos problemas y saber ver las oportunidades que se generan. Estas oportunidades también forman parte del desarrollo de Big Data y deben tenerse en cuenta en su definición.

Autor: Daniel Bestard Delgado

Anuncios

¿Cómo se explica el crecimiento del BIG DATA la última década? ¿Qué retos nos ha planteado esta ciencia?

Aquéllos que han seguido de cerca la evolución de Big Data durante los últimos quince años se habrán dado cuenta de que un imparable fenómeno de dimensiones inimaginables se está desarrollando:

Explosión de datos debido al creciente uso de internet y redes sociales.

Para contrastar esta hipótesis pensemos en los años en los que entraron al mercado las grandes firmas de generación de datos online, como son los buscadores y las redes sociales. Como ejemplo de buscadores podemos destacar Google debido a que posee la mayor cuota de mercado, que es aproximadamente un 70%. Esta firma fue fundada en el año 1998, por tanto, para evidenciar nuestra hipótesis deberíamos observar una explosión de datos a partir de dicho año. Por otro lado, como ejemplos más representativos de redes sociales podemos destacar Twitter y Facebook, que fueron fundadas en 2006. ¿Hasta qué punto podemos decir que estas redes sociales han supuesto la mayor expansión de Big Data de toda la historia? Para verlo solo hay que mencionar la cantidad de datos diarios que generan:

  • Twitter: 340 millones de tweets diarios.
  • Facebook: 800 millones de status diarios.

Si a este fenómeno le sumamos que Google ha conseguido alcanzar  las 1000 millones de búsquedas diarias, podemos empezar a hacernos a la idea de cómo es esta explosión de datos de la que hablamos. Para comprobar que el fenómeno de explosión de datos se coordina con el surgimiento de dicho tipo de firmas observemos un gráfico que represente el crecimiento de Big Data de algunos países desarrollados y del mundo:

Imagen

La línea lila es la que representa el crecimiento de Big Data en todo el mundo. Observemos que en el año 1998 se produce un punto de inflexión en el crecimiento de Big Data que es explicado en gran parte debido a la fundación de Google junto con el gran crecimiento de usuarios de internet. Finalmente, observemos que en el año 2006 se produce otro punto de inflexión, incrementando así la pendiente de la línea, lo que indica un mayor crecimiento de Big Data respecto a los 8 años anteriores. Tal como hemos descrito anteriormente, este fenómeno se puede explicar a partir del surgimiento de las redes sociales.

Hay que destacar que esta explosión de datos de dimensiones inimaginables ha generado multitud de problemas técnicos que han requerido mucha inversión en investigación para conseguir resolverlos. Entre estos problemas podemos destacar:

  • Volumen: almacenar una gran cantidad de datos en un disco duros puede ser una tarea realmente complicada. Para hacernos a la idea de este problema podemos mencionar el ejemplo de Twitter. Esta red social genera 340 millones de tweets diarios que equivalen a un TB de memoria. Almacenar un TB de memoria diariamente puede suponer un problema logístico importante. Como posible solución podemos destacar los Sistemas de Ficheros Distribuidos.
  • Velocidad: no sólo tenemos que tener en cuenta la cantidad de datos que llegan sino también como llegan. Si éstos llegan a tiempo real se necesita un bando de ancha lo suficientemente grande como para poder procesar todos los datos en un periodo de tiempo limitado. Como posible solución podemos destacar los Sistemas de Distribución de Procesos.
  • Variedad: el hecho que llegue mucha información de diferente tipo supone un problema ya que tener muchos datos desordenados no nos permite hacer estudios fiables. Por ello, el crecimiento de Big Data ha requerido un desarrollo de software que permita ordenar todos estos datos. Como posible solución podemos destacar las Bases de Datos Relacionales.

En conclusión, el fenómeno de explosión de datos de los últimos 15 años nos está mostrando la cara real de Big Data creando una serie de problemas logísticos que requieren mucho esfuerzo por parte de la sociedad científica. No sabemos hasta dónde llegará este fenómeno, pero lo que si sabemos es que es una nueva arma para competir en los mercados modernos.

Autor: Daniel Bestard Delgado