¿Puede Big Data en móviles ayudar a salvarte de la malaria en Kenia?

La respuesta es sí. Gente que viaje a áreas con posible riesgo de malaria podrán ser avisados previamente mediante mensajes de texto y así evitar una propagación de la enfermedad. Todo esto es posible gracias a un estudio mostrado en 2012 por investigadores de la Escuela de Salud Pública de Harvard (HSPH) en Boston.

Los investigadores de la HSPH combinaron los datos de teléfonos móviles de casi 15 millones de personas en Kenia durante un año con las incidencias de malaria registradas para rastrear y obtener la propagación de la malaria. El resultado conseguido fue una propagación de la enfermedad de la zona del Lago Victoria a Nairobi.

big.data_.cheap_.phone_.4x299

El estudio no sólo tomó en cuenta la ubicación de los mosquitos, también de posibles portadores de la enfermedad, que no necesariamente mostrasen síntomas, ya que eran necesarios para trazar una futura pandemia.

El procedimiento del estudio de manera simplificada fue el siguiente: toda llamada hecha o texto enviado fue mapeado por 12.000 torres de telefonía móviles en 692 asentamientos. Además cuando una persona salía de su vivienda, la duración del viaje y el lugar de destino al que iba eran calculados, de la misma manera se calculaba la probabilidad de que el residente estuviese infectado así como la probabilidad de que pudiese infectar a otras personas.

Con todo este conjunto de información, los investigadores pudieron construir un mapa predictivo con el movimiento de la malaria. Desde donde se originaba hasta el área que se extinguía.

Fuentes:

Artículo completo en inglés: technology review

Artículo completo en español: technology review es

Autor: A. Balagot

BIG DATA: BIG HYPE

Imagen

¿Realmente está sobrevalorado el Big Data? Últimamente se han escrito varios artículos criticando el Big Data. La existencia de cierto hype rodea al Big Data y los Data Scientist respecto a la prometida resolución de problemas empresariales y sociales, grandes y pequeños. Pero,  ¿cuál es la realidad? ¿Cómo es de certero o engañoso el mensaje que está transmitiendo Big Data? ¿Cómo está ayudando o dañando a las personas?  El siguiente artículo muestra el punto de vista escéptico y un resumen de las críticas recibidas hacia el Big Data.

A continuación se muestran los errores o quejas acerca del Big Data:

A) Big Data se ajusta y depende más en la correlación en lugar de la causalidad

Esta afirmación es cierta. Es cierto también afirmar que Big Data también significa más variables, más observaciones, más tipos de de observaciones, más herramientas para manipular todo el conjunto en sí. Por lo tanto el hecho de que haya más correlaciones será debido a la gran cantidad de falsos resultados positivos, sin embargo pueden haber otros resultados como errores de tipo I o con ruido incluido por ejemplo.

B) Web Data es sinónimo de Big Data

Totalmente falso. Web Data es una parte del Big Data. Datos y métodos proporcionados por webs y redes sociales son una fuente más de información, no son el reemplazo ni usurparán a los servicios y métodos tradicionales conocidos.

C) El objetivo de Big Data es encontrar oro

Big Data no trata únicamente de buscar información relevante a través de la exploración, no es minería de datos. De la misma manera, la minería de datos no es exclusiva al Big Data. Ejemplos como Hadoop demuestran otro enfoque al Big Data, el objetivo de poder almacenar un cantidad mayor de datos y de forma mucho más rápida.

D) No conocer las expectativas reales de Big Data

La siguiente frase va dirigida a todos los CIOs: “Failing to plan is planning to fail”. Cualquier experto en TI debería plantearse y planear cuáles son las necesidades de su empresa respecto a Big Data. Se están dando casos de  grandes corporaciones implementando clusters Hadoop más por obligación que por sentido común (Hace dos décadas pasó algo similar con los ERPs, muchas empresas quisieron integrar un ERP pero la falta de planificación y gestión al cambio llevaron a la tumba a esas empresas). Y a su vez, contratando analistas de datos porque no tienen ni idea del tipo de problemas que quieren analizar y solucionar.

De manera concluyente se podría decir que Big Data no es ni nunca ha sido fácil, simple ni tampoco los datos incluidos son totalmente perfectos. En ningún momento se dijo que funciona por arte de magia, aún así, puede marcar la diferencia y usándolo de manera apropiada puede señalar el camino correcto.

Artículos críticos con Big Data:

Autor: A. Balagot

¿Está retando MongoDB a Oracle?

Todos sabemos que Oracle domina el mercado de bases de datos sin embargo el mundo del negocio va cambiando rápida y constantemente. Cada vez aparecen nuevos requisitos, funcionalidades, necesidades… que las bases de datos relacionales no pueden cubrir. Y han empezado a surgir también nuevas alternativas como MongoDB para pequeñas empresas y también no tan pequeñas. Este artículo trata sobre un caso de éxito de Telefónica con la colaboración de MongoDB.

Contexto

Telefónica es una de las cinco mejores compañías en telecomunicación mundial, opera en 7 países europeos,  15 en Latinoamérica y  también con presencia en Estados Unidos.

El departamento de I+D es el encargado del desarrollo de servicios y productos, investigación, estrategia tecnológica, user experience… Y por lo tanto también se encarga de todo lo relacionado con bases de datos.

Primer problema – Irlanda

Irlanda requería de un nuevo modelo SQL Oracle de datos capaz de integrar diferentes servicios, usuarios, perfiles. Telefónica ofreció una solución SQL sin embargo tenía problemas de integración, batch problems y  un rendimiento nefasto (más de 24h para cargar el Data Warehouse entero). En consecuencia Irlanda denegó la solución proporcionada por Telefónica.

Telefónica lo intentó de nuevo y aunque mejoraron los procesos Batch de las bases de datos seguía teniendo unos tiempos enormes e Irlanda volvió a denegar la solución. Sin embargo, la tercera versión ofrecida por la empresa de telecomunicación fue un éxito, siguieron mejorando los procesos batch e Irlanda finalmente aceptó la solución ofrecida.

Segundo problema – Reino Unido

El siguiente país a mejorar su modelo de datos era el Reino Unido. Telefónica utilizó la misma solución que le dió éxito en Irlanda y les funcionó. La siguiente tabla muestra una comparativa de rendimiento en tiempo y el tamaño de las bases de datos en cada país.

Imagen

Tercer problema – México

El siguiente país a implantar la solución era México, sin embargo dado la gran cantidad de datos a tratar (más de 20 millones de clientes) se veía claramente que la solución SQL de Oracle era inviable.

Solución NoSQL – MongoDB

La gran empresa de telecomunicaciones no podía echarse atrás ya que si desistía en México, perdería credibilidad y la oportunidad de mantener como clientes a los demás países Latinoamericanos.

En ese momento se cambia de estrategia y se decide utilizar como base de datos MongoDB en lugar de Oracle. Se modifica el modelo datos ya que se basa en MongoDB y se prueba con éxito en Irlanda y Reino Unido con éxito. El rendimiento es increíble en comparación con la solución SQL de Oracle y se decide utilizar también en México. La siguiente tabla muestra la comparación entre la versión de MongoDB (NoSQL) y la versión de Oracle (SQL):

 Imagen

Conclusión

¿Es mejor MongoDB (NoSQL) que Oracle (SQL)? La respuesta  es no. Como ya comenté en un artículo anterior, cada base de datos se creó para solucionar  un tipo de problema específico En este caso particular MongoDB es la solución. Este problema estaba asociado básicamente a grandes cantidades de datos y datos no estructurados, características idóneas para bases de datos NoSQL como MongoDB.

Aún así, no todo es perfecto en el mundo de MongoDB. De la misma manera que las bases relacionales de Oracle, MongoDB tiene sus contras e inconvenientes pero ya se comentará más adelante…

Autor: A. Balagot

BIG DATA: ¿problema u oportunidad?

Diversos técnicos especializados en el análisis y procesamiento de datos afirman que Big Data no puede ser considerada como una ciencia, sino que no es más que un simple problema. La justificación que dan es que el crecimiento exponencial de los datos durante la última década ha dificultado las tareas de análisis debido a las tres características de Big Data: volumen, velocidad y variedad. Personalmente, no coincido en esta simplificada definición y voy a justificarlo con un simple ejemplo relacionado con social media. Empecemos introduciendo las dimensiones de social media para poder llegar a una definición más concreta de Big Data.

Desde el origen de Facebook, en 2006, no ha parado de crecer el número de perfiles creados hasta rebasar los mil millones. Para entender la magnitud de este número sólo hay que pensar en el número de personas que hay en la Tierra, que son aproximadamente siete mil millones, a las que debemos restar los países donde Facebook está censurado (ej: China), poblaciones sin acceso a internet, los niños, etc. Al final te acabas dando cuenta de que la mayoría de los individuos con posibilidad de acceso a Facebook tienen un perfil. He hablado de Facebook como ejemplo representativo, pero podríamos decir lo mismo de otras redes sociales como Twitter, LinkedIn, Youtube y muchas más. En la siguiente imagen veréis una famosa representación de la explosión de datos en la que aparecen diversas menciones a social media. Se representan las cantidades de datos que se generan cada minuto a nivel mundial:

Imagen

¿Por qué digo todo esto? ¿Qué tiene que ver la generación de datos de social media con la definición de Big Data? La respuesta es que esta cantidad de datos no representa sólo un problema en sí, sino también oportunidades de negocio. Social media nos permite obtener información muy poderosa que puede ser de interés de cualquier tipo de individuo u organización. Por ejemplo, una firma puede estar interesada en saber que se comenta sobre ella en las redes sociales para así poder centrar sus productos a las necesidades de sus consumidores. Por otro lado, los partidos políticos pueden estar interesados en saber que políticas generan más indignación en las redes sociales para así poder cambiar su estrategia electoral. Lo que quiero decir es que Big Data no puede ser definida simplemente como problema, a pesar que su obtención y análisis supongas inconvenientes (las tres Vs), porque Big Data ha permitido crear oportunidades de negocio dando la posibilidad a las empresas, asociaciones, instituciones públicas, etc. a conocer más la sociedad y así poder actuar en consecuencia de sus necesidades.

En conclusión, hay que diferenciar dos partes importantes de Big Data: la primera es la relacionada con las herramientas técnicas utilizadas en su análisis; y la segunda, relacionada con las consecuencias que ha generado el desarrollo de esta ciencia. Está claro que en el primer caso se generan diversos problemas relacionados, por ejemplo, con el almacenamiento de datos. Pero debemos ir más allá de estos problemas y saber ver las oportunidades que se generan. Estas oportunidades también forman parte del desarrollo de Big Data y deben tenerse en cuenta en su definición.

Autor: Daniel Bestard Delgado