TALKREDUCE() - Business | Big Data Spain

How to integrate big data onto an analytical portal, big data benchmarking for decision making

Business

DKS EAP (Enterprise Analytical Portal) was first thought of as an integrated analytical portal; a conjunction of BI and BA products (ranging from advanced customer intelligence to marketing analytics) assembled under a unified interface, specifically designed to better assist business in their decision-making.

We believe DKS EAP is of special interest for the Big Data community nowadays since it is currently leveraging technologies such as Hadoop, Cassandra, Spark and Storm to improve its analytic capabilities. Accordingly, the talk will briefly present DKS EAP as an integrated Big Data analytic environment, focusing on how the fast-growing needs for real-time, social media and geomarketing data analysis intensified its necessity to embrace Big Data technologies.

The talk will allow the audience to dive into how the EAP - Big Data integration was done, the roles of each Big Data technology in our platform, and how this coupling enhanced the versatility of the previous product by allowing it to easily distill insights from data that formerly entailed barriers in terms of volume, variety and velocity.

We will also outline how the development of a holistic benchmarking framework (DKS Benchmarker) played a major role in the success of such integration, by helping us decide and configure the best tools for our Big Data ecosystem. Further, the talk will focus on how the above-mentioned benchmark framework was extended in order to serve as a dynamic and generalized tool for selecting, configuring, optimizing and scaling Big Data environments with regards to clients needs. By way of illustrating this fact, we will present use cases in which DKS Benchmarker generates terabytes of random test-oriented data, iteratively execute queries to multiple Big Data cluster configurations, and ultimately export test results in the form of JSON files with the aim of facilitating its storage, further analysis and visualization.

EAP’s Client-API-Server architecture will be discussed and graphically explained, allowing the audience to see the inner organs of the product, their relationships and the thought-process behind them. EAP’s Big Data modules and their role within the EAP ecosystem will have special emphasis, and current solutions for the integration will be detailed and defended over other discarded alternatives.

Lastly, real use cases of DKS EAP will be presented to the audience, demonstrating how the product manages to adapt to the specific necessities of each individual client. Accompanying performance results will serve as illustrative examples on how strategies, scaling and specific tools are decided for each case, assessing alternatives coming from both the pre- and post- Big Data EAP versions.

Isaac Ciprés

DatKnoSysCTO

Lo que Twitter revela del paro en España

Business

La adopción generalizada por parte de la población de las diferentes tecnologías electrónicas y digitales así como su penetración en la vida diaria de cada individuo ha permitido un estudio del comportamiento humano en unos niveles sin precedentes, dejando al descubierto unos patrones subyacentes de actividad, movilidad y comunicación interpersonal humana nunca vistos hasta ahora.

Teléfonos móviles, transacciones bancarias, o redes sociales se han convertido no solo en las nuevas formas de comunicación, sino en una enorme fuente de información en donde reflejamos nuestra vida diaria: los registros de llamadas que hacemos y que almacenan información sobre a quién llamamos; las transacciones del banco que esconden información sobre nuestros intereses así como nuestro nivel económico o las reclamaciones y opiniones que expresamos públicamente en redes sociales son solo algunos ejemplos de ello.

En definitiva, tecnologías que además de ofrecer buenos servicios al usuario final, también proporcionan a las empresas poderosas fuentes de información. Para esta charla, ponemos el foco en las redes sociales, y presentamos un trabajo en donde investigamos si la información aportada por los usuarios a Twitter puede conducir a la monitorización y a la predicción de la situación económica de las diferentes regiones de nuestro país.

Para el estudio se ha utilizado un dataset a nivel de país procedente de redes sociales, donde hemos cuantificado características de comportamiento de más de 145 millones de mensajes geolocalizados distribuidos entre más de 340 regiones económicas diferentes de España, inferidos mediante el cálculo de movilidad entre comunidades.

A partir de estos datos, calculamos s variables relacionadas con ciertas características que suelen mantener un fuerte vínculo con la economía en general. En ese sentido, se puede extraer de los tuits geolocalizados, por un lado, cómo los usuarios se mueven entre las diferentes ciudades españolas, y por otro, si cometen o no errores ortográficos y/o gramaticales en los mensajes publicados, lo que nos permite inferir el nivel de desempleo de una determinada región. Asimismo, a partir de las interacciones sociales realizadas en Twitter por los usuarios, analizamos la diversidad de contactos que tienen en su red, indicando si esos usuarios se encuentran en una posición más favorable para atraer información y mejores oportunidades.

Finalmente, gracias a los patrones temporales podemos ver en qué momentos del día los usuarios son más activos en la red social dependiendo de la región a la que pertenezcan.

Encontramos que las regiones que presentan mayor diversidad en los flujos de movilidad, mayor actividad en las primeras horas de la mañana y un menor número de errores ortográficos por parte de los usuarios que pertenecen a ellas, presentan, a su vez, una tasa de desempleo menor.

Para concluir la charla, discutiremos sobre cómo las diferentes fuentes de información proporcionan conocimiento e información de valor sobre la población y las diferentes zonas y regiones de un país, lo que permite monitorizar la economía en lugares en donde esta tarea suele convertirse en una dificultad debido, entre otros motivos, a la economía sumergida o al subdesarrollo.

Alejandro Llorente

PiperlabCO-Founder

Analyzing organization e-mails in Near Real Time using Hadoop Ecosystem tools

Business

Para mí, como CEO, mi objetivo es maximizar mis ingresos frente a mis costes. He llegado a la conclusión que un empleado feliz me reporta hasta un 2.5% más de beneficios que un empleado a disgusto e incómodo. Uno de los factores que definen lo cómodo que se encuentra un empleado en una empresa es el entorno de trabajo.

La única manera que tengo de observar la interacción entre mis empleados es mediante el uso del correo electrónico, sin embargo, no puedo (ni debo) leer todos los e-mails y ver de qué se está hablando y cómo se relacionan estos. Los e-mails que circulan por las organizaciones son un activo atractivo y no solo por su contenido, sino por otros detalles funcionales que responden a las siguientes preguntas: ¿Qué comunidades hay en mi empresa? ¿En qué lugar se dan? ¿De qué hablan? ¿Hacen actividades juntas? ¿Tratan bien a nuestros clientes? Conociendo la respuesta a estas preguntas, podré aportar actividades o acciones que aumenten ese bienestar en el trabajo. Si quiero convencer de un cambio en mi empresa, ¿a quién me tengo que dirigir para que la noticia se esparza de forma más rápida y con mayor aceptación? ¿Quiénes son las personas más influyentes?

Por suerte, los ecosistemas Hadoop caracterizados por su polivalencia, gracias entre otras cosas a la capacidad de los clústeres donde se despliegan y a la diversidad de frameworks que lo conforman, tienen la capacidad de poder ingestar, filtrar, enriquecer... la redirección de estos correos e incluso analizarlos tanto en NRT como en batch.
En concreto planteé a mi equipo Big Data, una arquitectura basada en los ecosistemas Hadoop compuesta, para la ingesta y tratamiento en tiempo de ingesta de Agentes Flume y Kafka, y para el análisis de la información, en batch e incluso en tiempo real o NRT, mediante micro-batching, con Spark Streaming y R distribuído con HP Vertica. Estas frameworks con un poco más de detalle son:

Flume, es usado como herramienta de ingesta, filtrado y enriquecimiento. En este caso mediante un Source desarrollado adhoc se dotará a Flume la capacidad de recibir e ingestar los e-mails redireccionados a estos agentes. Además es capaz de interactuar con Kafka para derivar en ésta, la persistencia de los eventos ingestados y de escribir la información capturada y enriquecida por los interceptores en HDFS.
Kafka, es usado como un sistema distribuido de colas, basado en los conceptos de publicación y subscripción de mensajes vía tópicos que se integra con Flume para dotar a este de estabilidad y alta disponibilidad.
Spark Streaming, es usado como motor de procesado de eventos en “stream” integrado con Spark y Hadoop para cálculo de funciones comunes de análisis como agregaciones, cálculos de medias de información en ventanas temporales, enriquecimiento de la información… hasta alimentar modelos predictivos para el análisis avanzado de la información en NRT
R, es usado como software para el análisis de comunidades, modelando la red de mails (quién manda a quién) como un grafo dirigido, donde cada enlace representa el número de mails que dos personas (nodos) se mandan. Además, permite con algoritmos como N-cuts, ver qué comunidades se han formado y utilizando el contenido del mail, ver de qué se habla en cada comunidad.

Gracias a este análisis (y sin violar la privacidad de mis empleados) detecté de qué se hablaba en cada comunidad y cuántas comunidades había, y me llevé una grata sorpresa. ¡Ah! Por cierto, descubrí también que la persona más influyente no era yo, ¿quieres saber quién era?

Miguel Romero

HPHadoop Architect

Alberto de Santos

HPData Scientist Lead