BIG DATA Y HADOOP    

 

Profesor Lic. César Martín Cruz  Salazar

 


    INTRODUCCIÓN    

 

1. Visión general de Big Data (la palabra de moda)
2. Historia de Hadoop
3. Arquitectura en detalle
4. Hadoop en la industria


 

    VISIÓN GENERAL DE BIG DATA    

 

¿Qué es Big Data?

Este concepto lo iremos desarrollando en partes:

  • Información muy grande y compleja que requieren de tecnologías especiales (Por ejemplo, Hadoop es una de estas tecnologías) para poder extraer, procesar, analizar, almacenar y ofrecer resultados que tengan valor.
    • Volumen: Muchos terabytes, petabytes, exabytes, etc.
    • Velocidad: Tiempo real.
    • Variedad: Diferentes fuentes de información datos semiestructurados, no estructurados, sensores, etc.
    • Variabilidad: Con que frecuencia cambian estos datos.

 

Elementos del Big Data

 bigdata

 


Las 3 Vs del Big Data

datavelocity

 


datodatosymasdatos


 unminuto


 enterpricebigdata


bugdatanoesparatodo


haddop


7910 exabytes en el 2015.
La data primero se tiene que almacenar.
Un cultivo hidrofonico es la mejor analogía de Big Data.
“Encontrar valor en los datos es mucho mas un proceso de cultivar que un proceso de extraer o refinar.”
Planteo de IBM:
Volumen: Terabytes a exabytes
Velocidad: Datos en movimiento
Veracidad:
Variedad:


datoselnuevopetroleo


Adopción del Bigdata

Hay muchas formas de hacerlo. Marketing, Campañas dirigidas, smartCity, Banca móvil, compartir información atraves de Apis y perfiles con otras empresas, para dar cupones de descuento, ofrecer cosas personalizadas, etc.

internetovertime


Adopción de Big Data en el Mundo

bigdataenelmundo


Adopción de Big Data en Mexico

bigdatamejico


Modelo Clasico de Minería de Datos

acmsigk


 Maduréz analítica

madurezanalitica


casodeusobigdata


arquitecturadebigdata


 

tiposdebdbd


almaceneskeyvalue


basesdedatosdocumentos


bigdatlandscape


ecosistemabigdata


Todo surgió por Google, ellos necesitaban realizar operaciones de multiplicación de grandes matrices para calcular el PageRank.
La preocupación por tratar grandes colecciones de datos, llevó a crear algoritmos y frameworks capaces de poder procesar terabytes de información. Map Reduce.
Una de las primeras aplicaciones capaces de programar MapReduce fue implementado inicialmente en Hadoop.

persona


   LA ERA DEL HADOOP    

laeraadoop

  • Es un proyecto de Apache, por eso llamado también Apache hadoop, que implementa en código abierto(desarrollado en java y de licencia libre) un framework que soporta aplicaciones distribuidas, escalables y fiables. Se trata de una arquitectura flexible y de alta disponibilidad para el cálculo a gran escala y el procesamiento de datos en una red computadores genéricas. Esto es, permite trabajar con miles de nodos y volúmenes de datos del orden de los petabytes.
  • Inspirado en las tecnologías Map Reduce de Google y Google File System(GFS).
  • Desarrollado inicialmente por Yahoo!(Doug Cutting, Mike Cafarella).
  • 2005: Doug Cutting y Michael J. Cafarella desarrollaron Hadoop para soportar distribución en el proyecto de motor de búsqueda Nutch
  • Este proyecto fue iniciado por Yahoo.
  • 2006: Yahoo luego donó el proyecto al Apache Software Foundation

dougcuting

Doug Cutting

 


googlevshadoop

 

 


    Componentes de Hadoop    

 

1haddop2


Bloques principales:

  • CORE = HDFS + Map/Reduce
  • NoSQL: Hbase, Hive, Cassandra
  • ETL: Chukwa, Flume, Sqoop
  • Computación: Pig, Hama
  • Sincronización y Configuración: Zookeeper

 


Además en Hadoop

 

Pentaho. Es la solución BI Open Source líder a nivel mundial. Se ha convertido en la gran alternativa a los costosos sistemas Business Intelligence tradicionales como Oracle, Business Objects, Cognos, Qlikview, Microstrategy.

 


componentesdelhadoop

 

 


    HADOOP    

 

Es un sistema confiable de análisis y almacenamiento compartido.
Hadoop = HDFS + MapReduce
HDFS suministra almacenamiento de datos
HDFS:Hadoop Distributed FileSystem
MapReduce suministra análisis de datos
MapReduce= Map Function + Reduce Function

HDFS.
DFS(Distributed FileSystem) es diseñado para gestión de almacenamiento de una red de computadoras.
HDFS es optimizado para almacenar archivos de gran tamaño con patrones de acceso a datos vía streaming.
HDFS ha sido diseñado para ejecutarse sobre clusteres de computadoras. Y ha sido diseñado para ser optimo en rendimiento para un patrón WORM(Write Once, Read Many times) el cual es un patrón de procesamiento de datos muy eficiente.

HDFS en los clusteres usa 2 tipos de nodos:
Namenode (nodo maestro)
Datanode (nodo esclavo)

HDFS. Datanodes
Almacena y recupera blocks cuando es solicitado por el cliente o el namenode.
Reporta al namenode periodicamente con listas de blocks que fueron almacenados.


MapReduce
MapReduce es un programa que abstrae el problema de análisis de los datos almacenados
 MapReduce transforma el problema de análisis en un proceso de computo que utiliza un conjunto de claves y valores.
 Fue diseñado para tareas que consumen varios minutos o horas sobre un conjunto de computadoras confiables dedicados conectados en una red de alta velocidad gestionado por un centro de datos maestro.

 


 

Componentes de Hadoop

namenode


  • Hive. Es una infraestructura de gran almacenamiento de datos construida en la parte alta de Hadoop para suministrar resumen de datos, query, y análisis.
  • Hbase. Una base de datos distribuida, no relacional, y open source. Modelado después del Google’s BitgTable. Escrito en Java. Se ejecuta en la parte alta de HDFS.
  • Mahout. Un machine learning algorithms distribuido y escalable sobre la plataforma Hadoop. Un trabajo en progreso. Suministra recomendaciones sobre los gustos de los usuarios.
  • Oozie. Un sistema de workflow scheduler paga gestionar los jobs de Hadoop. Una aplicación web en Java que se ejecuta en un Java servlet-container.
  • Pig. Una plataforma de alto nivel para crear programas MapReduce usando un lenguaje llamado Pig Latin. Similar a aquel de SQL para sistemas RDBMS.
  • Flume. Un servicio distribuido para recolectar, agregar, y mover grandes cantidades de datos. Tiene una simple y flexible arquitectura basado en “streaming data flow”. Robusto y tolerante a fallas.
  • Scoop. Una herramienta diseñada para eficientemente transferir datos gruesos entre Apache hadoop y almacenamientos estructurados tales como las bases de datos relacionales.

Ejemplos de Casos Prácticos

  • Netflix se preguntaba que le gustaría ver por TV a Juan Perez?. Darle recomendaciones a partir de la navegación de esa persona o darle recomendaciones a partir de personas cercanas a él que hayan visto.
  • Caso de uso de una web de viajes con muchos datos y muchos clientes(millones).
  • Como productos ofrecemos: vuelos, alquiler de coches, hoteles, etc.
  • ¿De que forma Hadoop me permite tener un mejor conocimiento de mis clientes?.¿Qué perfume se vende mas en el día del padre el de mujer o el de hombre?. De los datos resultó que se venden igual cantidad perfumes para hombres como para mujeres. Entonces, se decidió hacer una campaña de ventas orientada a mujeres. Esto es, rebajar el perfume de mujer en un 50% con el propósito de que al comprar la mujer un perfume para ella también aprovechara en comprar un perfume para su marido.El valor del perfil social. Normalmente se tienen y analizan los datos de bases transaccionales de usuarios pero no se tiene el perfil social del usuario(si son hombre o mujer, si tiene o no hijos, la edad, si es o no casado, etc.). Esto serviría para que me muestren productos que tienen que ver con mi perfil social. Una publicidad que realmente te interesa y es relevante para ti. Amazon sabe ya, que te gustaría comprar esta Navidad.
    • Aspecto de BI(en detalle: machine learning)
    • Presentación de HDFS y Map/Reduce
  • Obtener los hábitos de consumo y los intereses que tienen nos sirve para predecir el comportamiento de los usuarios. 
Desarrollo - Oficina de Servicios Web CTIC-UNI Copyright©2016 Mail: serviciosweb@uni.edu.pe