Sobre Hadoop

Sobre Hadoop

Apache Hadoop, conheça mais

Apache Hadoop é uma plataforma para processamento distribuído de alta performance. Essa nova tecnologia é considerada umas das principais para utilização de Big Data

É um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

O projeto Apache Hadoop ™ ® desenvolve software de código aberto para escalável, computação confiável, distribuído.

É um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

Materiais Hadoop

Hadoop

O que é Hadoop?

Hadoop é um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

O projeto Apache Hadoop ™ ® desenvolve software de código aberto para escalável, computação confiável, distribuído.

É um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

O projeto inclui os seguintes módulos:

  Hadoop Common: Os utilitários comuns que suportam os outros módulos do Hadoop.

  Sistema Hadoop Distributed Arquivo (HDFS ™): Um sistema de arquivos distribuído que fornece acesso de alta capacidade para dados de aplicativo.

  Hadoop YARN: Um framework para programação de trabalho e gestão de recursos de cluster.

Outros projetos relacionados com o Hadoop incluem:

 Ambari ™: Uma ferramenta baseada na Web para o provisionamento, gerenciamento e monitoramento de grupos, que inclui suporte para HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Porco e Sqoop. Ambari também fornece um painel para visualização Health Cluster como heatmaps e capacidade de visualizar aplicativos MapReduce, Pig e Hive visualmente alongwith recursos para diagnosticar suas características de desempenho de uma maneira user-friendly.

Cassandra ™: Um banco de dados multi-mestre escalável sem pontos únicos de falha.

HBase ™: Um banco de dados escalável, distribuído que suporta o armazenamento de dados estruturado para grandes mesas.

Hive ™: A infra-estrutura de armazenamento de dados que fornece sumarização de dados e consultas ad hoc.

Mahout ™: A aprendizagem de máquina escalável e biblioteca mineração de dados.

Pig ™: Uma linguagem de fluxo de dados de alto nível e uma estrutura de execução para computação paralela.

Spark ™: Um motor de computação rápida e geral de dados, o Spark fornece um modelo de programação simples e expressiva que suporta uma ampla gama de aplicações, incluindo ETL, aprendizagem de máquina, processamento de fluxo, e gráfico computação.

Tez ™: Um quadro de programação de fluxo de dados generalizada, construída sobre o Hadoop YARN, que fornece um motor potente e flexível para executar um DAG arbitrária de tarefas para processar os dados, tanto de lote e casos de uso interativas. Tez está sendo adotada por Hive ™, Pig™ e outras estruturas no ecossistema Hadoop, e também por outro software comercial (por exemplo, ferramentas de ETL), para substituir o MapReduce ™ como o mecanismo de execução subjacente.

ZooKeeper ™: Um serviço de coordenação de alto desempenho para aplicações distribuídas.

 

Veja nessa página : Como colocar um ambiente de Hadoop no ar em poucos minutos

Reduza custos transferindo dados e processamento para Hadoop

Incorpore Hadoop para modernizar a sua arquitetura de dados e ter economias de custo significativas. Transfira grandes volumes de dados existentes para Hadoop, transfira cargas de trabalho de processamento e enriqueça sua arquitetura de dados com outros tipos de dados para criar um novo valor para o negócio.

As arquiteturas de dados de hoje ficam atoladas sob as cargas colocadas sobre elas. Os volumes de dados continuam a crescer consideravelmente, as cargas de trabalho de baixo valor, como ETL, consomem cada vez mais recursos de processamento e novos tipos de dados não podem ser facilmente capturados e colocados em uso. As organizações lutam com os custos crescentes, o aumento da complexidade e o desafio da expansão.

Arquitetos de dados usam Hadoop para tratar destes desafios, transferindo grandes volumes de dados para Hadoop, transferindo processos de ETL e enriquecendo arquiteturas de dados existentes com novos dados, para maior valor.

Obtenha o Informativo

Entenda como Hadoop pode se integrar com seu data center. As 20 páginas deste artigo completo explicam como criar um data lake.

 

A otimização abre novos caminhos para a eficiência

Arquive, transfira e enriqueça

ARQUIVE

Por design, Hadoop é executado em servidores simples de baixo custo e armazenamento diretamente conectado, que permite um custo geral reduzido. Quando comparada a redes de armazenamento de alto custo, a opção de trocar a computação e o armazenamento simples usando Hadoop torna-se atraente, pois permite ao usuário trocar seu hardware à medida em que seus dados crescem. Esta dinâmica de custo torna possível armazenar, processar, acessar e analisar mais dados do que nunca.

Estudo de Caso: Western Digital »

TRANSFIRA

O escopo de ELT, tarefas de análise e operações executadas pelo Depósito de Dados Corporativo (EDW) cresceu consideravelmente. A função do ELT é uma carga de trabalho de computação de valor relativamente baixo, que pode ser executada por um custo menor. Quando transferidos para Hadoop, os dados são extraídos, transformados e, em seguida, os resultados são carregados no depósito de dados. O resultado: ciclos de CPU e espaço de armazenamento importantes são liberados para as funções de valor realmente alto – análises e operações – que aproveitam melhor as suas capacidades avançadas.

Estudo de caso: Neustar »

ENRIQUEÇA

Uma incrível variedade de novos tipos de dados abre possibilidades para a análise dentro do ambiente EDW de alto desempenho. As estruturas variadas destes novos tipos de dados, no entanto, apresentam desafios para EDWs não projetados para ingerir e analisar esses formatos. Muitas organizações contam com a flexibilidade do Hadoop para capturar, armazenar e refinar esses novos tipos de dados para uso dentro do EDW. Eles se aproveitam da capacidade de definir esquema sobre leitura em Hadoop, coletando e armazenando dados em qualquer formato e criando esquemas para suportar a análise no EDW quando necessário.

Estudo de caso: Zirmed »