O que é Hadoop?

Hadoop é um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

O projeto Apache Hadoop ™ ® desenvolve software de código aberto para escalável, computação confiável, distribuído.

É um framework que permite o processamento distribuído de grandes conjuntos de dados em clusters de computadores usando modelos de programação simples. Ele é projetado para ampliar a partir de um único servidor para milhares de máquinas, cada um oferecendo computação e de armazenamento local. Ao invés de confiar em hardware para proporcionar alta disponibilidade, a própria biblioteca é projetado para detectar e lidar com falhas na camada de aplicação, de modo que a entrega de um serviço altamente disponível no topo de um cluster de computadores, cada um dos quais pode ser propenso a falhas.

O projeto inclui os seguintes módulos:

  Hadoop Common: Os utilitários comuns que suportam os outros módulos do Hadoop.

  Sistema Hadoop Distributed Arquivo (HDFS ™): Um sistema de arquivos distribuído que fornece acesso de alta capacidade para dados de aplicativo.

  Hadoop YARN: Um framework para programação de trabalho e gestão de recursos de cluster.

Outros projetos relacionados com o Hadoop incluem:

 Ambari ™: Uma ferramenta baseada na Web para o provisionamento, gerenciamento e monitoramento de grupos, que inclui suporte para HDFS, MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Porco e Sqoop. Ambari também fornece um painel para visualização Health Cluster como heatmaps e capacidade de visualizar aplicativos MapReduce, Pig e Hive visualmente alongwith recursos para diagnosticar suas características de desempenho de uma maneira user-friendly.

Cassandra ™: Um banco de dados multi-mestre escalável sem pontos únicos de falha.

HBase ™: Um banco de dados escalável, distribuído que suporta o armazenamento de dados estruturado para grandes mesas.

Hive ™: A infra-estrutura de armazenamento de dados que fornece sumarização de dados e consultas ad hoc.

Mahout ™: A aprendizagem de máquina escalável e biblioteca mineração de dados.

Pig ™: Uma linguagem de fluxo de dados de alto nível e uma estrutura de execução para computação paralela.

Spark ™: Um motor de computação rápida e geral de dados, o Spark fornece um modelo de programação simples e expressiva que suporta uma ampla gama de aplicações, incluindo ETL, aprendizagem de máquina, processamento de fluxo, e gráfico computação.

Tez ™: Um quadro de programação de fluxo de dados generalizada, construída sobre o Hadoop YARN, que fornece um motor potente e flexível para executar um DAG arbitrária de tarefas para processar os dados, tanto de lote e casos de uso interativas. Tez está sendo adotada por Hive ™, Pig™ e outras estruturas no ecossistema Hadoop, e também por outro software comercial (por exemplo, ferramentas de ETL), para substituir o MapReduce ™ como o mecanismo de execução subjacente.

ZooKeeper ™: Um serviço de coordenação de alto desempenho para aplicações distribuídas.

 

Veja nessa página : Como colocar um ambiente de Hadoop no ar em poucos minutos