Presto SQL, agora Trino, traz o poder dos mecanismos de consulta do Big Data Analytics

click fraud protection

O processamento de big data é um dos aspectos críticos desta era digital. As empresas usam mais inteligência artificial, aprendizado de máquina e análise de dados, que produzem e coletam mais dados. Portanto, resulta em grandes quantidades de dados que precisa ser consultado e analisado de forma eficiente.

É aqui que a computação em nuvem e o Presto podem ajudar.

Índiceexposição
O que é Presto?
Conceitos chave
Tipos de servidor
Como o Presto processa as consultas?
Vantagens de usar Presto
1. Integração fácil
2. Desempenho mais rápido
3. Projetado para a nuvem
4. Interface SQL unificada
Para que você pode usar o Presto?
Análise do Data Lake
Consulta ad hoc
Lote ETL

O que é Presto?

De acordo com a definição do Amazon AWS: Presto é um mecanismo de consulta SQL distribuído, criado para realizar consultas analíticas rápidas em conjuntos de dados de qualquer tamanho. Foi rebatizado no final de 2020 como Trino para separar o projeto do Prestodb.

O Presto tem a vantagem de ser de código aberto, o que significa que é atualizado regularmente e os desenvolvedores contribuem com ele com frequência.

A plataforma Presto funciona com fontes de dados não relacionais Como:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

E bancos de dados relacionais Como:

  • Meu espaço
  • PostgresSQL e
  • MS SQL Server

Com Presto, você pode consultar dados onde quer que estejam armazenados. Isso significa que você não precisa transferir os dados para um banco de dados relacional ou data warehouse. Presto foi criado para SQL e suporta a semântica SQL padrão. Isso inclui subconsultas, consultas complexas, junções externas, contagens distintas e percentis aproximados.

Executar consultas também é mais rápido, pois funciona em paralelo a uma arquitetura baseada em memória. Portanto, você não precisa mais se preocupar com quanto tempo pode demorar para consultar um banco de dados enorme. Os resultados voltam em segundos.

Aprender como implantar o Presto e sua arquitetura em sua documentação.

Leia também: Como atualizar os drivers de dispositivo no Windows 10? {Guia Simples}


Conceitos chave

Os principais conceitos de SQL são amplamente conhecidos. Para entender como o Presto funciona, primeiro precisamos entender seus conceitos básicos.

Tipos de servidor

O Presto usa dois tipos de servidor: o coordenador servidor e O trabalhador servidor. Os nós de trabalho processam as consultas, buscando dados dos conectores. O coordenador busca os resultados e os envia ao cliente. Os servidores do coordenador também analisam as instruções e gerenciam os nós.

Ele funciona de forma semelhante aos sistemas de gerenciamento de banco de dados de processamento paralelo maciço.

Sistemas de gerenciamento de banco de dados de processamento paralelo maciçoFonte da imagem: tutorialspoint

O Presto usa conectores para fazer a ligação entre o sistema distribuído e a fonte, por exemplo, Amazon S3. Os numerosos conectores do Presto, para fontes relacionais e não relacionais, tornam o sistema extensível a quase qualquer fonte de dados.

Leia também: Como atualizar drivers no Windows 10,8,7 - Atualizar drivers de dispositivo


Como o Presto processa as consultas?

Quando o presto recebe uma consulta, ele a executa dividindo-a em vários estágios. Normalmente, o sistema cria um estágio raiz e estágios relacionados. Os estágios são então distribuídos em tarefas entre os nós de trabalho.


Vantagens de usar Presto

Presto está se tornando muito popular entre grandes empresas como Netflix, Facebook, Atlassian e Airbnb. Por exemplo, o Facebook usa o Presto para processar um petabyte de dados todos os dias, executando mais de 30 mil consultas.

O Presto inclui dois projetos de código aberto separados: PrestoSQL (agora chamado de Trino) e PrestoDB. É muito popular para uma ampla variedade de casos de uso, em diferentes tipos de data lakes e data warehouses. Vejamos algumas das vantagens que tornam o Presto tão popular.

1. Integração fácil

Uma das principais vantagens do Presto é que ele se integra ao seu sistema de dados existente sem a necessidade de modificações. Portanto, ao adicionar o Presto, você adiciona recursos de análise rápida sem a necessidade de ajustar o sistema existente.

2. Desempenho mais rápido

Uma das razões pelas quais o Presto foi desenvolvido foi porque o Apache Hive existente não funcionava bem com consultas interativas. O Presto foi projetado para lidar com consultas interativas de BI. Além disso, segue o modelo push, processando uma consulta SQL usando vários estágios simultaneamente, o que significa que todos os estágios são canalizados sem esperar entre os estágios.

O Presto também possui transferência de dados de memória para memória, sem a necessidade de gravar dados no disco, melhorando o desempenho.

3. Projetado para a nuvem

Presto executa armazenamento e computação separadamente, o que o torna muito adequado para ambientes em nuvem. As empresas que usam PrestoSQL podem facilmente aumentar ou diminuir, dependendo da carga, sem causar perda de dados. Isso pode acontecer porque o cluster Presto não armazena nenhum dado.

4. Interface SQL unificada

SQL é a linguagem mais popular para análise de dados. Cientistas de dados, analistas e engenheiros usam SQL para processar, analisar e testar dados, integrando-os com ferramentas de inteligência de negócios.

Presto tem a capacidade não apenas de consultar dados de fontes SQL, mas também de bancos de dados NoSQL como Elasticsearch e Cassandra. Suporta conectividade ANSI-SQL e Postgres. Isso dá ao Presto uma versatilidade que outros sistemas distribuídos não têm.

A interface é ideal para dados de tamanho médio porque tem o mesmo Funções de janela que o PostgreSQL possui.

Leia também: Como atualizar os drivers gráficos no Windows 10 {Guia Simples}


Para que você pode usar o Presto?

O Presto é usado em vários setores para uma ampla variedade de casos de uso. É especialmente adequado para consultas ad-hoc e interativas. Vamos explorar alguns casos de uso comuns:

Análise do Data Lake

Você pode usar PrestoSQL para consultar dados em um data lake sem a necessidade de transformar os dados. O Presto permite que você consulte os dados onde eles estão. Portanto, você pode usá-lo para capacitar sua análise de data lake, consultando dados estruturados e não estruturados.

Consulta ad hoc

Presto permite que você execute consultas a qualquer momento, independentemente de onde seus dados residem. Melhor ainda, com os conectores Presto, suas equipes podem acessar conjuntos de dados em uma ampla gama de fontes de dados e, como as consultas são executadas em segundos em vez de horas, o desempenho do sistema é mais rápido.

Lote ETL

Em vez de usar sistemas de processamento em lote legados, você pode usar o Presto para executar consultas que são eficientes em recursos. Você pode agregar dados de várias fontes de dados e conduzir consultas de alto rendimento.

Em resumo, o Presto oferece várias vantagens para empresas que precisam processar grandes quantidades de dados, conduzir consultas ad hoc e interativas e executar análises de fontes de dados distintas.