Presto SQL, nu Trino, bringer kraften fra Big Data Analytics-forespørgselsmotorer

Big data-behandling er et af de kritiske aspekter af denne digitale æra. Virksomheder bruger mere kunstig intelligens, maskinlæring og dataanalyse, som producerer og indsamler flere data. Derfor resulterer det i enorme mængder data der skal forespørges og analyseres effektivt.

Her er hvor cloud computing og Presto kan hjælpe.

Indholdsfortegnelseat vise
Hvad er Presto?
Nøglekoncepter
Servertyper
Hvordan behandler Presto forespørgsler?
Fordele ved at bruge Presto
1. Nem integration
2. Hurtigere ydeevne
3. Designet til skyen
4. Unified SQL interface
Hvad kan du bruge Presto til?
Analyse af datasøer
Ad hoc forespørgsel
Batch ETL

Hvad er Presto?

Ifølge Amazon AWS definition: Presto er en distribueret SQL-forespørgselsmotor, skabt til at udføre hurtige analytiske forespørgsler på datasæt af enhver størrelse. Det blev i slutningen af ​​2020 omdøbt til Trino for at adskille projektet fra Prestodb.

Presto har fordelen ved at være open source, hvilket betyder, at den opdateres regelmæssigt, og udviklere bidrager ofte til det.

Presto-platformen arbejder med ikke-relationelle datakilder synes godt om:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

Og relationelle databaser synes godt om:

  • Mit rum
  • PostgresSQL og
  • MS SQL Server

Med Presto, kan du forespørge data, uanset hvor de er gemt. Det betyder, at du ikke behøver at overføre dataene til en relationsdatabase eller datavarehus. Presto blev skabt til SQL og understøtter standard SQL-semantik. Dette inkluderer underforespørgsler, komplekse forespørgsler, outer joins, distinkte tællinger og omtrentlige percentiler.

Eksekvering af forespørgsler er også hurtigere, da det kører parallelt med en hukommelsesbaseret arkitektur. Derfor behøver du ikke længere bekymre dig om, hvor lang tid det kan tage at forespørge i en massiv database. Resultaterne kommer tilbage på få sekunder.

Lære hvordan man implementerer Presto og dens arkitektur på deres dokumentation.

Læs også: Sådan opdateres enhedsdrivere på Windows 10? {Simpel vejledning}


Nøglekoncepter

Nøgle SQL-begreber er almindeligt kendte. For at forstå, hvordan Presto fungerer, skal vi først forstå dets kernekoncepter.

Servertyper

Presto bruger to servertyper: koordinator server og arbejderen server. Arbejdernoderne behandler forespørgslerne og henter data fra connectorerne. Koordinatoren henter resultaterne og sender dem til klienten. Koordinatorservere analyserer også sætninger og administrerer noder.

Det fungerer på samme måde som Massive Parallel Processing-databasestyringssystemer.

Massive Parallel Processing database management systemerBilledkilde: tutorialspoint

Presto bruger stik til at linke mellem det distribuerede system og kilden, for eksempel Amazon S3. Prestos talrige forbindelser, til relationelle og ikke-relationelle kilder, gør systemet udvideligt til næsten enhver datakilde.

Læs også: Sådan opdaterer du drivere på Windows 10,8,7 - Opdater enhedsdrivere


Hvordan behandler Presto forespørgsler?

Når presto modtager en forespørgsel, udfører den den ved at opdele den i flere faser. Systemet opretter typisk et rodstadium og relaterede stadier. Faserne fordeles derefter i opgaver på tværs af arbejderknudepunkterne.


Fordele ved at bruge Presto

Presto er ved at blive meget populær hos store virksomheder som Netflix, Facebook, Atlassian og Airbnb. For eksempel bruger Facebook Presto til at behandle en petabyte data hver dag og kører over 30.000 forespørgsler.

Presto inkluderer to separate open source-projekter: PrestoSQL (nu kaldet Trino) og PrestoDB. Det er meget populært til en bred vifte af brugssager, på tværs af forskellige typer datasøer og datavarehuse. Lad os se på nogle af de fordele, der gør Presto så populær.

1. Nem integration

En af de vigtigste fordele ved Presto er, at den integreres med dit eksisterende datasystem uden behov for ændringer. Ved at tilføje Presto tilføjer du derfor hurtige analysemuligheder uden at skulle justere dit eksisterende system.

2. Hurtigere ydeevne

En af grundene til, at Presto blev udviklet, var, at den eksisterende Apache Hive ikke fungerede godt med interaktive forespørgsler. Presto er designet til at håndtere interaktive BI-forespørgsler. Desuden følger den push-modellen og behandler en SQL-forespørgsel ved hjælp af flere stadier samtidigt, hvilket betyder, at alle stadier er pipelinet uden at vente mellem stadier.

Presto har også hukommelse-til-hukommelse dataoverførsel uden behov for at skrive data til disk, hvilket forbedrer ydeevnen.

3. Designet til skyen

Presto kører storage og beregner separat, hvilket gør den meget velegnet til cloud-miljøer. Virksomheder, der bruger PrestoSQL, kan nemt skalere op eller ned afhængigt af belastningen uden at forårsage tab af data. Dette kan ske, fordi Presto-klyngen ikke gemmer nogen data.

4. Unified SQL interface

SQL er det mest populære sprog til dataanalyse. Datavidenskabsmænd, analytikere og ingeniører bruger SQL til at behandle, analysere og teste data og integrere dem med business intelligence-værktøjer.

Presto har evnen til ikke kun at forespørge data fra SQL-kilder, men også fra NoSQL-databaser som Elasticsearch og Cassandra. Det understøtter ANSI-SQL og Postgres-forbindelse. Dette giver Presto en alsidighed, som andre distribuerede systemer ikke har.

Grænsefladen er ideel til mellemstore data, fordi den har det samme Vindues funktioner som PostgreSQL har.

Læs også: Sådan opdaterer du grafikdrivere i Windows 10 {Simpel vejledning}


Hvad kan du bruge Presto til?

Presto bruges på tværs af brancher til en bred vifte af brugssager. Den er især velegnet til ad hoc og interaktive forespørgsler. Lad os udforske nogle almindelige use cases:

Analyse af datasøer

Du kan bruge PrestoSQL til at forespørge data på en datasø uden at skulle transformere dataene. Presto giver dig mulighed for at forespørge data, hvor de sidder. Derfor kan du bruge det til at styrke dine datasøanalyser ved at forespørge på strukturerede og ustrukturerede data.

Ad hoc forespørgsel

Presto giver dig mulighed for at køre forespørgsler når som helst, uanset hvor dine data befinder sig. Endnu bedre, med Presto-forbindelser kan dine teams få adgang til datasæt i en lang række datakilder, og da forespørgsler køres på få sekunder i stedet for timer, yder dit system hurtigere.

Batch ETL

I stedet for at bruge ældre batchbehandlingssystemer kan du bruge Presto til at køre forespørgsler, der er effektive på ressourcerne. Du kan samle data fra flere datakilder og udføre forespørgsler med høj kapacitet.

Sammenfattende har Presto flere fordele for virksomheder, der skal behandle store mængder data, udføre ad hoc, interaktive forespørgsler og køre analyser fra forskellige datakilder.