Presto SQL, nu Trino, brengt de kracht van Big Data Analytics Query Engines

Big data-verwerking is een van de kritieke aspecten van dit digitale tijdperk. Bedrijven gebruiken meer kunstmatige intelligentie, machine learning en data-analyse, die meer data produceren en verzamelen. Daarom resulteert het in enorme hoeveelheden gegevens die efficiënt moet worden opgevraagd en geanalyseerd.

Hier kunnen cloud computing en Presto helpen.

Inhoudsopgavelaten zien
Wat is Presto?
Sleutelbegrippen
Servertypen
Hoe verwerkt Presto vragen?
Voordelen van het gebruik van Presto
1. Eenvoudige integratie
2. Snellere prestaties
3. Ontworpen voor de cloud
4. Uniforme SQL-interface
Waarvoor kunt u Presto gebruiken?
Data lake-analyse
Ad hoc zoekopdrachten
Batch-ETL

Wat is Presto?

Volgens Amazon AWS-definitie: Presto is een gedistribueerde SQL-query-engine, gemaakt om snelle analytische query's uit te voeren op datasets van elke grootte. Het werd eind 2020 omgedoopt tot Trino om het project van Prestodb te scheiden.

Presto heeft het voordeel dat het open-source is, wat betekent dat het regelmatig wordt bijgewerkt en dat ontwikkelaars er vaak aan bijdragen.

Het Presto-platform werkt met: niet-relationele gegevensbronnen Leuk vinden:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

En relationele databases Leuk vinden:

  • Mijn ruimte
  • PostgresSQL en
  • MS SQL-server

Met Presto, kunt u gegevens opvragen waar deze ook zijn opgeslagen. Dat betekent dat u de gegevens niet hoeft over te zetten naar een relationele database of datawarehouse. Presto is gemaakt voor SQL en ondersteunt standaard SQL-semantiek. Dit omvat subquery's, complexe query's, outer joins, verschillende aantallen en geschatte percentielen.

Het uitvoeren van query's gaat ook sneller, omdat het parallel loopt aan een op geheugen gebaseerde architectuur. Daarom hoeft u zich geen zorgen meer te maken over hoe lang het kan duren om een ​​enorme database te doorzoeken. De resultaten komen binnen enkele seconden terug.

Leren hoe Presto te implementeren en de architectuur op hun documentatie.

Lees ook: Hoe apparaatstuurprogramma's op Windows 10 bij te werken? {Eenvoudige gids}


Sleutelbegrippen

De belangrijkste SQL-concepten zijn algemeen bekend. Om te begrijpen hoe Presto werkt, moeten we eerst de kernconcepten begrijpen.

Servertypen

Presto gebruikt twee servertypes: de coördinator server en de arbeider server. De werkknooppunten verwerken de query's en halen gegevens op van de connectors. De coördinator haalt de resultaten op en stuurt deze naar de opdrachtgever. Coördinatorservers ontleden ook instructies en beheren knooppunten.

Het werkt vergelijkbaar met Massive Parallel Processing databasebeheersystemen.

Massive Parallel Processing databasebeheersystemenAfbeeldingsbron: tutorialspoint

Presto gebruikt connectoren om te koppelen tussen het gedistribueerde systeem en de bron, bijvoorbeeld Amazon S3. De talrijke connectoren van Presto, naar relationele en niet-relationele bronnen, maken het systeem uitbreidbaar naar bijna elke gegevensbron.

Lees ook: Stuurprogramma's bijwerken op Windows 10,8,7 - Apparaatstuurprogramma's bijwerken


Hoe verwerkt Presto vragen?

Wanneer presto een query ontvangt, voert het deze uit door deze in meerdere fasen op te splitsen. Gewoonlijk creëert het systeem een ​​wortelstadium en gerelateerde stadia. De fasen worden vervolgens verdeeld in taken over de werkknooppunten.


Voordelen van het gebruik van Presto

Presto wordt erg populair bij grote ondernemingen zoals Netflix, Facebook, Atlassian en Airbnb. Facebook gebruikt bijvoorbeeld Presto om elke dag één petabyte aan gegevens te verwerken, met meer dan 30k zoekopdrachten.

Presto omvat twee afzonderlijke open-sourceprojecten: PrestoSQL (nu Trino genoemd) en PrestoDB. Het is erg populair voor een breed scala aan gebruiksscenario's, in verschillende soorten datameren en datawarehouses. Laten we eens kijken naar enkele van de voordelen die Presto zo populair maken.

1. Eenvoudige integratie

Een van de belangrijkste voordelen van Presto is dat het zonder aanpassingen kan worden geïntegreerd met uw bestaande datasysteem. Door Presto toe te voegen, voegt u daarom snelle analysemogelijkheden toe zonder dat u uw bestaande systeem hoeft aan te passen.

2. Snellere prestaties

Een van de redenen waarom Presto is ontwikkeld, was omdat de bestaande Apache Hive niet goed presteerde met interactieve zoekopdrachten. Presto is ontworpen om interactieve BI-query's af te handelen. Bovendien volgt het het push-model, waarbij een SQL-query gelijktijdig met meerdere fasen wordt verwerkt, wat betekent dat alle fasen worden gepijplijnd zonder tussen fasen te wachten.

Presto heeft ook geheugen-naar-geheugen gegevensoverdracht, zonder de noodzaak om gegevens naar schijf te schrijven, wat de prestaties verbetert.

3. Ontworpen voor de cloud

Presto voert opslag en rekenkracht apart uit, wat het zeer geschikt maakt voor cloudomgevingen. Bedrijven die PrestoSQL gebruiken, kunnen gemakkelijk omhoog of omlaag schalen, afhankelijk van de belasting, zonder dat er gegevens verloren gaan. Dit kan gebeuren omdat het Presto-cluster geen gegevens opslaat.

4. Uniforme SQL-interface

SQL is de meest populaire taal voor data-analyse. Gegevenswetenschappers, analisten en technici gebruiken SQL voor het verwerken, analyseren en testen van gegevens en integreren deze met business intelligence-tools.

Presto kan niet alleen gegevens uit SQL-bronnen opvragen, maar ook uit NoSQL-databases zoals Elasticsearch en Cassandra. Het ondersteunt ANSI-SQL- en Postgres-connectiviteit. Dit geeft Presto een veelzijdigheid die andere gedistribueerde systemen niet hebben.

De interface is ideaal voor middelgrote gegevens omdat deze hetzelfde heeft Vensterfuncties die PostgreSQL heeft.

Lees ook: Grafische stuurprogramma's bijwerken in Windows 10 {Eenvoudige handleiding}


Waarvoor kunt u Presto gebruiken?

Presto wordt in verschillende sectoren gebruikt voor een breed scala aan gebruikssituaties. Het is vooral geschikt voor ad-hoc en interactieve vragen. Laten we enkele veelvoorkomende gebruiksscenario's bekijken:

Data lake-analyse

U kunt PrestoSQL gebruiken om gegevens op een data lake op te vragen zonder dat u de gegevens hoeft te transformeren. Met Presto kunt u gegevens opvragen waar deze zich bevinden. Daarom kunt u het gebruiken om uw data lake-analyses kracht bij te zetten door gestructureerde en ongestructureerde gegevens op te vragen.

Ad hoc zoekopdrachten

Met Presto kunt u op elk moment query's uitvoeren, ongeacht waar uw gegevens zich bevinden. Nog beter, met Presto-connectoren hebben uw teams toegang tot datasets in een breed scala aan gegevensbronnen, en aangezien query's in seconden worden uitgevoerd in plaats van uren, presteert uw systeem sneller.

Batch-ETL

In plaats van verouderde batchverwerkingssystemen te gebruiken, kunt u Presto gebruiken om query's uit te voeren die efficiënt zijn voor resources. U kunt gegevens uit meerdere gegevensbronnen aggregeren en query's met hoge doorvoer uitvoeren.

Samengevat heeft Presto verschillende voordelen voor bedrijven die grote hoeveelheden gegevens moeten verwerken, ad hoc, interactieve zoekopdrachten moeten uitvoeren en analyses moeten uitvoeren vanuit verschillende gegevensbronnen.