Presto SQL, nüüd Trino, toob endaga kaasa suurandmete analüüsi päringumootorite võimsuse

Suurandmete töötlemine on selle digitaalajastu üks kriitilisi aspekte. Ettevõtted kasutavad rohkem tehisintellekti, masinõpet ja andmeanalüütikat, mis toodavad ja koguvad rohkem andmeid. Seetõttu toob see kaasa tohutud andmemahud mida tuleb tõhusalt uurida ja analüüsida.

Siin võivad aidata pilvandmetöötlus ja Presto.

Sisukordnäidata

Mis on Presto?

Põhimõisted

Serveri tüübid

Kuidas Presto päringuid töötleb?

Presto kasutamise eelised

1. Lihtne integreerimine

2. Kiirem jõudlus

3. Mõeldud pilve jaoks

4. Ühtne SQL liides

Milleks saate Prestot kasutada?

Andmejärve analüüs

Ad hoc päring

Partii ETL

Mis on Presto?

Amazon AWS-i definitsiooni kohaselt: Presto on hajutatud SQL-päringumootor, mis on loodud kiirete analüütiliste päringute tegemiseks mis tahes suurusega andmekogumitele. 2020. aasta lõpus nimetati see ümber Trinoks, et eraldada projekt Prestodbist.

Presto eeliseks on see, et see on avatud lähtekoodiga, mis tähendab, et seda värskendatakse regulaarselt ja arendajad panustavad sellesse sageli.

Presto platvorm töötab mitterelatsioonilised andmeallikad nagu:

Amazon S3
Hadoop
HDFS
MongoDB
HBase

Ja relatsioonilised andmebaasid nagu:

Minu ruum
PostgresSQL ja
MS SQL Server

Koos Presto, saate teha päringuid andmetest, kus iganes need on salvestatud. See tähendab, et te ei pea andmeid relatsiooniandmebaasi või andmelattu üle kandma. Presto loodi SQL-i jaoks ja toetab standardset SQL-i semantikat. See hõlmab alampäringuid, keerulisi päringuid, väliseid liiteid, erinevaid loendusi ja ligikaudseid protsentiile.

Päringute täitmine on ka kiirem, kuna see töötab paralleelselt mälupõhise arhitektuuriga. Seetõttu ei pea te enam muretsema selle pärast, kui kaua võib tohutu andmebaasi päringute tegemine aega võtta. Tulemused tulevad sekunditega tagasi.

Õppige kuidas Presto juurutada ja selle arhitektuur nende dokumentatsioonis.

Loe ka: Kuidas värskendada seadme draivereid opsüsteemis Windows 10? {Lihtne juhend}

Põhimõisted

SQL-i võtmekontseptsioonid on laialt tuntud. Presto toimimise mõistmiseks peame kõigepealt mõistma selle põhikontseptsioone.

Serveri tüübid

Presto kasutab kahte tüüpi servereid: the koordinaator server ja töötaja server. Töötaja sõlmed töötlevad päringuid, hankides konnektoritest andmeid. Koordinaator toob tulemused ja saadab need kliendile. Koordinaatoriserverid sõeluvad ka avaldusi ja haldavad sõlme.

See toimib sarnaselt Massive Parallel Processing andmebaasihaldussüsteemidega.

Massiivse paralleeltöötlusega andmebaasihaldussüsteemid Pildi allikas: tutorialspoint

Presto kasutab konnektoreid, et ühendada hajutatud süsteemi ja allika, näiteks Amazon S3, vahel. Presto arvukad konnektorid relatsiooniliste ja mitterelatsiooniliste allikatega muudavad süsteemi laiendatavaks peaaegu iga andmeallika jaoks.

Loe ka: Draiverite värskendamine opsüsteemis Windows 10,8,7 – värskendage seadme draivereid

Kuidas Presto päringuid töötleb?

Kui presto saab päringu, täidab see selle mitmeks etapiks jagades. Tavaliselt loob süsteem juurastme ja sellega seotud etapid. Seejärel jaotatakse etapid tööliste sõlmede vahel ülesanneteks.

Presto kasutamise eelised

Presto on muutumas väga populaarseks suurte ettevõtete, nagu Netflix, Facebook, Atlassian ja Airbnb, seas. Näiteks kasutab Facebook Prestot, et töödelda iga päev ühe petabaidi andmeid, käitades üle 30 000 päringu.

Presto sisaldab kahte eraldi avatud lähtekoodiga projekti: PrestoSQL (praegu nimega Trino) ja PrestoDB. See on väga populaarne mitmesuguste kasutusjuhtude jaoks, erinevat tüüpi andmejärvedes ja andmeladudes. Vaatame mõningaid eeliseid, mis muudavad Presto nii populaarseks.

1. Lihtne integreerimine

Presto üks peamisi eeliseid on see, et see integreerub teie olemasoleva andmesüsteemiga ilma muudatusi vajamata. Seetõttu lisate Presto lisamisega kiired analüüsivõimalused, ilma et peaksite oma olemasolevat süsteemi muutma.

2. Kiirem jõudlus

Üks põhjusi, miks Presto välja töötati, oli see, et olemasolev Apache Hive ei toiminud interaktiivsete päringutega hästi. Presto on loodud interaktiivsete BI-päringute käsitlemiseks. Lisaks järgib see tõukemudelit, töödeldes SQL-päringut, kasutades samaaegselt mitut etappi, mis tähendab, et kõik etapid konveiereeritakse ilma etappide vahel ootamata.

Prestol on ka andmete edastamine mälust mällu, ilma et oleks vaja andmeid kettale kirjutada, mis suurendab jõudlust.

3. Mõeldud pilve jaoks

Presto töötab salvestusruumi ja arvutab eraldi, mis teeb selle pilvekeskkondadesse väga sobivaks. PrestoSQL-i kasutavad ettevõtted saavad olenevalt koormusest hõlpsasti skaleerida või vähendada, ilma et see põhjustaks andmete kadu. See võib juhtuda, kuna Presto klaster ei salvesta andmeid.

4. Ühtne SQL liides

SQL on andmeanalüütika kõige populaarsem keel. Andmeteadlased, analüütikud ja insenerid kasutavad SQL-i andmete töötlemiseks, analüüsimiseks ja testimiseks, integreerides selle äriteabe tööriistadega.

Prestol on võimalus mitte ainult pärida andmeid SQL-i allikatest, vaid ka NoSQL-i andmebaasidest, nagu Elasticsearch ja Cassandra. See toetab ANSI-SQL-i ja Postgresi ühenduvust. See annab Prestole mitmekülgsuse, mida teistel hajutatud süsteemidel pole.

Liides sobib ideaalselt keskmise suurusega andmete jaoks, kuna sellel on sama Akna funktsioonid mis PostgreSQL-il on.

Loe ka: Graafikadraiverite värskendamine Windows 10-s {Lihtne juhend}

Milleks saate Prestot kasutada?

Prestot kasutatakse erinevates tööstusharudes väga erinevatel kasutusjuhtudel. See sobib eriti hästi ad-hoc ja interaktiivsete päringute jaoks. Uurime mõnda levinumat kasutusjuhtu:

Andmejärve analüüs

Saate kasutada PrestoSQL-i andmete päringute tegemiseks andmejärves ilma andmeid teisendamata. Presto võimaldab teil teha päringuid andmete kohta, kus see asub. Seetõttu saate seda kasutada struktureeritud ja struktureerimata andmete päringute abil oma andmejärve analüütika tugevdamiseks.

Ad hoc päring

Presto võimaldab teil esitada päringuid igal ajal, olenemata teie andmete asukohast. Veelgi parem, Presto konnektoritega pääsevad teie meeskonnad juurde paljudes andmeallikates olevatele andmekogumitele ja kuna päringuid käivitatakse tundide asemel sekunditega, töötab teie süsteem kiiremini.

Partii ETL

Pärandpartiitöötlussüsteemide kasutamise asemel saate kasutada Prestot ressursside jaoks tõhusate päringute käitamiseks. Saate koondada andmeid mitmest andmeallikast ja teha suure läbilaskevõimega päringuid.

Kokkuvõtteks võib öelda, et Prestol on mitmeid eeliseid ettevõtetele, kes peavad töötlema suuri andmemahtusid, tegema ad hoc, interaktiivseid päringuid ja tegema analüüsi erinevatest andmeallikatest.