Spracovanie veľkých dát je jedným z kritických aspektov tejto digitálnej éry. Spoločnosti využívajú viac umelej inteligencie, strojového učenia a analýzy údajov, ktoré produkujú a zhromažďujú viac údajov. Preto má za následok obrovské množstvo údajov ktoré je potrebné efektívne vyhľadávať a analyzovať.
Tu je miesto, kde môže cloud computing a Presto pomôcť.
Čo je Presto?
Podľa definície Amazon AWS: Presto je distribuovaný dopytovací nástroj SQL vytvorený na vykonávanie rýchlych analytických dotazov na množiny údajov akejkoľvek veľkosti. Na konci roka 2020 bol premenovaný na Trino, aby sa projekt oddelil od Prestodb.
Presto má tú výhodu, že je open-source, čo znamená, že sa pravidelne aktualizuje a vývojári doň často prispievajú.
Platforma Presto pracuje s nerelačné zdroje údajov Páči sa mi to:
- Amazon S3
- hadoop
- HDFS
- MongoDB
- HBase
A relačné databázy Páči sa mi to:
- Môj priestor
- PostgresSQL a
- MS SQL Server
S Prestomôžete vyhľadávať údaje kdekoľvek sú uložené. To znamená, že nemusíte prenášať údaje do relačnej databázy alebo dátového skladu. Presto bolo vytvorené pre SQL a podporuje štandardnú sémantiku SQL. Patria sem poddotazy, zložité dotazy, vonkajšie spojenia, odlišné počty a približné percentily.
Vykonávanie dotazov je tiež rýchlejšie, pretože beží paralelne s architektúrou založenou na pamäti. Preto sa už nemusíte starať o to, ako dlho môže dopytovanie rozsiahlej databázy trvať. Výsledky sa vrátia v priebehu niekoľkých sekúnd.
Učte sa ako nasadiť Presto a jeho architektúru na ich dokumentácii.
Prečítajte si tiež: Ako aktualizovať ovládače zariadení v systéme Windows 10? {Jednoduchá príručka}
Kľúčové pojmy
Kľúčové koncepty SQL sú všeobecne známe. Aby sme pochopili, ako Presto funguje, musíme najprv porozumieť jeho základným konceptom.
Typy serverov
Presto používa dva typy serverov: koordinátor server a pracovník server. Pracovné uzly spracúvajú dotazy a získavajú údaje z konektorov. Koordinátor prevezme výsledky a odošle ich klientovi. Koordinátorské servery tiež analyzujú príkazy a spravujú uzly.
Funguje podobne ako systémy správy databáz Massive Parallel Processing.
Zdroj obrázka: tutorialspoint
Presto používa konektory na prepojenie medzi distribuovaným systémom a zdrojom, napríklad Amazon S3. Početné konektory Presto na relačné a nerelačné zdroje umožňujú rozšíriteľnosť systému na takmer akýkoľvek zdroj údajov.
Prečítajte si tiež: Ako aktualizovať ovládače v systéme Windows 10,8,7 – Aktualizujte ovládače zariadení
Ako Presto spracováva dotazy?
Keď presto dostane dotaz, vykoná ho tak, že ho rozdelí do viacerých etáp. Typicky systém vytvára koreňové štádium a súvisiace štádiá. Etapy sú potom rozdelené do úloh cez pracovné uzly.
Výhody používania Presto
Presto sa stáva veľmi populárnym medzi veľkými podnikmi ako Netflix, Facebook, Atlassian a Airbnb. Napríklad Facebook používa Presto na spracovanie jedného petabajtu údajov každý deň, pričom vykoná viac ako 30 000 dopytov.
Presto obsahuje dva samostatné projekty s otvoreným zdrojovým kódom: PrestoSQL (teraz nazývaný Trino) a PrestoDB. Je veľmi populárny pre širokú škálu prípadov použitia v rôznych typoch dátových jazier a dátových skladov. Pozrime sa na niektoré z výhod, vďaka ktorým je Presto tak populárny.
1. Jednoduchá integrácia
Jednou z kľúčových výhod Presto je, že sa integruje s vaším existujúcim dátovým systémom bez potreby úprav. Preto pridaním Presto pridáte možnosti rýchlej analýzy bez toho, aby ste museli vylepšovať svoj existujúci systém.
2. Rýchlejší výkon
Jedným z dôvodov, prečo bolo vyvinuté Presto, bolo to, že existujúci Apache Hive nefungoval dobre s interaktívnymi dopytmi. Presto je navrhnuté na spracovanie interaktívnych BI dotazov. Okrem toho sa riadi modelom push, ktorý spracováva SQL dotaz pomocou viacerých fáz súčasne, čo znamená, že všetky fázy sú prepojené bez čakania medzi fázami.
Presto má tiež prenos údajov z pamäte do pamäte bez potreby zapisovania údajov na disk, čím sa zvyšuje výkon.
3. Navrhnuté pre cloud
Presto prevádzkuje úložisko a počíta oddelene, vďaka čomu je veľmi vhodné pre cloudové prostredia. Spoločnosti používajúce PrestoSQL môžu jednoducho škálovať nahor alebo nadol v závislosti od zaťaženia bez toho, aby spôsobili stratu údajov. Môže sa to stať, pretože klaster Presto neukladá žiadne údaje.
4. Jednotné rozhranie SQL
SQL je najobľúbenejší jazyk na analýzu údajov. Dátoví vedci, analytici a inžinieri používajú SQL na spracovanie, analýzu a testovanie údajov a integrujú ich s nástrojmi business intelligence.
Presto má schopnosť vyhľadávať údaje nielen zo zdrojov SQL, ale aj z databáz NoSQL, ako sú Elasticsearch a Cassandra. Podporuje pripojenie ANSI-SQL a Postgres. To dáva Prestu všestrannosť, ktorú iné distribuované systémy nemajú.
Rozhranie je ideálne pre stredne veľké dáta, pretože má rovnaké Funkcie okien ktorý má PostgreSQL.
Prečítajte si tiež: Ako aktualizovať ovládače grafiky v systéme Windows 10 {Jednoduchá príručka}
Na čo môžete použiť Presto?
Presto sa používa v rôznych odvetviach pre širokú škálu prípadov použitia. Je vhodný najmä pre ad-hoc a interaktívne dopyty. Pozrime sa na niektoré bežné prípady použitia:
Analýza dátového jazera
PrestoSQL môžete použiť na dopytovanie údajov v dátovom jazere bez potreby transformácie údajov. Presto vám umožňuje vyhľadávať údaje tam, kde sú. Preto ho môžete použiť na posilnenie analýzy dátového jazera dotazovaním na štruktúrované a neštruktúrované údaje.
Dopytovanie ad hoc
Presto vám umožňuje spúšťať dotazy kedykoľvek bez ohľadu na to, kde sa vaše údaje nachádzajú. Ešte lepšie je, že s konektormi Presto môžu vaše tímy pristupovať k súborom údajov zo širokej škály zdrojov údajov, a keďže sa dotazy spúšťajú v priebehu niekoľkých sekúnd a nie hodín, váš systém funguje rýchlejšie.
Dávkové ETL
Namiesto používania starších systémov dávkového spracovania môžete použiť Presto na spúšťanie dotazov, ktoré sú efektívne na prostriedky. Môžete agregovať údaje z viacerých zdrojov údajov a vykonávať vysokovýkonné dotazy.
Stručne povedané, Presto má niekoľko výhod pre spoločnosti, ktoré potrebujú spracovávať veľké množstvo údajov, vykonávať ad hoc interaktívne dopyty a spúšťať analýzy z rôznych zdrojov údajov.