Presto SQL, sada Trino, donosi snagu motora upita za analizu velikih podataka

Obrada velikih podataka jedan je od kritičnih aspekata ove digitalne ere. Tvrtke koriste više umjetne inteligencije, strojnog učenja i analize podataka, koje proizvode i prikupljaju više podataka. Stoga rezultira ogromne količine podataka koje treba ispitati i učinkovito analizirati.

Evo gdje računarstvo u oblaku i Presto mogu pomoći.

Sadržajpokazati
Što je Presto?
Ključni koncepti
Vrste poslužitelja
Kako Presto obrađuje upite?
Prednosti korištenja Presto
1. Jednostavna integracija
2. Brža izvedba
3. Dizajniran za oblak
4. Unificirano SQL sučelje
Za što možete koristiti Presto?
Analiza jezera podataka
Ad hoc upit
Batch ETL

Što je Presto?

Prema definiciji Amazon AWS: Presto je distribuirani SQL mehanizam za upite, stvoren za izvođenje brzih analitičkih upita na skupovima podataka bilo koje veličine. Rebrandiran je krajem 2020. u Trino kako bi se projekt odvojio od Prestodb-a.

Presto ima prednost što je otvorenog koda, što znači da se redovito ažurira i da mu programeri često doprinose.

Presto platforma radi s nerelacijski izvori podataka Kao:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

I relacijske baze podataka Kao:

  • Moj prostor
  • PostgresSQL i
  • MS SQL Server

S Presto, možete tražiti podatke gdje god da su pohranjeni. To znači da ne morate prenositi podatke u relacijsku bazu podataka ili skladište podataka. Presto je stvoren za SQL i podržava standardnu ​​SQL semantiku. To uključuje podupite, složene upite, vanjske spojeve, različite brojeve i približne percentile.

Izvršavanje upita također je brže, jer se izvodi paralelno s arhitekturom koja se temelji na memoriji. Stoga više ne morate brinuti o tome koliko bi dugo moglo potrajati da se upiti masivna baza podataka. Rezultati se vraćaju za sekunde.

Naučiti kako implementirati Presto i njegovu arhitekturu na njihovoj dokumentaciji.

Također pročitajte: Kako ažurirati upravljačke programe uređaja na Windows 10? {Jednostavan vodič}


Ključni koncepti

Ključni SQL koncepti su nadaleko poznati. Da bismo razumjeli kako Presto funkcionira, prvo moramo razumjeti njegove temeljne koncepte.

Vrste poslužitelja

Presto koristi dvije vrste poslužitelja: koordinator poslužitelj i radnik poslužitelju. Radnički čvorovi obrađuju upite, dohvaćajući podatke iz konektora. Koordinator dohvaća rezultate i šalje ih klijentu. Koordinatorski poslužitelji također analiziraju izjave i upravljaju čvorovima.

Radi slično sustavima upravljanja bazama podataka Massive Parallel Processing.

Sustavi za upravljanje bazama podataka Massive Parallel ProcessingIzvor slike: tutorialspoint

Presto koristi konektore za povezivanje između distribuiranog sustava i izvora, na primjer, Amazon S3. Prestoovi brojni konektori, za relacijske i nerelacijske izvore, čine sustav proširivim na gotovo svaki izvor podataka.

Također pročitajte: Kako ažurirati upravljačke programe na Windows 10,8,7 – Ažurirajte upravljačke programe uređaja


Kako Presto obrađuje upite?

Kada presto primi upit, izvršava ga razbijanjem u više faza. Obično sustav stvara korijensku fazu i povezane faze. Faze se zatim raspoređuju u zadatke po radničkim čvorovima.


Prednosti korištenja Presto

Presto postaje vrlo popularan kod velikih poduzeća kao što su Netflix, Facebook, Atlassian i Airbnb. Na primjer, Facebook koristi Presto za obradu jednog petabajta podataka svaki dan, izvršavajući preko 30.000 upita.

Presto uključuje dva zasebna projekta otvorenog koda: PrestoSQL (sada se zove Trino) i PrestoDB. Vrlo je popularan za široku lepezu slučajeva korištenja, u različitim vrstama podatkovnih jezera i skladišta podataka. Pogledajmo neke od prednosti koje Presto čine tako popularnim.

1. Jednostavna integracija

Jedna od ključnih prednosti Prestoa je da se integrira s vašim postojećim podatkovnim sustavom bez potrebe za modifikacijama. Stoga, dodavanjem Presto-a dodajete mogućnosti brze analitike bez potrebe za podešavanjem postojećeg sustava.

2. Brža izvedba

Jedan od razloga zašto je Presto razvijen bio je taj što postojeći Apache Hive nije dobro radio s interaktivnim upitima. Presto je dizajniran za rukovanje interaktivnim BI upitima. Osim toga, slijedi push model, obrađujući SQL upit koristeći više faza istovremeno, što znači da se sve faze provode bez čekanja između faza.

Presto također ima prijenos podataka iz memorije u memoriju, bez potrebe za pisanjem podataka na disk, poboljšavajući performanse.

3. Dizajniran za oblak

Presto zasebno pokreće pohranu i računa, što ga čini vrlo prikladnim za okruženja u oblaku. Tvrtke koje koriste PrestoSQL mogu lako povećati ili smanjiti ovisno o opterećenju bez uzroka gubitka podataka. To se može dogoditi jer Presto klaster ne pohranjuje nikakve podatke.

4. Unificirano SQL sučelje

SQL je najpopularniji jezik za analizu podataka. Podatkovni znanstvenici, analitičari i inženjeri koriste SQL za obradu, analizu i testiranje podataka, integrirajući ih s alatima poslovne inteligencije.

Presto ima sposobnost ne samo da traži podatke iz SQL izvora već i iz NoSQL baza podataka kao što su Elasticsearch i Cassandra. Podržava ANSI-SQL i Postgres povezivost. To Presto daje svestranost koju drugi distribuirani sustavi nemaju.

Sučelje je idealno za podatke srednje veličine jer ima isto Funkcije prozora koji PostgreSQL ima.

Također pročitajte: Kako ažurirati grafičke upravljačke programe u sustavu Windows 10 {Simple Guide}


Za što možete koristiti Presto?

Presto se koristi u raznim industrijama za širok raspon slučajeva upotrebe. Posebno je prikladan za ad-hoc i interaktivne upite. Istražimo neke uobičajene slučajeve upotrebe:

Analiza jezera podataka

Možete koristiti PrestoSQL za upite podataka u podatkovnom jezeru bez potrebe za transformacijom podataka. Presto vam omogućuje da tražite podatke gdje se nalaze. Stoga ga možete koristiti za osnaživanje analitike vašeg podatkovnog jezera ispitivanjem strukturiranih i nestrukturiranih podataka.

Ad hoc upit

Presto vam omogućuje pokretanje upita bilo kada bez obzira na to gdje se vaši podaci nalaze. Još bolje, s Presto konektorima, vaši timovi mogu pristupiti skupovima podataka u širokom rasponu izvora podataka, a budući da se upiti izvode u sekundama umjesto satima, vaš sustav radi brže.

Batch ETL

Umjesto korištenja naslijeđenih sustava skupne obrade, možete koristiti Presto za pokretanje upita koji su učinkoviti na resursima. Možete agregirati podatke iz više izvora podataka i provoditi upite visoke propusnosti.

Ukratko, Presto ima nekoliko prednosti za tvrtke koje trebaju obraditi velike količine podataka, provoditi ad hoc, interaktivne upite i izvoditi analitiku iz različitih izvora podataka.