Obdelava velikih podatkov je eden od kritičnih vidikov te digitalne dobe. Podjetja uporabljajo več umetne inteligence, strojnega učenja in analitike podatkov, ki proizvajajo in zbirajo več podatkov. Zato ima za posledico ogromne količine podatkov ki jih je treba učinkovito poizvedovati in analizirati.
Tukaj lahko pomagata računalništvo v oblaku in Presto.
Kaj je Presto?
V skladu z definicijo Amazon AWS: Presto je porazdeljeni poizvedbeni mehanizem SQL, ustvarjen za izvajanje hitrih analitičnih poizvedb na nizih podatkov katere koli velikosti. Konec leta 2020 je bil preimenovan v Trino, da bi projekt ločil od Prestodb.
Presto ima prednost, da je odprtokoden, kar pomeni, da se redno posodablja in razvijalci k temu pogosto prispevajo.
Platforma Presto deluje z nerelacijski viri podatkov kot:
- Amazon S3
- Hadoop
- HDFS
- MongoDB
- HBase
in relacijske baze podatkov kot:
- Moj prostor
- PostgresSQL in
- MS SQL Server
Z Presto, lahko poizvedujete po podatkih, kjer koli so shranjeni. To pomeni, da vam podatkov ni treba prenesti v relacijsko bazo podatkov ali podatkovno skladišče. Presto je bil ustvarjen za SQL in podpira standardno semantiko SQL. To vključuje podpoizvedbe, zapletene poizvedbe, zunanje združitve, različna števila in približne percentile.
Izvajanje poizvedb je tudi hitrejše, saj poteka vzporedno z arhitekturo, ki temelji na pomnilniku. Zato vam ni več treba skrbeti, kako dolgo bi lahko trajalo poizvedovanje po obsežni bazi podatkov. Rezultati se vrnejo v nekaj sekundah.
Naučite se kako namestiti Presto in njegovo arhitekturo na njihovi dokumentaciji.
Preberite tudi: Kako posodobiti gonilnike naprav v sistemu Windows 10? {Preprost vodnik}
Ključni koncepti
Ključni koncepti SQL so splošno znani. Da bi razumeli, kako deluje Presto, moramo najprej razumeti njegove osnovne koncepte.
Vrste strežnikov
Presto uporablja dve vrsti strežnikov: koordinatorka strežnik in delavec strežnik. Delovna vozlišča obdelujejo poizvedbe in pridobivajo podatke iz povezovalnikov. Koordinator pridobi rezultate in jih pošlje stranki. Koordinatorski strežniki tudi razčlenjujejo izjave in upravljajo vozlišča.
Deluje podobno kot sistemi za upravljanje baz podatkov Massive Parallel Processing.
Vir slike: tutorialspoint
Presto uporablja konektorje za povezavo med porazdeljenim sistemom in izvorom, na primer Amazon S3. Številni konektorji Presto za relacijske in nerelacijske vire omogočajo, da je sistem razširljiv na skoraj vsak vir podatkov.
Preberite tudi: Kako posodobiti gonilnike v sistemu Windows 10,8,7 – Posodobite gonilnike naprav
Kako Presto obdela poizvedbe?
Ko presto prejme poizvedbo, jo izvede tako, da jo razdeli na več stopenj. Običajno sistem ustvari korensko stopnjo in povezane stopnje. Faze se nato porazdelijo v naloge po delovnih vozliščih.
Prednosti uporabe Presto
Presto postaja zelo priljubljen pri velikih podjetjih, kot so Netflix, Facebook, Atlassian in Airbnb. Facebook na primer uporablja Presto za obdelavo enega petabajta podatkov vsak dan, pri čemer izvaja več kot 30.000 poizvedb.
Presto vključuje dva ločena odprtokodna projekta: PrestoSQL (sedaj imenovan Trino) in PrestoDB. Je zelo priljubljen za širok nabor primerov uporabe, v različnih vrstah podatkovnih jezer in podatkovnih skladišč. Oglejmo si nekaj prednosti, zaradi katerih je Presto tako priljubljen.
1. Enostavna integracija
Ena od ključnih prednosti Presto je, da se integrira z vašim obstoječim podatkovnim sistemom brez potrebe po spremembah. Zato z dodajanjem Presto dodate zmogljivosti hitre analitike, ne da bi vam bilo treba prilagajati obstoječi sistem.
2. Hitrejše delovanje
Eden od razlogov, zakaj je bil Presto razvit, je bil, ker obstoječi Apache Hive ni dobro uspel z interaktivnimi poizvedbami. Presto je zasnovan za obdelavo interaktivnih BI poizvedb. Poleg tega sledi potisnemu modelu, pri čemer obdela poizvedbo SQL z uporabo več stopenj hkrati, kar pomeni, da so vse stopnje cevovodne brez čakanja med fazami.
Presto ima tudi prenos podatkov iz pomnilnika v pomnilnik, brez potrebe po zapisovanju podatkov na disk, kar izboljša zmogljivost.
3. Zasnovan za oblak
Presto poganja shranjevanje in računa ločeno, zaradi česar je zelo primeren za okolja v oblaku. Podjetja, ki uporabljajo PrestoSQL, se lahko enostavno povečajo ali zmanjšajo, odvisno od obremenitve, ne da bi pri tem povzročila izgubo podatkov. To se lahko zgodi, ker gruča Presto ne shranjuje nobenih podatkov.
4. Poenoten vmesnik SQL
SQL je najbolj priljubljen jezik za analitiko podatkov. Podatkovni znanstveniki, analitiki in inženirji uporabljajo SQL za obdelavo, analizo in testiranje podatkov ter jih integrirajo z orodji poslovne inteligence.
Presto ima možnost ne samo poizvedovanja po podatkih iz virov SQL, temveč tudi iz baz podatkov NoSQL, kot sta Elasticsearch in Cassandra. Podpira povezljivost ANSI-SQL in Postgres. To daje Presto vsestranskost, ki je drugi porazdeljeni sistemi nimajo.
Vmesnik je idealen za srednje velike podatke, ker ima enak Okenske funkcije ki jih ima PostgreSQL.
Preberite tudi: Kako posodobiti grafične gonilnike v sistemu Windows 10 {Simple Guide}
Za kaj lahko uporabljate Presto?
Presto se uporablja v različnih panogah za najrazličnejše primere uporabe. Še posebej je primeren za ad-hoc in interaktivne poizvedbe. Raziščimo nekaj pogostih primerov uporabe:
Analiza podatkovnega jezera
PrestoSQL lahko uporabite za poizvedovanje po podatkih v podatkovnem jezeru, ne da bi jih bilo treba preoblikovati. Presto vam omogoča poizvedovanje po podatkih, kje se nahajajo. Zato ga lahko uporabite za pooblastitev analitike podatkovnega jezera s poizvedovanjem po strukturiranih in nestrukturiranih podatkih.
Ad hoc poizvedovanje
Presto vam omogoča, da kadar koli izvajate poizvedbe, ne glede na to, kje so vaši podatki. Še bolje, s priključki Presto lahko vaše ekipe dostopajo do podatkovnih nizov v širokem razponu podatkovnih virov in ker se poizvedbe izvajajo v sekundah namesto v urah, vaš sistem deluje hitreje.
Paket ETL
Namesto uporabe starih sistemov za paketno obdelavo lahko uporabite Presto za zagon poizvedb, ki so učinkovite pri virih. Podatke lahko združite iz več podatkovnih virov in izvedete visoko zmogljive poizvedbe.
Če povzamemo, ima Presto več prednosti za podjetja, ki morajo obdelovati velike količine podatkov, izvajati ad hoc, interaktivne poizvedbe in izvajati analitiko iz različnih podatkovnih virov.