A Presto SQL, most már Trino, a Big Data Analytics lekérdezőmotorok erejét hozza el

A nagy adatfeldolgozás a digitális korszak egyik kritikus aspektusa. A vállalatok több mesterséges intelligenciát, gépi tanulást és adatelemzést használnak, amelyek több adatot állítanak elő és gyűjtenek. Ezért azt eredményezi hatalmas mennyiségű adat amit hatékonyan kell lekérdezni és elemezni.

Itt segíthet a számítási felhő és a Presto.

Tartalomjegyzékelőadás

Mi az a Presto?

Kulcsfogalmak

Szerver típusok

Hogyan dolgozza fel a Presto a lekérdezéseket?

A Presto használatának előnyei

1. Könnyű integráció

2. Gyorsabb teljesítmény

3. A felhőhöz tervezve

4. Egységes SQL interfész

Mire használható a Presto?

Data Lake analytics

Ad hoc lekérdezés

Batch ETL

Mi az a Presto?

Az Amazon AWS definíciója szerint: A Presto egy elosztott SQL lekérdező motor, amelyet úgy hoztak létre, hogy gyors analitikus lekérdezéseket hajtson végre bármilyen méretű adatkészleten. 2020 végén átkeresztelték Trino névre, hogy elválasztsák a projektet a Prestodb-től.

A Presto előnye, hogy nyílt forráskódú, ami azt jelenti, hogy rendszeresen frissítik, és a fejlesztők gyakran hozzájárulnak ehhez.

A Presto platform működik együtt nem relációs adatforrások mint:

Amazon S3
Hadoop
HDFS
MongoDB
HBase

És relációs adatbázisok mint:

Az én helyem
PostgresSQL és
MS SQL Server

Val vel Gyors, lekérdezheti az adatokat, bárhol tárolja azokat. Ez azt jelenti, hogy nem kell átvinnie az adatokat egy relációs adatbázisba vagy adattárházba. A Presto SQL-hez készült, és támogatja a szabványos SQL szemantikát. Ez magában foglalja az allekérdezéseket, az összetett lekérdezéseket, a külső összekapcsolásokat, a különböző számokat és a hozzávetőleges százalékpontokat.

A lekérdezések végrehajtása is gyorsabb, mivel párhuzamosan fut a memória alapú architektúrával. Ezért nem kell többé aggódnia amiatt, hogy mennyi ideig tarthat egy hatalmas adatbázis lekérdezése. Az eredmények másodpercek alatt jönnek vissza.

Tanul hogyan kell üzembe helyezni a Presto-t és architektúrája a dokumentációjukon.

Olvassa el még: Hogyan frissíthetem az eszközillesztőket Windows 10 rendszeren? {Egyszerű útmutató}

Kulcsfogalmak

A kulcsfontosságú SQL fogalmak széles körben ismertek. Ahhoz, hogy megértsük, hogyan működik a Presto, először is meg kell értenünk az alapvető fogalmakat.

Szerver típusok

A Presto két szervertípust használ: a koordinátor szerver és a munkás szerver. A munkavégző csomópontok feldolgozzák a lekérdezéseket, és adatokat kérnek le az összekötőktől. A koordinátor lekéri az eredményeket és elküldi az ügyfélnek. A koordinátori szerverek utasításokat is elemzik és csomópontokat kezelnek.

A Massive Parallel Processing adatbázis-kezelő rendszerekhez hasonlóan működik.

Massive Parallel Processing adatbázis-kezelő rendszerek Kép forrása: tutorialspoint

A Presto csatlakozókat használ az elosztott rendszer és a forrás, például az Amazon S3 közötti összekapcsoláshoz. A Presto számos csatlakozója relációs és nem relációs forrásokhoz teszi a rendszert szinte bármilyen adatforrásra kiterjeszthetővé.

Olvassa el még: Illesztőprogramok frissítése Windows 10,8,7 rendszeren – Frissítse az eszközillesztőket

Hogyan dolgozza fel a Presto a lekérdezéseket?

Amikor a presto lekérdezést kap, több szakaszra bontva végrehajtja azt. A rendszer általában létrehoz egy gyökér szakaszt és a kapcsolódó szakaszokat. A szakaszok ezután feladatokra vannak osztva a munkavégző csomópontok között.

A Presto használatának előnyei

A Presto egyre népszerűbb olyan nagyvállalatok körében, mint a Netflix, a Facebook, az Atlassian és az Airbnb. Például a Facebook a Presto segítségével naponta egy petabájtnyi adatot dolgoz fel, és több mint 30 ezer lekérdezést futtat le.

A Presto két különálló nyílt forráskódú projektet tartalmaz: a PrestoSQL-t (jelenleg Trino néven) és a PrestoDB-t. Nagyon népszerű a felhasználási esetek széles körében, különböző típusú adattókban és adattárházakban. Nézzünk meg néhány előnyt, amelyek miatt a Presto olyan népszerű.

1. Könnyű integráció

A Presto egyik legfontosabb előnye, hogy módosítások nélkül integrálható a meglévő adatrendszerbe. Ezért a Presto hozzáadásával gyors elemzési képességeket ad hozzá anélkül, hogy módosítania kellene meglévő rendszerét.

2. Gyorsabb teljesítmény

A Presto fejlesztésének egyik oka az volt, hogy a meglévő Apache Hive nem teljesített jól az interaktív lekérdezésekkel. A Presto interaktív BI-lekérdezések kezelésére készült. Emellett a push modellt követi, egy SQL-lekérdezést dolgoz fel egyidejűleg több szakasz használatával, ami azt jelenti, hogy az összes szakasz folyamatban van anélkül, hogy a szakaszok között várakozna.

A Presto memória-memória adatátvitellel is rendelkezik, anélkül, hogy adatokat kellene lemezre írnia, ami javítja a teljesítményt.

3. A felhőhöz tervezve

A Presto külön futtatja a tárolást és a számításokat, ami nagyon alkalmassá teszi felhőkörnyezetekhez. A PrestoSQL-t használó vállalatok a terheléstől függően könnyen méretezhetnek vagy csökkenthetnek anélkül, hogy adatvesztést okoznának. Ez azért fordulhat elő, mert a Presto-fürt nem tárol semmilyen adatot.

4. Egységes SQL interfész

Az SQL az adatelemzés legnépszerűbb nyelve. Az adattudósok, elemzők és mérnökök az SQL-t használják adatok feldolgozására, elemzésére és tesztelésére, integrálva az üzleti intelligencia eszközökkel.

A Presto nemcsak SQL-forrásokból tud adatokat lekérdezni, hanem NoSQL-adatbázisokból is, mint például az Elasticsearch és a Cassandra. Támogatja az ANSI-SQL és a Postgres kapcsolatot. Ez olyan sokoldalúságot biztosít a Presto számára, amellyel más elosztott rendszerek nem rendelkeznek.

Az interfész ideális közepes méretű adatokhoz, mert ugyanaz van Ablak funkciók amivel a PostgreSQL rendelkezik.

Olvassa el még: A grafikus illesztőprogramok frissítése Windows 10 rendszerben {Egyszerű útmutató}

Mire használható a Presto?

A Presto-t számos iparágban használják sokféle felhasználási célra. Különösen alkalmas ad-hoc és interaktív lekérdezésekre. Nézzünk meg néhány gyakori használati esetet:

Data Lake analytics

A PrestoSQL segítségével lekérdezhet egy adattóban lévő adatokat anélkül, hogy át kellene alakítani az adatokat. A Presto lehetővé teszi az adatok lekérdezését a helyükről. Emiatt strukturált és strukturálatlan adatok lekérdezésével lehetővé teheti a Data Lake-elemzést.

Ad hoc lekérdezés

A Presto lehetővé teszi a lekérdezések futtatását bármikor, függetlenül az adatok helyétől. Még jobb, hogy a Presto-csatlakozókkal a csapatok számos adatforrásból hozzáférhetnek az adatkészletekhez, és mivel a lekérdezések órák helyett másodpercek alatt futnak le, a rendszer gyorsabban teljesít.

Batch ETL

A régi kötegelt feldolgozó rendszerek használata helyett a Presto segítségével olyan lekérdezéseket futtathat, amelyek hatékonyak az erőforrásokon. Több adatforrásból származó adatokat összesíthet, és nagy áteresztőképességű lekérdezéseket hajthat végre.

Összefoglalva, a Presto számos előnnyel rendelkezik azon vállalatok számára, amelyeknek nagy mennyiségű adatot kell feldolgozniuk, ad hoc, interaktív lekérdezéseket kell végrehajtaniuk, és különböző adatforrásokból kell elemzéseket futtatniuk.