Presto SQL, nyní Trino, přináší sílu dotazovacích modulů pro analýzu velkých dat

Zpracování velkých dat je jedním z kritických aspektů této digitální éry. Společnosti více využívají umělou inteligenci, strojové učení a analýzu dat, které produkují a shromažďují více dat. Proto má za následek obrovské množství dat které je třeba efektivně zjišťovat a analyzovat.

Zde může pomoci cloud computing a Presto.

Obsahukázat

Co je Presto?

Klíčové koncepty

Typy serverů

Jak Presto zpracovává dotazy?

Výhody použití Presto

1. Snadná integrace

2. Rychlejší výkon

3. Navrženo pro cloud

4. Jednotné rozhraní SQL

K čemu můžete Presto používat?

Analýza datového jezera

Dotazování ad hoc

Dávkové ETL

Co je Presto?

Podle definice Amazon AWS: Presto je distribuovaný SQL dotazovací stroj vytvořený k provádění rychlých analytických dotazů na datové sady jakékoli velikosti. Na konci roku 2020 byl přejmenován na Trino, aby se projekt oddělil od Prestodb.

Presto má tu výhodu, že je open-source, což znamená, že je pravidelně aktualizováno a vývojáři do něj často přispívají.

Platforma Presto pracuje s nerelační zdroje dat jako:

Amazon S3
hadoop
HDFS
MongoDB
HBase

A relační databáze jako:

Moje místo
PostgresSQL a
MS SQL Server

S rychle, můžete se dotazovat na data, kdekoli jsou uložena. To znamená, že nemusíte přenášet data do relační databáze nebo datového skladu. Presto bylo vytvořeno pro SQL a podporuje standardní sémantiku SQL. To zahrnuje dílčí dotazy, složité dotazy, vnější spojení, odlišné počty a přibližné percentily.

Provádění dotazů je také rychlejší, protože běží paralelně s architekturou založenou na paměti. Proto se již nemusíte starat o to, jak dlouho může dotazování rozsáhlé databáze trvat. Výsledky se vrátí během několika sekund.

Učit se jak nasadit Presto a jeho architektura na jejich dokumentaci.

Přečtěte si také: Jak aktualizovat ovladače zařízení v systému Windows 10? {Jednoduchý průvodce}

Klíčové koncepty

Klíčové koncepty SQL jsou široce známé. Abychom pochopili, jak Presto funguje, musíme nejprve porozumět jeho základním konceptům.

Typy serverů

Presto používá dva typy serverů: koordinátor server a pracovník server. Pracovní uzly zpracovávají dotazy a načítají data z konektorů. Koordinátor načte výsledky a odešle je klientovi. Koordinační servery také analyzují příkazy a spravují uzly.

Funguje podobně jako systémy správy databází Massive Parallel Processing.

Systémy správy databází s masivním paralelním zpracováním Zdroj obrázku: tutorialspoint

Presto používá konektory k propojení mezi distribuovaným systémem a zdrojem, například Amazon S3. Četné konektory Presto pro relační i nerelační zdroje umožňují rozšiřitelnost systému na téměř jakýkoli zdroj dat.

Přečtěte si také: Jak aktualizovat ovladače ve Windows 10,8,7 – Aktualizujte ovladače zařízení

Jak Presto zpracovává dotazy?

Když presto obdrží dotaz, provede jej rozdělením do několika fází. Typicky systém vytváří kořenové stádium a související stádia. Fáze jsou pak rozděleny do úkolů napříč pracovními uzly.

Výhody použití Presto

Presto se stává velmi oblíbeným u velkých podniků, jako jsou Netflix, Facebook, Atlassian a Airbnb. Například Facebook používá Presto ke zpracování jednoho petabajtu dat každý den, přičemž spouští přes 30 tisíc dotazů.

Presto zahrnuje dva samostatné projekty s otevřeným zdrojovým kódem: PrestoSQL (nyní nazývaný Trino) a PrestoDB. Je velmi populární pro širokou škálu případů použití v různých typech datových jezer a datových skladů. Podívejme se na některé z výhod, díky kterým je Presto tak populární.

1. Snadná integrace

Jednou z klíčových výhod Presto je, že se integruje s vaším stávajícím datovým systémem bez nutnosti úprav. Proto přidáním Presto přidáte funkce rychlé analýzy, aniž byste museli vylepšovat svůj stávající systém.

2. Rychlejší výkon

Jedním z důvodů, proč bylo vyvinuto Presto, bylo to, že stávající Apache Hive nefungoval dobře s interaktivními dotazy. Presto je navrženo pro zpracování interaktivních BI dotazů. Kromě toho se řídí modelem push, který zpracovává SQL dotaz pomocí několika fází současně, což znamená, že všechny fáze jsou propojeny bez čekání mezi fázemi.

Presto má také přenos dat z paměti do paměti, bez nutnosti zapisovat data na disk, což zvyšuje výkon.

3. Navrženo pro cloud

Presto provozuje úložiště a počítá odděleně, díky čemuž je velmi vhodné pro cloudová prostředí. Společnosti používající PrestoSQL mohou snadno škálovat nahoru nebo dolů v závislosti na zatížení, aniž by došlo ke ztrátě dat. To se může stát, protože cluster Presto neukládá žádná data.

4. Jednotné rozhraní SQL

SQL je nejoblíbenější jazyk pro analýzu dat. Datoví vědci, analytici a inženýři používají SQL pro zpracování, analýzu a testování dat a integrují je s nástroji business intelligence.

Presto má schopnost nejen dotazovat se na data ze zdrojů SQL, ale také z databází NoSQL, jako je Elasticsearch a Cassandra. Podporuje konektivitu ANSI-SQL a Postgres. To dává Prestu všestrannost, kterou jiné distribuované systémy nemají.

Rozhraní je ideální pro středně velká data, protože má stejné Funkce okna které PostgreSQL má.

Přečtěte si také: Jak aktualizovat ovladače grafiky ve Windows 10 {Jednoduchý průvodce}

K čemu můžete Presto používat?

Presto se používá napříč průmyslovými odvětvími pro širokou škálu případů použití. Je vhodný zejména pro ad-hoc a interaktivní dotazy. Podívejme se na některé běžné případy použití:

Analýza datového jezera

PrestoSQL můžete použít k dotazování na data v datovém jezeře, aniž byste museli data transformovat. Presto vám umožňuje dotazovat se na data tam, kde jsou. Proto jej můžete použít k posílení analýzy datového jezera dotazováním na strukturovaná a nestrukturovaná data.

Dotazování ad hoc

Presto vám umožňuje spouštět dotazy kdykoli bez ohledu na to, kde jsou vaše data umístěna. Ještě lepší je, že s konektory Presto mohou vaše týmy přistupovat k datovým sadám v široké škále datových zdrojů, a protože dotazy jsou spouštěny v sekundách namísto hodin, váš systém funguje rychleji.

Dávkové ETL

Namísto použití starších systémů pro dávkové zpracování můžete použít Presto ke spouštění dotazů, které jsou efektivní na prostředky. Můžete agregovat data z více zdrojů dat a provádět vysoce výkonné dotazy.

Stručně řečeno, Presto má několik výhod pro společnosti, které potřebují zpracovávat velké množství dat, provádět ad hoc interaktivní dotazy a spouštět analýzy z různých zdrojů dat.