„Presto SQL“, dabar „Trino“, suteikia didelių duomenų analizės užklausų variklių galią

Didelių duomenų apdorojimas yra vienas iš svarbiausių šios skaitmeninės eros aspektų. Įmonės naudoja daugiau dirbtinio intelekto, mašininio mokymosi ir duomenų analizės, kurios gamina ir renka daugiau duomenų. Todėl tai lemia didžiulius duomenų kiekius kurių reikia efektyviai išnagrinėti ir išanalizuoti.

Štai kur gali padėti debesų kompiuterija ir „Presto“.

TurinysRodyti
Kas yra Presto?
Pagrindinės sąvokos
Serverių tipai
Kaip Presto apdoroja užklausas?
Presto naudojimo privalumai
1. Lengva integracija
2. Greitesnis veikimas
3. Sukurta debesims
4. Vieninga SQL sąsaja
Kam galite naudoti Presto?
Duomenų ežero analizė
Ad hoc užklausos
Partijos ETL

Kas yra Presto?

Pagal Amazon AWS apibrėžimą: Presto yra paskirstytas SQL užklausų variklis, sukurtas atlikti greitas analitines užklausas bet kokio dydžio duomenų rinkiniuose. 2020 m. pabaigoje jis buvo pervadintas į Trino, kad projektas būtų atskirtas nuo Prestodb.

Presto pranašumas yra tas, kad jis yra atvirojo kodo, o tai reiškia, kad jis yra reguliariai atnaujinamas, o kūrėjai prie jo dažnai prisideda.

Presto platforma veikia su nesusijusių duomenų šaltinių Kaip:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

Ir reliacinės duomenų bazės Kaip:

  • Mano erdvė
  • PostgresSQL ir
  • MS SQL serveris

Su Presto, galite pateikti duomenų užklausą, kad ir kur jie būtų saugomi. Tai reiškia, kad jums nereikia perkelti duomenų į reliacinę duomenų bazę ar duomenų saugyklą. Presto buvo sukurtas SQL ir palaiko standartinę SQL semantiką. Tai apima antrines užklausas, sudėtingas užklausas, išorinius sujungimus, skirtingus skaičius ir apytikslius procentilius.

Užklausų vykdymas taip pat yra greitesnis, nes jis veikia lygiagrečiai su atmintimi pagrįsta architektūra. Todėl jums nebereikia jaudintis, kiek laiko gali užtrukti didžiulės duomenų bazės užklausa. Rezultatai grįžta per kelias sekundes.

Mokytis kaip įdiegti Presto ir jos architektūra jų dokumentuose.

Taip pat skaitykite: Kaip atnaujinti įrenginių tvarkykles sistemoje „Windows 10“? {Paprastas vadovas}


Pagrindinės sąvokos

Pagrindinės SQL sąvokos yra plačiai žinomos. Norėdami suprasti, kaip veikia Presto, pirmiausia turime suprasti pagrindines jo sąvokas.

Serverių tipai

„Presto“ naudoja dviejų tipų serverius: „ koordinatorius serveris ir darbuotojas serveris. Darbuotojo mazgai apdoroja užklausas, gaudami duomenis iš jungčių. Koordinatorius paima rezultatus ir išsiunčia juos klientui. Koordinatorių serveriai taip pat analizuoja pareiškimus ir tvarko mazgus.

Jis veikia panašiai kaip Massive Parallel Processing duomenų bazių valdymo sistemos.

Massive Parallel Processing duomenų bazių valdymo sistemosVaizdo šaltinis: tutorialspoint

„Presto“ naudoja jungtis, kad susijungtų tarp paskirstytos sistemos ir šaltinio, pavyzdžiui, „Amazon S3“. Dėl daugybės „Presto“ jungčių, susijusių su reliaciniais ir nesusijusiais šaltiniais, sistemą galima išplėsti beveik bet kokiame duomenų šaltinyje.

Taip pat skaitykite: Kaip atnaujinti tvarkykles sistemoje „Windows 10,8,7“ – atnaujinkite įrenginių tvarkykles


Kaip Presto apdoroja užklausas?

Kai presto gauna užklausą, ji įvykdo ją suskirstydama į kelis etapus. Paprastai sistema sukuria pagrindinį etapą ir susijusius etapus. Tada etapai paskirstomi į užduotis darbuotojo mazguose.


Presto naudojimo privalumai

Presto tampa labai populiarus tarp didelių įmonių, tokių kaip „Netflix“, „Facebook“, „Atlassian“ ir „Airbnb“. Pavyzdžiui, „Facebook“ naudoja „Presto“, kad kiekvieną dieną apdorotų vieną petabaitą duomenų, vykdydama daugiau nei 30 000 užklausų.

Presto apima du atskirus atvirojo kodo projektus: PrestoSQL (dabar vadinamas Trino) ir PrestoDB. Jis labai populiarus įvairiais atvejais, įvairių tipų duomenų ežeruose ir duomenų saugyklose. Pažvelkime į kai kuriuos pranašumus, dėl kurių Presto toks populiarus.

1. Lengva integracija

Vienas iš pagrindinių Presto privalumų yra tai, kad jis integruojamas su esama duomenų sistema nereikalaujant modifikacijų. Todėl pridėję Presto pridedate greitos analizės galimybių, nereikės keisti esamos sistemos.

2. Greitesnis veikimas

Viena iš priežasčių, dėl kurių buvo sukurta „Presto“, buvo ta, kad esamas „Apache Hive“ neveikė gerai naudojant interaktyvias užklausas. „Presto“ sukurta interaktyvioms BI užklausoms tvarkyti. Be to, jis vadovaujasi stūmimo modeliu, apdorodamas SQL užklausą, naudodamas kelis etapus vienu metu, o tai reiškia, kad visi etapai sujungiami nelaukiant tarp etapų.

„Presto“ taip pat turi duomenų perdavimą iš atminties į atmintį, nereikia rašyti duomenų į diską, o tai pagerina našumą.

3. Sukurta debesims

Presto saugo saugyklą ir skaičiuoja atskirai, todėl labai tinka debesų aplinkoms. PrestoSQL naudojančios įmonės gali lengvai padidinti arba sumažinti mastelį, priklausomai nuo apkrovos, neprarasdamos duomenų. Taip gali nutikti, nes Presto klasteris nesaugo jokių duomenų.

4. Vieninga SQL sąsaja

SQL yra populiariausia duomenų analizės kalba. Duomenų mokslininkai, analitikai ir inžinieriai naudoja SQL duomenims apdoroti, analizuoti ir tikrinti, integruodami juos su verslo žvalgybos įrankiais.

Presto turi galimybę ne tik pateikti duomenų iš SQL šaltinių, bet ir iš NoSQL duomenų bazių, tokių kaip Elasticsearch ir Cassandra, užklausas. Jis palaiko ANSI-SQL ir Postgres ryšį. Tai suteikia Presto universalumo, kurio neturi kitos paskirstytos sistemos.

Sąsaja idealiai tinka vidutinio dydžio duomenims, nes turi tą patį Langų funkcijos kurį turi PostgreSQL.

Taip pat skaitykite: Kaip atnaujinti grafikos tvarkykles sistemoje „Windows 10“ {Paprastas vadovas}


Kam galite naudoti Presto?

Presto yra naudojamas įvairiose pramonės šakose įvairiems naudojimo atvejams. Tai ypač tinka ad-hoc ir interaktyvioms užklausoms. Panagrinėkime keletą įprastų naudojimo atvejų:

Duomenų ežero analizė

Galite naudoti PrestoSQL norėdami pateikti duomenų užklausą duomenų ežere, nekeisdami duomenų. „Presto“ leidžia pateikti duomenų užklausą ten, kur ji yra. Todėl galite jį naudoti norėdami įgalinti savo duomenų ežero analizę pateikdami užklausas dėl struktūrinių ir nestruktūruotų duomenų.

Ad hoc užklausos

„Presto“ leidžia bet kada vykdyti užklausas, nepaisant to, kur yra jūsų duomenys. Dar geriau, naudojant Presto jungtis, jūsų komandos gali pasiekti duomenų rinkinius iš įvairių duomenų šaltinių, o kadangi užklausos vykdomos per kelias sekundes, o ne valandas, jūsų sistema veikia greičiau.

Partijos ETL

Užuot naudoję pasenusias paketinio apdorojimo sistemas, galite naudoti Presto, kad paleistumėte užklausas, kurios efektyviai naudoja išteklius. Galite kaupti duomenis iš kelių duomenų šaltinių ir atlikti didelio našumo užklausas.

Apibendrinant galima pasakyti, kad „Presto“ turi keletą pranašumų įmonėms, kurioms reikia apdoroti didelius duomenų kiekius, atlikti ad hoc, interaktyvias užklausas ir vykdyti analizę iš skirtingų duomenų šaltinių.