L'elaborazione dei big data è uno degli aspetti critici di questa era digitale. Le aziende utilizzano più intelligenza artificiale, apprendimento automatico e analisi dei dati, che producono e raccolgono più dati. Pertanto, risulta in enormi quantità di dati che deve essere interrogato e analizzato in modo efficiente.
Ecco dove il cloud computing e Presto possono aiutare.
Cos'è Presto?
Secondo la definizione di Amazon AWS: Presto è un motore di query SQL distribuito, creato per eseguire query analitiche veloci su set di dati di qualsiasi dimensione. È stato rinominato alla fine del 2020 come Trino per separare il progetto da Prestodb.
Presto ha il vantaggio di essere open-source, il che significa che viene aggiornato regolarmente e gli sviluppatori contribuiscono spesso.
La piattaforma Presto funziona con fonti di dati non relazionali Piace:
- Amazon S3
- Hadoop
- HDFS
- MongoDB
- HBase
e database relazionali Piace:
- Il mio spazio
- PostgresSQL e
- MS SQL Server
Con Presto, puoi eseguire query sui dati ovunque siano archiviati. Ciò significa che non è necessario trasferire i dati in un database relazionale o data warehouse. Presto è stato creato per SQL e supporta la semantica SQL standard. Ciò include sottoquery, query complesse, outer join, conteggi distinti e percentili approssimativi.
Anche l'esecuzione delle query è più veloce, poiché funziona parallelamente a un'architettura basata sulla memoria. Pertanto, non devi più preoccuparti di quanto tempo potrebbe volerci per interrogare un enorme database. I risultati tornano in pochi secondi.
Imparare come distribuire Presto e la sua architettura sulla loro documentazione.
Leggi anche: Come aggiornare i driver di dispositivo su Windows 10? {Guida semplice}
Concetti chiave
I concetti chiave di SQL sono ampiamente conosciuti. Per capire come funziona Presto, dobbiamo prima comprenderne i concetti fondamentali.
Tipi di server
Presto utilizza due tipi di server: il coordinatore server e il lavoratore server. I nodi di lavoro elaborano le query, recuperando i dati dai connettori. Il coordinatore preleva i risultati e li invia al cliente. I server Coordinator analizzano anche le istruzioni e gestiscono i nodi.
Funziona in modo simile ai sistemi di gestione dei database di Massive Parallel Processing.
Fonte immagine: tutorialspoint
Presto utilizza connettori per collegare il sistema distribuito e l'origine, ad esempio Amazon S3. I numerosi connettori di Presto, a sorgenti relazionali e non relazionali, rendono il sistema estensibile a quasi tutte le sorgenti dati.
Leggi anche: Come aggiornare i driver su Windows 10,8,7 – Aggiorna i driver del dispositivo
In che modo Presto elabora le query?
Quando presto riceve una query, la esegue suddividendola in più fasi. In genere il sistema crea una fase di root e le relative fasi. Le fasi vengono quindi distribuite in attività tra i nodi di lavoro.
Vantaggi dell'utilizzo di Presto
Presto sta diventando molto popolare tra le grandi aziende come Netflix, Facebook, Atlassian e Airbnb. Ad esempio, Facebook utilizza Presto per elaborare un petabyte di dati ogni giorno, eseguendo oltre 30k query.
Presto include due progetti open source separati: PrestoSQL (ora chiamato Trino) e PrestoDB. È molto popolare per un'ampia gamma di casi d'uso, in diversi tipi di data lake e data warehouse. Diamo un'occhiata ad alcuni dei vantaggi che rendono Presto così popolare.
1. Facile integrazione
Uno dei principali vantaggi di Presto è che si integra con il sistema dati esistente senza bisogno di modifiche. Pertanto, aggiungendo Presto si aggiungono capacità di analisi rapida senza dover modificare il sistema esistente.
2. Prestazioni più veloci
Uno dei motivi per cui Presto è stato sviluppato è che l'Apache Hive esistente non funzionava bene con le query interattive. Presto è progettato per gestire query BI interattive. Inoltre, segue il modello push, elaborando una query SQL utilizzando più fasi contemporaneamente, il che significa che tutte le fasi vengono convogliate senza attendere tra le fasi.
Presto offre anche il trasferimento dei dati da memoria a memoria, senza la necessità di scrivere dati su disco, migliorando le prestazioni.
3. Progettato per il cloud
Presto esegue l'archiviazione ed elabora separatamente, il che lo rende molto adatto per gli ambienti cloud. Le aziende che utilizzano PrestoSQL possono facilmente aumentare o diminuire a seconda del carico senza causare perdite di dati. Ciò può accadere perché il cluster Presto non memorizza alcun dato.
4. Interfaccia SQL unificata
SQL è il linguaggio più diffuso per l'analisi dei dati. Data scientist, analisti e ingegneri utilizzano SQL per elaborare, analizzare e testare i dati, integrandoli con strumenti di business intelligence.
Presto ha la capacità non solo di interrogare dati da sorgenti SQL ma anche da database NoSQL come Elasticsearch e Cassandra. Supporta la connettività ANSI-SQL e Postgres. Ciò conferisce a Presto una versatilità che altri sistemi distribuiti non hanno.
L'interfaccia è ideale per dati di medie dimensioni perché ha lo stesso Funzioni della finestra che PostgreSQL ha.
Leggi anche: Come aggiornare i driver grafici in Windows 10 {Guida semplice}
Per cosa puoi usare Presto?
Presto viene utilizzato in tutti i settori per un'ampia varietà di casi d'uso. È particolarmente adatto per query ad hoc e interattive. Esploriamo alcuni casi d'uso comuni:
Analisi del data lake
È possibile utilizzare PrestoSQL per eseguire query sui dati su un data lake senza dover trasformare i dati. Presto ti consente di interrogare i dati nel punto in cui si trovano. Pertanto, puoi utilizzarlo per potenziare l'analisi del tuo data lake interrogando dati strutturati e non strutturati.
Interrogazione ad hoc
Presto ti consente di eseguire query in qualsiasi momento, indipendentemente da dove risiedono i tuoi dati. Ancora meglio, con i connettori Presto, i tuoi team possono accedere a set di dati in un'ampia gamma di origini dati e, poiché le query vengono eseguite in pochi secondi anziché in ore, il tuo sistema funziona più velocemente.
ETL lotto
Invece di utilizzare sistemi di elaborazione batch legacy, è possibile utilizzare Presto per eseguire query efficienti sulle risorse. È possibile aggregare dati da più origini dati ed eseguire query a throughput elevato.
In sintesi, Presto offre numerosi vantaggi per le aziende che devono elaborare grandi quantità di dati, condurre query interattive ad hoc ed eseguire analisi da origini dati disparate.