Η Presto SQL, τώρα η Trino, φέρνει τη δύναμη των μηχανών αναζήτησης ανάλυσης μεγάλων δεδομένων

Η επεξεργασία μεγάλων δεδομένων είναι μια από τις κρίσιμες πτυχές αυτής της ψηφιακής εποχής. Οι εταιρείες χρησιμοποιούν περισσότερη τεχνητή νοημοσύνη, μηχανική μάθηση και ανάλυση δεδομένων, τα οποία παράγουν και συλλέγουν περισσότερα δεδομένα. Ως εκ τούτου, έχει ως αποτέλεσμα τεράστιες ποσότητες δεδομένων που πρέπει να διερευνηθεί και να αναλυθεί αποτελεσματικά.

Εδώ μπορεί να βοηθήσει το cloud computing και το Presto.

Πίνακας περιεχομένωνπροβολή
Τι είναι το Presto;
Βασικές Έννοιες
Τύποι διακομιστών
Πώς επεξεργάζεται το Presto ερωτήματα;
Πλεονεκτήματα της χρήσης Presto
1. Εύκολη ενσωμάτωση
2. Ταχύτερη απόδοση
3. Σχεδιασμένο για το cloud
4. Ενοποιημένη διεπαφή SQL
Σε τι μπορείτε να χρησιμοποιήσετε το Presto;
Αναλύσεις λιμνών δεδομένων
Ad hoc ερωτήματα
Παρτίδα ETL

Τι είναι το Presto;

Σύμφωνα με τον ορισμό του Amazon AWS: Το Presto είναι μια κατανεμημένη μηχανή ερωτημάτων SQL, που δημιουργήθηκε για να εκτελεί γρήγορα αναλυτικά ερωτήματα σε σύνολα δεδομένων οποιουδήποτε μεγέθους. Στο τέλος του 2020 μετονομάστηκε σε Trino για να διαχωρίσει το έργο από το Prestodb.

Το Presto έχει το πλεονέκτημα ότι είναι ανοιχτού κώδικα, πράγμα που σημαίνει ότι ενημερώνεται τακτικά και οι προγραμματιστές συμβάλλουν συχνά σε αυτό.

Η πλατφόρμα Presto λειτουργεί με μη σχεσιακές πηγές δεδομένων αρέσει:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

Και σχεσιακές βάσεις δεδομένων αρέσει:

  • Ο χώρος μου
  • PostgresSQL και
  • MS SQL Server

Με Γρήγορα, μπορείτε να ρωτήσετε δεδομένα όπου κι αν είναι αποθηκευμένα. Αυτό σημαίνει ότι δεν χρειάζεται να μεταφέρετε τα δεδομένα σε μια σχεσιακή βάση δεδομένων ή μια αποθήκη δεδομένων. Το Presto δημιουργήθηκε για SQL και υποστηρίζει τυπική σημασιολογία SQL. Αυτό περιλαμβάνει δευτερεύοντα ερωτήματα, σύνθετα ερωτήματα, εξωτερικές ενώσεις, διακριτές μετρήσεις και κατά προσέγγιση εκατοστημόρια.

Η εκτέλεση ερωτημάτων είναι επίσης ταχύτερη, καθώς εκτελείται παράλληλα με μια αρχιτεκτονική που βασίζεται στη μνήμη. Επομένως, δεν χρειάζεται πλέον να ανησυχείτε για το πόσο χρόνο θα μπορούσε να πάρει για να αναζητήσετε μια τεράστια βάση δεδομένων. Τα αποτελέσματα επανέρχονται σε δευτερόλεπτα.

Μαθαίνω πώς να αναπτύξετε το Presto και την αρχιτεκτονική του στην τεκμηρίωσή τους.

Διαβάστε επίσης: Πώς να ενημερώσετε τα προγράμματα οδήγησης συσκευών στα Windows 10; {Απλός οδηγός}


Βασικές Έννοιες

Οι βασικές έννοιες SQL είναι ευρέως γνωστές. Για να κατανοήσουμε πώς λειτουργεί το Presto, πρέπει πρώτα να κατανοήσουμε τις βασικές του έννοιες.

Τύποι διακομιστών

Το Presto χρησιμοποιεί δύο τύπους διακομιστών: τον συντονιστής διακομιστή και ο εργάτης υπηρέτης. Οι κόμβοι εργαζόμενοι επεξεργάζονται τα ερωτήματα, λαμβάνοντας δεδομένα από τις συνδέσεις. Ο συντονιστής ανακτά τα αποτελέσματα και τα στέλνει στον πελάτη. Οι διακομιστές συντονιστών αναλύουν επίσης δηλώσεις και διαχειρίζονται κόμβους.

Λειτουργεί παρόμοια με τα συστήματα διαχείρισης βάσεων δεδομένων Massive Parallel Processing.

Συστήματα διαχείρισης βάσεων δεδομένων μαζικής παράλληλης επεξεργασίαςΠηγή εικόνας: tutorialspoint

Το Presto χρησιμοποιεί συνδέσμους για τη σύνδεση μεταξύ του κατανεμημένου συστήματος και της πηγής, για παράδειγμα, του Amazon S3. Οι πολυάριθμοι σύνδεσμοι του Presto, σε σχεσιακές και μη σχεσιακές πηγές, κάνουν το σύστημα επεκτάσιμο σε σχεδόν οποιαδήποτε πηγή δεδομένων.

Διαβάστε επίσης: Πώς να ενημερώσετε τα προγράμματα οδήγησης στα Windows 10,8,7 – Ενημέρωση προγραμμάτων οδήγησης συσκευών


Πώς επεξεργάζεται το Presto ερωτήματα;

Όταν το presto λαμβάνει ένα ερώτημα, το εκτελεί σπάζοντας το σε πολλαπλά στάδια. Συνήθως το σύστημα δημιουργεί ένα ριζικό στάδιο και σχετικά στάδια. Στη συνέχεια, τα στάδια κατανέμονται σε εργασίες στους κόμβους εργαζομένων.


Πλεονεκτήματα της χρήσης Presto

Το Presto γίνεται πολύ δημοφιλές σε μεγάλες επιχειρήσεις όπως το Netflix, το Facebook, το Atlassian και το Airbnb. Για παράδειγμα, το Facebook χρησιμοποιεί το Presto για να επεξεργάζεται ένα petabyte δεδομένων κάθε μέρα, εκτελώντας πάνω από 30.000 ερωτήματα.

Το Presto περιλαμβάνει δύο ξεχωριστά έργα ανοιχτού κώδικα: PrestoSQL (τώρα ονομάζεται Trino) και PrestoDB. Είναι πολύ δημοφιλές για ένα ευρύ φάσμα περιπτώσεων χρήσης, σε διαφορετικούς τύπους λιμνών δεδομένων και αποθήκες δεδομένων. Ας δούμε μερικά από τα πλεονεκτήματα που κάνουν το Presto τόσο δημοφιλές.

1. Εύκολη ενσωμάτωση

Ένα από τα βασικά πλεονεκτήματα του Presto είναι ότι ενσωματώνεται στο υπάρχον σύστημα δεδομένων σας χωρίς να χρειάζεται τροποποιήσεις. Επομένως, προσθέτοντας Presto προσθέτετε δυνατότητες γρήγορης ανάλυσης χωρίς να χρειάζεται να τροποποιήσετε το υπάρχον σύστημά σας.

2. Ταχύτερη απόδοση

Ένας από τους λόγους που αναπτύχθηκε το Presto ήταν επειδή το υπάρχον Apache Hive δεν είχε καλή απόδοση με διαδραστικά ερωτήματα. Το Presto έχει σχεδιαστεί για να χειρίζεται διαδραστικά ερωτήματα BI. Επιπλέον, ακολουθεί το μοντέλο push, επεξεργάζοντας ένα ερώτημα SQL χρησιμοποιώντας πολλαπλά στάδια ταυτόχρονα, που σημαίνει ότι όλα τα στάδια διοχετεύονται χωρίς αναμονή μεταξύ των σταδίων.

Το Presto διαθέτει επίσης μεταφορά δεδομένων από μνήμη σε μνήμη, χωρίς την ανάγκη εγγραφής δεδομένων στο δίσκο, βελτιώνοντας την απόδοση.

3. Σχεδιασμένο για το cloud

Το Presto εκτελεί αποθηκευτικό χώρο και υπολογίζει χωριστά, γεγονός που το καθιστά πολύ κατάλληλο για περιβάλλοντα cloud. Οι εταιρείες που χρησιμοποιούν PrestoSQL μπορούν εύκολα να αυξήσουν ή να μειώσουν την κλίμακα ανάλογα με το φορτίο χωρίς να προκαλέσουν απώλεια δεδομένων. Αυτό μπορεί να συμβεί επειδή το σύμπλεγμα Presto δεν αποθηκεύει δεδομένα.

4. Ενοποιημένη διεπαφή SQL

Η SQL είναι η πιο δημοφιλής γλώσσα για την ανάλυση δεδομένων. Οι επιστήμονες δεδομένων, οι αναλυτές και οι μηχανικοί χρησιμοποιούν την SQL για την επεξεργασία, την ανάλυση και τη δοκιμή δεδομένων, ενσωματώνοντάς τα με εργαλεία επιχειρηματικής ευφυΐας.

Το Presto έχει τη δυνατότητα όχι μόνο να αναζητά δεδομένα από πηγές SQL αλλά και από βάσεις δεδομένων NoSQL όπως το Elasticsearch και το Cassandra. Υποστηρίζει συνδεσιμότητα ANSI-SQL και Postgres. Αυτό δίνει στο Presto μια ευελιξία που δεν έχουν άλλα κατανεμημένα συστήματα.

Η διεπαφή είναι ιδανική για δεδομένα μεσαίου μεγέθους γιατί έχει το ίδιο Λειτουργίες παραθύρου που έχει η PostgreSQL.

Διαβάστε επίσης: Πώς να ενημερώσετε τα προγράμματα οδήγησης γραφικών στα Windows 10 {Απλός οδηγός}


Σε τι μπορείτε να χρησιμοποιήσετε το Presto;

Το Presto χρησιμοποιείται σε όλες τις βιομηχανίες για μια μεγάλη ποικιλία περιπτώσεων χρήσης. Είναι ιδιαίτερα κατάλληλο για ad-hoc και διαδραστικά ερωτήματα. Ας εξερευνήσουμε μερικές συνήθεις περιπτώσεις χρήσης:

Αναλύσεις λιμνών δεδομένων

Μπορείτε να χρησιμοποιήσετε το PrestoSQL για να ρωτήσετε δεδομένα σε μια λίμνη δεδομένων χωρίς να χρειάζεται να μετασχηματίσετε τα δεδομένα. Το Presto σάς επιτρέπει να ρωτάτε δεδομένα όπου βρίσκονται. Επομένως, μπορείτε να το χρησιμοποιήσετε για να ενδυναμώσετε τις αναλύσεις λιμνών δεδομένων σας υποβάλλοντας ερωτήματα σε δομημένα και μη δομημένα δεδομένα.

Ad hoc ερωτήματα

Το Presto σάς επιτρέπει να εκτελείτε ερωτήματα ανά πάσα στιγμή, ανεξάρτητα από το πού βρίσκονται τα δεδομένα σας. Ακόμη καλύτερα, με τις συνδέσεις Presto, οι ομάδες σας μπορούν να έχουν πρόσβαση σε σύνολα δεδομένων σε ένα ευρύ φάσμα πηγών δεδομένων και, καθώς τα ερωτήματα εκτελούνται σε δευτερόλεπτα αντί για ώρες, το σύστημά σας αποδίδει ταχύτερα.

Παρτίδα ETL

Αντί να χρησιμοποιείτε παλαιού τύπου συστήματα επεξεργασίας παρτίδων, μπορείτε να χρησιμοποιήσετε το Presto για να εκτελέσετε ερωτήματα που είναι αποτελεσματικά σε πόρους. Μπορείτε να συγκεντρώσετε δεδομένα από πολλές πηγές δεδομένων και να πραγματοποιήσετε ερωτήματα υψηλής απόδοσης.

Συνοπτικά, το Presto έχει πολλά πλεονεκτήματα για εταιρείες που πρέπει να επεξεργάζονται μεγάλες ποσότητες δεδομένων, να διεξάγουν ad hoc, διαδραστικά ερωτήματα και να εκτελούν αναλυτικά στοιχεία από διαφορετικές πηγές δεδομένων.