Le traitement des mégadonnées est l'un des aspects critiques de cette ère numérique. Les entreprises utilisent davantage l'intelligence artificielle, l'apprentissage automatique et l'analyse de données, qui produisent et collectent davantage de données. Par conséquent, il en résulte des quantités massives de données qui doit être interrogé et analysé efficacement.
C'est ici que le cloud computing et Presto peuvent vous aider.
Qu'est-ce que Presto ?
Selon la définition d'Amazon AWS: Presto est un moteur de requête SQL distribué, créé pour effectuer des requêtes analytiques rapides sur des ensembles de données de toute taille. Il a été rebaptisé fin 2020 en Trino pour séparer le projet de Prestodb.
Presto a l'avantage d'être open-source, ce qui signifie qu'il est mis à jour régulièrement et que les développeurs y contribuent souvent.
La plateforme Presto fonctionne avec sources de données non relationnelles Comme:
- Amazon S3
- Hadoop
- HDFS
- MongoDB
- HBase
Et bases de données relationnelles Comme:
- Mon espace
- PostgreSQL et
- Serveur MS SQL
Avec Presto, vous pouvez interroger les données où qu'elles soient stockées. Cela signifie que vous n'avez pas besoin de transférer les données dans une base de données relationnelle ou un entrepôt de données. Presto a été créé pour SQL et prend en charge la sémantique SQL standard. Cela inclut les sous-requêtes, les requêtes complexes, les jointures externes, les nombres distincts et les centiles approximatifs.
L'exécution des requêtes est également plus rapide, car elle s'exécute parallèlement à une architecture basée sur la mémoire. Par conséquent, vous n'avez plus à vous soucier du temps que cela pourrait prendre pour interroger une base de données massive. Les résultats reviennent en quelques secondes.
Apprendre comment déployer Presto et son architecture sur leur documentation.
Lire aussi: Comment mettre à jour les pilotes de périphérique sur Windows 10? {Guide simple}
Concepts clés
Les concepts clés de SQL sont largement connus. Pour comprendre le fonctionnement de Presto, nous devons d'abord comprendre ses concepts de base.
Types de serveur
Presto utilise deux types de serveurs: le coordinateur serveur et le travailleur serveur. Les nœuds de travail traitent les requêtes, récupérant les données des connecteurs. Le coordinateur récupère les résultats et les envoie au client. Les serveurs de coordination analysent également les instructions et gèrent les nœuds.
Il fonctionne de manière similaire aux systèmes de gestion de base de données Massive Parallel Processing.
Source de l'image: tutorialspoint
Presto utilise des connecteurs pour établir un lien entre le système distribué et la source, par exemple, Amazon S3. Les nombreux connecteurs de Presto, vers des sources relationnelles et non relationnelles, rendent le système extensible à presque toutes les sources de données.
Lire aussi: Comment mettre à jour les pilotes sur Windows 10,8,7 - Mettre à jour les pilotes de périphérique
Comment Presto traite les requêtes ?
Lorsque presto reçoit une requête, il l'exécute en la divisant en plusieurs étapes. Généralement, le système crée une étape racine et des étapes associées. Les étapes sont ensuite réparties en tâches sur les nœuds de travail.
Avantages de l'utilisation de Presto
Presto devient très populaire auprès des grandes entreprises comme Netflix, Facebook, Atlassian et Airbnb. Par exemple, Facebook utilise Presto pour traiter un pétaoctet de données chaque jour, exécutant plus de 30 000 requêtes.
Presto comprend deux projets open source distincts: PrestoSQL (maintenant appelé Trino) et PrestoDB. Il est très populaire pour un large éventail de cas d'utilisation, dans différents types de lacs de données et d'entrepôts de données. Examinons quelques-uns des avantages qui rendent Presto si populaire.
1. Intégration facile
L'un des principaux avantages de Presto est qu'il s'intègre à votre système de données existant sans nécessiter de modifications. Par conséquent, en ajoutant Presto, vous ajoutez des capacités d'analyse rapides sans avoir à modifier votre système existant.
2. Des performances plus rapides
L'une des raisons pour lesquelles Presto a été développé est que l'Apache Hive existant ne fonctionnait pas bien avec les requêtes interactives. Presto est conçu pour gérer les requêtes BI interactives. En outre, il suit le modèle push, en traitant une requête SQL en utilisant plusieurs étapes simultanément, ce qui signifie que toutes les étapes sont acheminées sans attendre entre les étapes.
Presto propose également un transfert de données mémoire à mémoire, sans qu'il soit nécessaire d'écrire des données sur le disque, ce qui améliore les performances.
3. Conçu pour le cloud
Presto exécute le stockage et calcule séparément, ce qui le rend très adapté aux environnements cloud. Les entreprises utilisant PrestoSQL peuvent facilement évoluer vers le haut ou vers le bas en fonction de la charge sans entraîner de perte de données. Cela peut arriver parce que le cluster Presto ne stocke aucune donnée.
4. Interface SQL unifiée
SQL est le langage le plus populaire pour l'analyse de données. Les data scientists, les analystes et les ingénieurs utilisent SQL pour traiter, analyser et tester les données, en les intégrant à des outils de business intelligence.
Presto a la capacité non seulement d'interroger des données à partir de sources SQL, mais également à partir de bases de données NoSQL comme Elasticsearch et Cassandra. Il prend en charge la connectivité ANSI-SQL et Postgres. Cela donne à Presto une polyvalence que les autres systèmes distribués n'ont pas.
L'interface est idéale pour les données de taille moyenne car elle a le même Fonctions de fenêtre que PostgreSQL a.
Lire aussi: Comment mettre à jour les pilotes graphiques dans Windows 10 {Guide simple}
Pour quoi pouvez-vous utiliser Presto ?
Presto est utilisé dans toutes les industries pour une grande variété de cas d'utilisation. Il est particulièrement adapté aux requêtes ad-hoc et interactives. Explorons quelques cas d'utilisation courants :
Analyse des lacs de données
Vous pouvez utiliser PrestoSQL pour interroger des données sur un lac de données sans avoir besoin de transformer les données. Presto vous permet d'interroger les données là où elles se trouvent. Par conséquent, vous pouvez l'utiliser pour renforcer vos analyses de lac de données en interrogeant des données structurées et non structurées.
Requête ad hoc
Presto vous permet d'exécuter des requêtes à tout moment, quel que soit l'emplacement de vos données. Mieux encore, avec les connecteurs Presto, vos équipes peuvent accéder à des ensembles de données dans un large éventail de sources de données, et comme les requêtes sont exécutées en quelques secondes au lieu d'heures, votre système fonctionne plus rapidement.
ETL par lots
Au lieu d'utiliser des systèmes de traitement par lots hérités, vous pouvez utiliser Presto pour exécuter des requêtes efficaces sur les ressources. Vous pouvez agréger les données de plusieurs sources de données et effectuer des requêtes à haut débit.
En résumé, Presto présente plusieurs avantages pour les entreprises qui doivent traiter de grandes quantités de données, effectuer des requêtes interactives ad hoc et exécuter des analyses à partir de sources de données disparates.