Presto SQL, ahora Trino, trae el poder de los motores de consulta de Big Data Analytics

El procesamiento de big data es uno de los aspectos críticos de esta era digital. Las empresas utilizan más inteligencia artificial, aprendizaje automático y análisis de datos, que producen y recopilan más datos. Por lo tanto, resulta en cantidades masivas de datos que necesita ser consultado y analizado de manera eficiente.

Aquí es donde la computación en la nube y Presto pueden ayudar.

Tabla de contenidoshow
¿Qué es Presto?
Conceptos clave
Tipos de servidor
¿Cómo procesa Presto las consultas?
Ventajas de usar Presto
1. Fácil integración
2. Rendimiento más rápido
3. Diseñado para la nube
4. Interfaz SQL unificada
¿Para qué se puede utilizar Presto?
Análisis de lago de datos
Consultas ad hoc
ETL por lotes

¿Qué es Presto?

Según la definición de Amazon AWS: Presto es un motor de consultas SQL distribuido, creado para realizar consultas analíticas rápidas en conjuntos de datos de cualquier tamaño. Fue rebautizado a finales de 2020 como Trino para separar el proyecto de Prestodb.

Presto tiene la ventaja de ser de código abierto, lo que significa que se actualiza con regularidad y los desarrolladores contribuyen a él con frecuencia.

La plataforma Presto funciona con fuentes de datos no relacionales me gusta:

  • Amazon S3
  • Hadoop
  • HDFS
  • MongoDB
  • HBase

Y bases de datos relacionales me gusta:

  • Mi espacio
  • PostgresSQL y
  • MS SQL Server

Con Presto, puede consultar los datos donde sea que estén almacenados. Eso significa que no necesita transferir los datos a una base de datos relacional o almacén de datos. Presto fue creado para SQL y es compatible con la semántica de SQL estándar. Esto incluye subconsultas, consultas complejas, combinaciones externas, recuentos distintos y percentiles aproximados.

La ejecución de consultas también es más rápida, ya que se ejecuta en paralelo a una arquitectura basada en memoria. Por lo tanto, ya no tiene que preocuparse por cuánto tiempo puede llevar consultar una base de datos masiva. Los resultados regresan en segundos.

Aprender cómo implementar Presto y su arquitectura en su documentación.

Leer también: ¿Cómo actualizar los controladores de dispositivo en Windows 10? {Guía simple}


Conceptos clave

Los conceptos clave de SQL son ampliamente conocidos. Para comprender cómo funciona Presto, primero debemos comprender sus conceptos básicos.

Tipos de servidor

Presto utiliza dos tipos de servidor: el coordinador servidor y el trabajador servidor. Los nodos trabajadores procesan las consultas y obtienen datos de los conectores. El coordinador recoge los resultados y los envía al cliente. Los servidores coordinadores también analizan declaraciones y administran nodos.

Funciona de forma similar a los sistemas de gestión de bases de datos de Massive Parallel Processing.

Sistemas de gestión de bases de datos de procesamiento paralelo masivoFuente de la imagen: tutorialspoint

Presto utiliza conectores para vincular el sistema distribuido y la fuente, por ejemplo, Amazon S3. Los numerosos conectores de Presto, a fuentes relacionales y no relacionales, hacen que el sistema sea extensible a casi cualquier fuente de datos.

Leer también: Cómo actualizar controladores en Windows 10,8,7 - Actualizar controladores de dispositivos


¿Cómo procesa Presto las consultas?

Cuando presto recibe una consulta, la ejecuta dividiéndola en varias etapas. Normalmente, el sistema crea una etapa raíz y etapas relacionadas. Luego, las etapas se distribuyen en tareas en los nodos trabajadores.


Ventajas de usar Presto

Presto se está volviendo muy popular entre las grandes empresas como Netflix, Facebook, Atlassian y Airbnb. Por ejemplo, Facebook usa Presto para procesar un petabyte de datos todos los días, ejecutando más de 30k consultas.

Presto incluye dos proyectos separados de código abierto: PrestoSQL (ahora llamado Trino) y PrestoDB. Es muy popular para una amplia gama de casos de uso, en diferentes tipos de lagos de datos y almacenes de datos. Veamos algunas de las ventajas que hacen que Presto sea tan popular.

1. Fácil integración

Una de las ventajas clave de Presto es que se integra con su sistema de datos existente sin necesidad de modificaciones. Por lo tanto, al agregar Presto, agrega capacidades de análisis rápido sin necesidad de modificar su sistema existente.

2. Rendimiento más rápido

Una de las razones por las que se desarrolló Presto fue porque el Apache Hive existente no funcionaba bien con las consultas interactivas. Presto está diseñado para manejar consultas de BI interactivas. Además, sigue el modelo push, procesando una consulta SQL usando múltiples etapas al mismo tiempo, lo que significa que todas las etapas se canalizan sin esperar entre etapas.

Presto también tiene transferencia de datos de memoria a memoria, sin la necesidad de escribir datos en el disco, lo que mejora el rendimiento.

3. Diseñado para la nube

Presto ejecuta el almacenamiento y computa por separado, lo que lo hace muy adecuado para entornos en la nube. Las empresas que utilizan PrestoSQL pueden escalar hacia arriba o hacia abajo fácilmente según la carga sin causar pérdida de datos. Esto puede suceder porque el clúster de Presto no almacena ningún dato.

4. Interfaz SQL unificada

SQL es el lenguaje más popular para el análisis de datos. Los científicos, analistas e ingenieros de datos utilizan SQL para procesar, analizar y probar datos, integrándolos con herramientas de inteligencia empresarial.

Presto tiene la capacidad no solo de consultar datos de fuentes SQL sino también de bases de datos NoSQL como Elasticsearch y Cassandra. Admite conectividad ANSI-SQL y Postgres. Esto le da a Presto una versatilidad que otros sistemas distribuidos no tienen.

La interfaz es ideal para datos de tamaño mediano porque tiene el mismo Funciones de ventana que tiene PostgreSQL.

Leer también: Cómo actualizar los controladores de gráficos en Windows 10 {Guía simple}


¿Para qué se puede utilizar Presto?

Presto se utiliza en todas las industrias para una amplia variedad de casos de uso. Es especialmente adecuado para consultas interactivas y ad-hoc. Exploremos algunos casos de uso comunes:

Análisis de lago de datos

Puede utilizar PrestoSQL para consultar datos en un lago de datos sin necesidad de transformar los datos. Presto le permite consultar los datos donde se encuentran. Por lo tanto, puede usarlo para potenciar el análisis de su lago de datos consultando datos estructurados y no estructurados.

Consultas ad hoc

Presto le permite ejecutar consultas en cualquier momento, independientemente de dónde residan sus datos. Aún mejor, con los conectores de Presto, sus equipos pueden acceder a conjuntos de datos en una amplia gama de fuentes de datos y, dado que las consultas se ejecutan en segundos en lugar de horas, su sistema funciona más rápido.

ETL por lotes

En lugar de usar sistemas de procesamiento por lotes heredados, puede usar Presto para ejecutar consultas que sean eficientes en recursos. Puede agregar datos de varias fuentes de datos y realizar consultas de alto rendimiento.

En resumen, Presto tiene varias ventajas para las empresas que necesitan procesar grandes cantidades de datos, realizar consultas interactivas ad hoc y ejecutar análisis desde fuentes de datos dispares.