Presto SQL, sekarang Trino, Menghadirkan Kekuatan Mesin Kueri Analisis Big Data

Pemrosesan data besar adalah salah satu aspek penting di era digital ini. Perusahaan menggunakan lebih banyak kecerdasan buatan, pembelajaran mesin, dan analitik data, yang menghasilkan dan mengumpulkan lebih banyak data. Oleh karena itu, menghasilkan data dalam jumlah besar yang perlu ditanyakan dan dianalisis secara efisien.

Di sinilah komputasi awan dan Presto dapat membantu.

Daftar isimenunjukkan

Apa itu Presto?

Konsep Kunci

Jenis server

Bagaimana Presto memproses kueri?

Keuntungan menggunakan Presto

1. Integrasi yang mudah

2. Performa lebih cepat

3. Dirancang untuk awan

4. Antarmuka SQL terpadu

Untuk apa Anda dapat menggunakan Presto?

Analisis data danau

Permintaan ad hoc

Batch ETL

Apa itu Presto?

Menurut definisi Amazon AWS: Presto adalah mesin kueri SQL terdistribusi, dibuat untuk melakukan kueri analitik cepat pada kumpulan data dengan ukuran berapa pun. Itu berganti nama pada akhir 2020 sebagai Trino untuk memisahkan proyek dari Prestodb.

Presto memiliki keuntungan sebagai open-source, yang berarti diperbarui secara berkala dan pengembang sering berkontribusi padanya.

Platform Presto bekerja dengan sumber data non-relasional Suka:

Amazon S3
hadoop
HDFS
MongoDB
HBase

Dan database relasional Suka:

MySpace
PostgresSQL dan
MS SQL Server

Dengan Presto, Anda dapat membuat kueri data di mana pun itu disimpan. Itu berarti Anda tidak perlu mentransfer data ke database relasional atau gudang data. Presto dibuat untuk SQL dan mendukung semantik SQL standar. Ini termasuk sub-kueri, kueri kompleks, gabungan luar, jumlah berbeda, dan perkiraan persentil.

Eksekusi kueri juga lebih cepat, karena berjalan paralel dengan arsitektur berbasis memori. Oleh karena itu, Anda tidak perlu khawatir lagi tentang berapa lama waktu yang dibutuhkan untuk melakukan kueri pada basis data yang sangat besar. Hasilnya kembali dalam hitungan detik.

Mempelajari cara menyebarkan Presto dan arsitekturnya pada dokumentasi mereka.

Baca juga: Bagaimana Cara Memperbarui Driver Perangkat di Windows 10? {Panduan Sederhana}

Konsep Kunci

Konsep kunci SQL dikenal luas. Untuk memahami cara kerja Presto, pertama-tama kita perlu memahami konsep intinya.

Jenis server

Presto menggunakan dua jenis server: the koordinator server dan pekerja server. Node pekerja memproses kueri, mengambil data dari konektor. Koordinator mengambil hasil dan mengirimkannya ke klien. Server koordinator juga mengurai pernyataan dan mengelola node.

Ia bekerja mirip dengan sistem manajemen database Massive Parallel Processing.

Sistem manajemen basis data Pemrosesan Paralel Besar-besaran Sumber Gambar: tutorialspoint

Presto menggunakan konektor untuk menghubungkan antara sistem terdistribusi dan sumber, misalnya, Amazon S3. Banyaknya konektor Presto, ke sumber relasional dan non-relasional, membuat sistem dapat diperluas ke hampir semua sumber data.

Baca juga: Cara Memperbarui Driver di Windows 10,8,7 – Perbarui Driver Perangkat

Bagaimana Presto memproses kueri?

Saat presto menerima kueri, ia mengeksekusinya dengan memecahnya menjadi beberapa tahap. Biasanya sistem membuat tahap root dan tahap terkait. Tahapan tersebut kemudian didistribusikan ke dalam tugas di seluruh node pekerja.

Keuntungan menggunakan Presto

Presto menjadi sangat populer di kalangan perusahaan besar seperti Netflix, Facebook, Atlassian, dan Airbnb. Misalnya, Facebook menggunakan Presto untuk memproses satu petabyte data setiap hari, menjalankan lebih dari 30 ribu kueri.

Presto menyertakan dua proyek sumber terbuka yang terpisah: PrestoSQL (sekarang disebut Trino) dan PrestoDB. Ini sangat populer untuk beragam kasus penggunaan, di berbagai jenis data lake dan gudang data. Mari kita lihat beberapa keunggulan yang membuat Presto begitu populer.

1. Integrasi yang mudah

Salah satu keunggulan utama Presto adalah ia terintegrasi dengan sistem data Anda yang ada tanpa perlu modifikasi. Oleh karena itu, dengan menambahkan Presto, Anda menambahkan kemampuan analitik cepat tanpa perlu mengubah sistem yang ada.

2. Performa lebih cepat

Salah satu alasan Presto dikembangkan adalah karena Apache Hive yang ada tidak berkinerja baik dengan kueri interaktif. Presto dirancang untuk menangani kueri BI interaktif. Selain itu, ia mengikuti model push, memproses kueri SQL menggunakan beberapa tahapan secara bersamaan, artinya semua tahapan disalurkan tanpa menunggu di antara tahapan.

Presto juga memiliki transfer data memori-ke-memori, tanpa perlu menulis data ke disk, meningkatkan kinerja.

3. Dirancang untuk awan

Presto menjalankan penyimpanan dan komputasi secara terpisah, yang membuatnya sangat cocok untuk lingkungan cloud. Perusahaan yang menggunakan PrestoSQL dapat dengan mudah meningkatkan atau menurunkan tergantung pada beban tanpa menyebabkan kehilangan data. Ini bisa terjadi karena cluster Presto tidak menyimpan data apa pun.

4. Antarmuka SQL terpadu

SQL adalah bahasa yang paling populer untuk analisis data. Ilmuwan data, analis, dan insinyur menggunakan SQL untuk memproses, menganalisis, dan menguji data, mengintegrasikannya dengan alat intelijen bisnis.

Presto memiliki kemampuan tidak hanya untuk meminta data dari sumber SQL tetapi juga dari database NoSQL seperti Elasticsearch dan Cassandra. Ini mendukung konektivitas ANSI-SQL dan Postgres. Ini memberi Presto keserbagunaan yang tidak dimiliki sistem terdistribusi lainnya.

Antarmuka sangat ideal untuk data berukuran sedang karena memiliki kesamaan Fungsi jendela yang dimiliki PostgreSQL.

Baca juga: Cara Memperbarui Driver Grafik Di Windows 10 {Panduan Sederhana}

Untuk apa Anda dapat menggunakan Presto?

Presto digunakan di seluruh industri untuk berbagai macam kasus penggunaan. Ini sangat cocok untuk kueri ad-hoc dan interaktif. Mari kita jelajahi beberapa kasus penggunaan umum:

Analisis data danau

Anda dapat menggunakan PrestoSQL untuk membuat kueri data pada data lake tanpa perlu mengubah data. Presto memungkinkan Anda untuk menanyakan data di mana ia berada. Oleh karena itu, Anda dapat menggunakannya untuk memberdayakan analisis data lake Anda dengan menanyakan data terstruktur dan tidak terstruktur.

Permintaan ad hoc

Presto memungkinkan Anda menjalankan kueri kapan saja di mana pun data Anda berada. Lebih baik lagi, dengan konektor Presto, tim Anda dapat mengakses kumpulan data di berbagai sumber data, dan karena kueri dijalankan dalam hitungan detik, bukan jam, kinerja sistem Anda lebih cepat.

Batch ETL

Alih-alih menggunakan sistem pemrosesan batch lama, Anda dapat menggunakan Presto untuk menjalankan kueri yang efisien pada sumber daya. Anda dapat menggabungkan data dari beberapa sumber data dan melakukan kueri throughput tinggi.

Singkatnya, Presto memiliki beberapa keuntungan bagi perusahaan yang perlu memproses data dalam jumlah besar, melakukan ad hoc, kueri interaktif, dan menjalankan analitik dari sumber data yang berbeda.