การประมวลผลข้อมูลขนาดใหญ่เป็นหนึ่งในแง่มุมที่สำคัญของยุคดิจิทัลนี้ บริษัทต่างๆ ใช้ปัญญาประดิษฐ์ แมชชีนเลิร์นนิง และการวิเคราะห์ข้อมูลมากขึ้น ซึ่งผลิตและเก็บรวบรวมข้อมูลมากขึ้น จึงส่งผลให้ ข้อมูลจำนวนมหาศาล ที่ต้องมีการสอบถามและวิเคราะห์อย่างมีประสิทธิภาพ
คลาวด์คอมพิวติ้งและ Presto สามารถช่วยได้ที่นี่
Presto คืออะไร?
ตามคำจำกัดความของ Amazon AWS: Presto เป็นกลไกค้นหา SQL แบบกระจาย ซึ่งสร้างขึ้นเพื่อดำเนินการสืบค้นเพื่อวิเคราะห์อย่างรวดเร็วบนชุดข้อมูลทุกขนาด มันถูกรีแบรนด์เมื่อปลายปี 2020 เนื่องจาก Trino เพื่อแยกโปรเจ็กต์ออกจาก Prestodb
Presto มีข้อได้เปรียบในการเป็นโอเพ่นซอร์ส ซึ่งหมายความว่ามีการอัปเดตเป็นประจำและนักพัฒนามีส่วนสนับสนุนบ่อยครั้ง
แพลตฟอร์ม Presto ใช้งานได้กับ แหล่งข้อมูลที่ไม่สัมพันธ์กัน ชอบ:
- อเมซอน S3
- Hadoop
- HDFS
- MongoDB
- HBase
และ ฐานข้อมูลเชิงสัมพันธ์ ชอบ:
- พื้นที่ของฉัน
- PostgresSQL และ
- MS SQL Server
กับ Prestoคุณสามารถสืบค้นข้อมูลได้ทุกที่ที่จัดเก็บ นั่นหมายความว่าคุณไม่จำเป็นต้องถ่ายโอนข้อมูลไปยังฐานข้อมูลเชิงสัมพันธ์หรือคลังข้อมูล Presto ถูกสร้างขึ้นสำหรับ SQL และรองรับความหมายของ SQL มาตรฐาน ซึ่งรวมถึงคิวรีย่อย คิวรีที่ซับซ้อน การรวมภายนอก การนับที่แตกต่างกัน และเปอร์เซ็นไทล์โดยประมาณ
การดำเนินการค้นหาทำได้เร็วกว่าด้วย เนื่องจากทำงานควบคู่ไปกับสถาปัตยกรรมที่ใช้หน่วยความจำ ดังนั้น คุณไม่ต้องกังวลอีกต่อไปว่าจะใช้เวลานานแค่ไหนในการสืบค้นฐานข้อมูลขนาดใหญ่ ผลลัพธ์จะกลับมาในไม่กี่วินาที
เรียนรู้ วิธีการปรับใช้ Presto และสถาปัตยกรรมในเอกสารประกอบ
ยังอ่าน: จะอัพเดตไดรเวอร์อุปกรณ์ใน Windows 10 ได้อย่างไร? {คู่มือง่ายๆ}
แนวคิดหลัก
แนวคิดหลักของ SQL เป็นที่รู้จักกันอย่างแพร่หลาย เพื่อให้เข้าใจว่า Presto ทำงานอย่างไร เราต้องเข้าใจแนวคิดหลักก่อน
ประเภทเซิร์ฟเวอร์
Presto ใช้เซิร์ฟเวอร์สองประเภท: the ผู้ประสานงาน เซิร์ฟเวอร์และ คนงาน เซิร์ฟเวอร์ โหนดผู้ปฏิบัติงานประมวลผลการสืบค้น โดยดึงข้อมูลจากตัวเชื่อมต่อ ผู้ประสานงานดึงผลลัพธ์และส่งให้กับลูกค้า เซิร์ฟเวอร์ผู้ประสานงานยังแยกวิเคราะห์คำสั่งและจัดการโหนด
ทำงานคล้ายกับระบบการจัดการฐานข้อมูลการประมวลผลแบบขนานขนาดใหญ่
ที่มาของรูปภาพ: tutorialspoint
Presto ใช้ตัวเชื่อมต่อเพื่อเชื่อมโยงระหว่างระบบแบบกระจายและต้นทาง เช่น Amazon S3 ตัวเชื่อมต่อจำนวนมากของ Presto กับแหล่งข้อมูลเชิงสัมพันธ์และไม่ใช่เชิงสัมพันธ์ ทำให้ระบบขยายไปยังแหล่งข้อมูลเกือบทุกชนิด
ยังอ่าน: วิธีอัปเดตไดรเวอร์ใน Windows 10,8,7 – อัปเดตไดรเวอร์อุปกรณ์
Presto ประมวลผลการสืบค้นอย่างไร
เมื่อ presto ได้รับแบบสอบถาม จะดำเนินการโดยแบ่งออกเป็นหลายขั้นตอน โดยปกติระบบจะสร้างสเตจรูทและสเตจที่เกี่ยวข้อง จากนั้นขั้นตอนต่างๆ จะถูกกระจายไปยังงานต่างๆ ทั่วทั้งโหนดของผู้ปฏิบัติงาน
ข้อดีของการใช้ Presto
Presto กำลังเป็นที่นิยมอย่างมากกับองค์กรขนาดใหญ่เช่น Netflix, Facebook, Atlassian และ Airbnb ตัวอย่างเช่น Facebook ใช้ Presto เพื่อประมวลผลข้อมูลหนึ่งเพทาไบต์ทุกวัน โดยเรียกใช้การสืบค้นมากกว่า 30,000 รายการ
Presto มีโครงการโอเพ่นซอร์สสองโครงการแยกกัน: PrestoSQL (ปัจจุบันเรียกว่า Trino) และ PrestoDB เป็นที่นิยมอย่างมากสำหรับกรณีการใช้งานที่หลากหลาย ใน data lake และคลังข้อมูลประเภทต่างๆ มาดูข้อดีบางประการที่ทำให้ Presto เป็นที่นิยมกัน
1. บูรณาการได้ง่าย
ข้อดีที่สำคัญประการหนึ่งของ Presto คือการผสานรวมกับระบบข้อมูลที่มีอยู่ของคุณโดยไม่ต้องแก้ไข ดังนั้น ด้วยการเพิ่ม Presto คุณจะเพิ่มความสามารถในการวิเคราะห์ที่รวดเร็วโดยไม่จำเป็นต้องปรับแต่งระบบที่มีอยู่ของคุณ
2. ประสิทธิภาพที่เร็วขึ้น
สาเหตุหนึ่งที่ทำให้ Presto พัฒนาขึ้นก็เพราะว่า Apache Hive ที่มีอยู่ทำงานได้ไม่ดีกับการสืบค้นแบบโต้ตอบ Presto ออกแบบมาเพื่อจัดการกับการสืบค้น BI เชิงโต้ตอบ นอกจากนี้ มันเป็นไปตามโมเดลพุช ซึ่งประมวลผลการสืบค้น SQL โดยใช้หลายขั้นตอนพร้อมกัน หมายความว่าขั้นตอนทั้งหมดจะถูกส่งต่อโดยไม่ต้องรอระหว่างขั้นตอน
Presto ยังมีการถ่ายโอนข้อมูลระหว่างหน่วยความจำสู่หน่วยความจำ โดยไม่จำเป็นต้องเขียนข้อมูลลงดิสก์ ซึ่งช่วยเพิ่มประสิทธิภาพ
3. ออกแบบมาสำหรับระบบคลาวด์
Presto เรียกใช้พื้นที่จัดเก็บและคำนวณแยกกัน ซึ่งทำให้เหมาะสำหรับสภาพแวดล้อมระบบคลาวด์มาก บริษัทที่ใช้ PrestoSQL สามารถปรับขนาดขึ้นหรือลงได้อย่างง่ายดายโดยขึ้นอยู่กับโหลดโดยไม่ทำให้ข้อมูลสูญหาย สิ่งนี้สามารถเกิดขึ้นได้เนื่องจากคลัสเตอร์ Presto ไม่ได้จัดเก็บข้อมูลใดๆ
4. อินเทอร์เฟซ SQL แบบรวม
SQL เป็นภาษาที่ได้รับความนิยมมากที่สุดสำหรับการวิเคราะห์ข้อมูล นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ และวิศวกรใช้ SQL ในการประมวลผล วิเคราะห์ และทดสอบข้อมูล โดยผสานรวมกับเครื่องมือข่าวกรองธุรกิจ
Presto มีความสามารถไม่เพียงแต่สืบค้นข้อมูลจากแหล่ง SQL แต่ยังมาจากฐานข้อมูล NoSQL เช่น Elasticsearch และ Cassandra รองรับการเชื่อมต่อ ANSI-SQL และ Postgres สิ่งนี้ทำให้ Presto มีความเก่งกาจที่ระบบกระจายอื่นๆ ไม่มี
อินเทอร์เฟซเหมาะอย่างยิ่งสำหรับข้อมูลขนาดกลางเพราะมีเหมือนกัน ฟังก์ชั่นหน้าต่าง ที่ PostgreSQL มี
ยังอ่าน: วิธีอัปเดตไดรเวอร์กราฟิกใน Windows 10 {Simple Guide}
คุณสามารถใช้ Presto ทำอะไรได้บ้าง
Presto ใช้ในอุตสาหกรรมต่างๆ สำหรับกรณีการใช้งานที่หลากหลาย เหมาะอย่างยิ่งสำหรับการสืบค้นแบบเฉพาะกิจและแบบโต้ตอบ มาสำรวจกรณีการใช้งานทั่วไปกัน:
การวิเคราะห์ Data Lake
คุณสามารถใช้ PrestoSQL เพื่อสืบค้นข้อมูลใน Data Lake โดยไม่ต้องแปลงข้อมูล Presto ช่วยให้คุณสืบค้นข้อมูลได้ว่าอยู่ที่ไหน ดังนั้น คุณสามารถใช้เพื่อเพิ่มศักยภาพในการวิเคราะห์ Data Lake ของคุณด้วยการสืบค้นข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง
แบบสอบถามเฉพาะกิจ
Presto ช่วยให้คุณเรียกใช้คิวรีได้ทุกเมื่อไม่ว่าข้อมูลของคุณจะอยู่ที่ใด ยิ่งไปกว่านั้น ด้วยตัวเชื่อมต่อ Presto ทีมของคุณสามารถเข้าถึงชุดข้อมูลในแหล่งข้อมูลที่หลากหลาย และเนื่องจากการสืบค้นจะดำเนินการในไม่กี่วินาทีแทนที่จะเป็นชั่วโมง ระบบของคุณจึงทำงานเร็วขึ้น
ชุด ETL
แทนที่จะใช้ระบบประมวลผลแบบแบตช์แบบเดิม คุณสามารถใช้ Presto เพื่อเรียกใช้คิวรีที่มีประสิทธิภาพในทรัพยากร คุณสามารถรวมข้อมูลจากแหล่งข้อมูลหลายแหล่งและดำเนินการค้นหาที่มีปริมาณงานสูง
โดยสรุป Presto มีข้อดีหลายประการสำหรับบริษัทที่ต้องการประมวลผลข้อมูลจำนวนมาก ดำเนินการเฉพาะกิจ สืบค้นแบบโต้ตอบ และเรียกใช้การวิเคราะห์จากแหล่งข้อมูลที่แตกต่างกัน