עיבוד נתונים גדולים הוא אחד ההיבטים הקריטיים של עידן דיגיטלי זה. חברות משתמשות יותר בבינה מלאכותית, למידת מכונה וניתוח נתונים, אשר מייצרים ואוספים יותר נתונים. לכן, זה מוביל כמויות אדירות של נתונים שצריך לשאול ולנתח אותו ביעילות.
כאן יכולים לעזור מחשוב ענן ו-Presto.
מה זה פרסטו?
לפי הגדרת Amazon AWS: Presto הוא מנוע שאילתות SQL מבוזר, שנוצר כדי לבצע שאילתות אנליטיות מהירות על מערכי נתונים בכל גודל. זה מותג מחדש בסוף 2020 כטרינו כדי להפריד את הפרויקט מ-Prestodb.
ל-Presto יש את היתרון של קוד פתוח, מה שאומר שהוא מתעדכן באופן קבוע ומפתחים תורמים לו לעתים קרובות.
פלטפורמת Presto עובדת עם מקורות נתונים לא רציונליים כמו:
- אמזון S3
- Hadoop
- HDFS
- MongoDB
- HBase
ו מסדי נתונים יחסיים כמו:
- מייספייס
- PostgresSQL ו
- MS SQL Server
עם פרסטו, אתה יכול לבצע שאילתות בנתונים בכל מקום שבו הם מאוחסנים. זה אומר שאתה לא צריך להעביר את הנתונים למסד נתונים יחסי או למחסן נתונים. Presto נוצר עבור SQL ותומך בסמנטיקה סטנדרטית של SQL. זה כולל שאילתות משנה, שאילתות מורכבות, חיבורים חיצוניים, ספירות ברורות ואחוזונים משוערים.
גם ביצוע שאילתות מהיר יותר, מכיוון שהוא פועל במקביל לארכיטקטורה מבוססת זיכרון. לכן, אינך צריך לדאוג יותר לגבי כמה זמן עשוי לקחת שאילתות למסד נתונים מאסיבי. התוצאות חוזרות תוך שניות.
לִלמוֹד כיצד לפרוס את Presto והארכיטקטורה שלו על התיעוד שלהם.
קרא גם: כיצד לעדכן מנהלי התקנים ב- Windows 10? {מדריך פשוט}
מושגי מפתח
מושגי SQL מפתחים ידועים. כדי להבין איך Presto עובד, ראשית עלינו להבין את מושגי הליבה שלו.
סוגי שרתים
Presto משתמש בשני סוגי שרתים: ה רכז שרת ו העובד שרת. צמתי העובדים מעבדים את השאילתות, שואבים נתונים מהמחברים. הרכז מביא את התוצאות ושולח אותן ללקוח. שרתי רכז גם מנתחים הצהרות ומנהלים צמתים.
זה עובד בדומה למערכות ניהול מסד נתונים מסוג Massive Parallel Processing.
מקור תמונה: tutorialspoint
Presto משתמש במחברים כדי לקשר בין המערכת המבוזרת למקור, למשל, Amazon S3. המחברים הרבים של Presto, למקורות יחסיים ולא יחסיים, הופכים את המערכת לניתנת להרחבה כמעט לכל מקור נתונים.
קרא גם: כיצד לעדכן מנהלי התקנים ב-Windows 10,8,7 - עדכן מנהלי התקנים
כיצד Presto מעבד שאילתות?
כאשר Presto מקבל שאילתה, הוא מבצע אותה על ידי פירוקה למספר שלבים. בדרך כלל המערכת יוצרת שלב שורש ושלבים קשורים. השלבים מחולקים לאחר מכן למשימות על פני צמתי העובד.
יתרונות השימוש ב-Presto
Presto הופך פופולרי מאוד בקרב ארגונים גדולים כמו Netflix, Facebook, Atlassian ו-Airbnb. לדוגמה, פייסבוק משתמשת ב-Presto כדי לעבד פטה-בייט אחד של נתונים בכל יום, תוך הפעלת למעלה מ-30 אלף שאילתות.
Presto כולל שני פרויקטים נפרדים בקוד פתוח: PrestoSQL (נקרא כעת Trino) ו-PrestoDB. זה פופולרי מאוד עבור מגוון רחב של מקרי שימוש, על פני סוגים שונים של אגמי נתונים ומחסני נתונים. בואו נסתכל על כמה מהיתרונות שהופכים את Presto לכל כך פופולרי.
1. אינטגרציה קלה
אחד היתרונות המרכזיים של Presto הוא שהיא משתלבת עם מערכת הנתונים הקיימת שלך ללא צורך בשינויים. לכן, על ידי הוספת Presto אתה מוסיף יכולות ניתוח מהירות מבלי צורך להתאים את המערכת הקיימת שלך.
2. ביצועים מהירים יותר
אחת הסיבות ש-Presto פותחה הייתה בגלל שכוורת ה-Apache הקיימת לא הצליחה עם שאילתות אינטראקטיביות. Presto נועד לטפל בשאילתות BI אינטראקטיביות. חוץ מזה, הוא עוקב אחר מודל הדחיפה, מעבד שאילתת SQL תוך שימוש במספר שלבים במקביל, כלומר כל השלבים מועברים בצנרת מבלי להמתין בין השלבים.
ל-Presto יש גם העברת נתונים מזיכרון לזיכרון, ללא צורך בכתיבת נתונים לדיסק, מה שמשפר את הביצועים.
3. עוצב עבור הענן
Presto מפעיל אחסון ומחשב בנפרד, מה שהופך אותו למתאים מאוד לסביבות ענן. חברות המשתמשות ב-PrestoSQL יכולות להגדיל או להקטין בקלות בהתאם לעומס מבלי לגרום לאובדן נתונים. זה יכול לקרות מכיוון שאשכול Presto אינו מאחסן נתונים.
4. ממשק SQL מאוחד
SQL היא השפה הפופולרית ביותר לניתוח נתונים. מדעני נתונים, אנליסטים ומהנדסים משתמשים ב-SQL לעיבוד, ניתוח ובדיקת נתונים, תוך שילובם עם כלי בינה עסקית.
ל-Presto יש את היכולת לא רק לבצע שאילתות על נתונים ממקורות SQL אלא גם מבסיסי נתונים של NoSQL כמו Elasticsearch ו-Cassandra. הוא תומך בקישוריות ANSI-SQL ו-Postgres. זה נותן ל-Presto צדדיות שאין למערכות מבוזרות אחרות.
הממשק אידיאלי עבור נתונים בגודל בינוני מכיוון שיש לו אותו הדבר פונקציות חלון שיש ל-PostgreSQL.
קרא גם: כיצד לעדכן מנהלי התקנים גרפיים ב-Windows 10 {מדריך פשוט}
בשביל מה אתה יכול להשתמש ב-Presto?
Presto משמש בתעשיות למגוון רחב של מקרי שימוש. זה מתאים במיוחד לשאילתות אד-הוק ואינטראקטיביות. הבה נחקור כמה מקרי שימוש נפוצים:
ניתוח אגם נתונים
אתה יכול להשתמש ב-PrestoSQL כדי לבצע שאילתות על נתונים באגם נתונים מבלי שתצטרך לשנות את הנתונים. Presto מאפשר לך לבצע שאילתות נתונים היכן הם יושבים. לכן, אתה יכול להשתמש בו כדי להעצים את ניתוח אגם הנתונים שלך על ידי שאילתת נתונים מובנים ולא מובנים.
שאילתות אד-הוק
Presto מאפשר לך להריץ שאילתות בכל עת ללא קשר למיקום הנתונים שלך. אפילו טוב יותר, עם מחברי Presto, הצוותים שלך יכולים לגשת למערכי נתונים במגוון רחב של מקורות נתונים, ומכיוון שהשאילתות מופעלות תוך שניות במקום שעות, המערכת שלך פועלת מהר יותר.
אצווה ETL
במקום להשתמש במערכות עיבוד אצווה מדור קודם, אתה יכול להשתמש ב-Presto כדי להריץ שאילתות שיעילות במשאבים. אתה יכול לצבור נתונים ממקורות נתונים מרובים ולבצע שאילתות עם תפוקה גבוהה.
לסיכום, ל-Presto יש מספר יתרונות עבור חברות שצריכות לעבד כמויות גדולות של נתונים, לבצע שאילתות אד-הוק, אינטראקטיביות ולהפעיל ניתוחים ממקורות נתונים שונים.