כיצד להפעיל את Llama 2 באופן מקומי ב-Mac או PC

אם שמעתם על Llama 2 וברצונכם להפעיל אותו במחשב האישי שלכם, תוכלו לעשות זאת בקלות עם כמה תוכניות בחינם.

קישורים מהירים

  • דרישות
  • כיצד להפעיל את Llama 2 על מק או לינוקס באמצעות Ollama
  • כיצד להפעיל את Lama 2 ב-Windows באמצעות ממשק משתמש אינטרנטי

אם אתה אוהב את הרעיון של ChatGPT, גוגל בארד, בינג צ'אט, או כל אחד מעוזרי הבינה המלאכותית האחרים, אז אולי יש לך כמה חששות הקשורים לפרטיות, עלויות ועוד. זה המקום שבו Llama 2 נכנס לתמונה. Llama 2 הוא מודל שפה גדול בקוד פתוח שפותח על ידי Meta, וישנן גרסאות הנעות בין 7 מיליארד ל-70 מיליארד פרמטרים.

בהתחשב בעובדה שזהו LLM בקוד פתוח, אתה יכול לשנות אותו ולהפעיל אותו בכל דרך שתרצה, בכל מכשיר. אם אתה רוצה לנסות את זה במחשב Linux, Mac או Windows, אתה יכול בקלות!

דרישות

תצטרך את הדברים הבאים כדי להפעיל את Llama 2 באופן מקומי:

  • אחד מ המעבד הגרפי הטוב ביותר של Nvidia (אתה יכול להשתמש ב-AMD בלינוקס)
  • חיבור לאינטרנט

כיצד להפעיל את Llama 2 על מק או לינוקס באמצעות Ollama

אם יש לך מק, אתה יכול להשתמש ב- Ollama כדי להפעיל את Llama 2. זו ללא ספק הדרך הקלה ביותר לעשות זאת מכל הפלטפורמות, מכיוון שהיא דורשת עבודה מינימלית כדי לעשות זאת. כל מה שאתה צריך זה מק וזמן להוריד את ה-LLM, מכיוון שזה קובץ גדול.

שלב 1: הורד את Ollama

הדבר הראשון שתצטרך לעשות הוא הורד אולמה. זה פועל על Mac ו-Linux ומקל על הורדה והפעלה של מספר דגמים, כולל Llama 2. אתה יכול אפילו להפעיל אותו במיכל Docker אם תרצה עם האצת GPU אם תרצה להגדיר אותו בקלות.

לאחר הורדת Ollama, לחלץ אותו לתיקיה לבחירתך ו תריץ את זה.

שלב 2: הורד את דגם Llama 2

לאחר התקנת Ollama, הפעל את הפקודה הבאה למשוך את דגם Lama 2 בעל 13 מיליארד פרמטרים.

ollama pull llama2:13b

זה עשוי לקחת זמן מה, אז תן לזה זמן לרוץ. זהו קובץ של 7.4 ג'יגה-בייט ועשוי להיות איטי בחלק מהחיבורים.

שלב 3: הפעל את Lama 2 וצור איתה אינטראקציה

הַבָּא, הפעל את הפקודה הבאה כדי להשיק ולקיים אינטראקציה עם המודל.

ollama run llama2

זה יפעיל את המודל, ותוכל ליצור איתו אינטראקציה. אתה סיימת!

כיצד להפעיל את Lama 2 ב-Windows באמצעות ממשק משתמש אינטרנטי

אם אתה משתמש במכונת Windows, אין צורך לדאוג מכיוון שקל להגדיר אותה באותה מידה, אם כי עם שלבים נוספים! תוכל לשכפל מאגר GitHub ולהפעיל אותו באופן מקומי, וזה כל מה שאתה צריך לעשות.

שלב 1: הורד והפעל את ה-Llama 2 Web GUI

אם אתה מכיר דיפוזיה יציבה ולהריץ אותו באופן מקומי דרך ממשק משתמש אינטרנטי, זה מה שזה בעצם. מאגר ה-Web UI GitHub ליצירת טקסט של oobabooga הוא בהשראת זה ועובד באותה צורה.

  1. הורד המאגר המקושר למעלה
  2. לָרוּץ start_windows.bat, start_linux.sh, או start_macos.sh תלוי באיזו פלטפורמה אתה משתמש
  3. בחר את ה-GPU שלך ולאפשר לו להתקין את כל מה שהוא צריך

שלב 2: גש ל-Llama 2 Web GUI

מהאמור לעיל, אתה יכול לראות שזה ייתן לך כתובת IP מקומית להתחבר ל-GUI האינטרנט. התחבר אליו בדפדפן שלך ואתה אמור לראות את ה-GUI של האינטרנט. לחץ מסביב והכר את ממשק המשתמש. תחילה תטען חלון צ'אט, אך הוא לא יעבוד עד שתטען דגם.

שלב 3: טען דגם של לאמה 2

כעת תצטרך לטעון דגם. זה ייקח קצת זמן מכיוון שהוא יצטרך להוריד אותו, אבל אתה יכול לעשות זאת מתוך ממשק המשתמש של האינטרנט.

  1. לחץ על דֶגֶם לשונית בחלק העליון
  2. מימין, היכנס TheBloke/Llama-2-13B-chat-GPTQ ולחץ הורד
  3. אם זה מוריד, אתה אמור לראות סרגל התקדמות בשורת הפקודה שלך בזמן שהוא מוריד את הקבצים הרלוונטיים.
  4. בסיום, רענן את רשימת הדגמים בצד שמאל ולחץ על הדגם שהורד.
  5. נְקִישָׁה לִטעוֹן, לוודא שמטען הדגם אומר GPTQ-עבור-LLaMa

זה עשוי לקחת רגע עד שהוא ייטען, מכיוון שדגמים אלה דורשים הרבה vRAM.

שלב 4: אינטראקציה עם לאמה 2!

הכל בסדר, עכשיו אתה אמור להפעיל את Llama 2 במחשב שלך! אתה יכול לקיים איתו אינטראקציה דרך הדפדפן שלך בסביבה ללא אינטרנט, כל עוד יש לך את החומרה הדרושה לביצועה. ב-RTX 4080 שלי עם 16GB של vRAM הוא יכול לייצר כמעט 20 אסימונים לשנייה, וזה מהיר משמעותית ממה שתמצא ברוב התוכניות החינמיות עבור כל LLMs כמו ChatGPT או אחר.