אנא סובבו את הטלפון שלכם.

יצירת
קשר

לקבוצת
הפייסבוק

עמוד הביתמאמריםהאם הבינה המלאכותית הוזה?

האם הבינה המלאכותית הוזה?

חוקרים פיתחו דרך חדשה לבדוק את האמינות של מודלי שפה גדולים, כמו צ'אט GPT, בעזרת… עוד בינה מלאכותית.

מודלי שפה גדולים (LLM) דוגמת צ'אט GPT, קלוד, ג'מיני ועוד, הופכים להיות כלים שימושיים יותר ויותר ולפעמים אף מחליפים את השיטות האחרות לחיפוש מידע ברשת. הבעיה היא שהתשובות שלהם לא תמיד אמינות, אבל הן מנוסחות היטב ובבטחון מלא ולכן קשה לנו להבחין בכך. במאמר חדש מציעה קבוצת חוקרים באוניברסיטת אוקספורד דרך להתמודד עם הבעיה.

מה הם מודלי שפה גדולים ולמה הם טועים?

כדי להבין את הבעיה ולהתקדם אל פתרון, כדאי להבין קודם מה הם מודלי שפה ואיך הם עובדים. מודלי שפה הם מודלים של למידת מכונה. מהי למידת מכונה?  זו דרך לתת למחשב כמות גדולה של נתונים ופונקציית ציון מסוימת, ולתת לו ללמוד לבד איך לעבד את הנתונים כדי לקבל את הציון הטוב ביותר. בדרך כלל הציון הוא מדד שמראה עד כמה תוצאת העיבוד של המחשב רחוקה מתוצאת אמת ידועה מראש או עד כמה הוא קרוב לעמידה במשימה מסוימת, כמו קבלת ניקוד מרבי במשחק. לאחר שלב האימון והלימוד, נותנים למחשב נתונים שהוא לא מכיר, הוא משתמש באותו עיבוד שהוא למד בשלב הקודם, ואנחנו מקווים שהתוצאה שהוא יתן אכן תהיה טובה ואמיתית.

ומה לגבי מודלי שפה? אלה מודלים שאומנו על כמות גדולה של טקסטים מתוך מטרה לחזות, בהינתן טקסט מסויים, מה פיסת הטקסט הבאה. הכוונה לא למילה שלמה, המונח הטכני הוא טוקן (token), רצף תווים  קצת יותר קצר ממילה ממוצעת —  שצריך להופיע. ביישומים שבהם אנחנו מספקים למודל טקסט התחלתי, הבקשה/שאלה שלנו, המכונה פרומט (prompt)- והם משלימים אותו לפי האימון שלהם. נדגיש כי המודלים לא אומנו לתת תשובה נכונה, אלא את פיסת הטקסט הבאה המסתברת ביותר.  בשלב הבא הם מתייחסים לכל הטקסט כקלט, כולל הטוקן החדש, חוזים את הטוקן הבא, וחוזר חלילה עד שהם חוזים טוקן שמסמן עצירה. כך נוצרים משפטים, פסקאות ואף חיבורים שלמים. לעיתים התשובות שמודלים כאלה נותנים לנו שגויות מאוד, ולכן מכנים אותן "הזיות" (hallucinations).

במאמר החוקרים מפרידים בין שני סוגי הזיות. הראשון – שגיאה מערכתית – נובעת מכך שהמודל אומן על נתונים המכילים שגיאות. שגיאה כזו תחזור על עצמה, בהסתברות גבוהה, בכל פעם שנשאל את אותה שאלה. הסוג השני הוא הזיות שנובעות מכך שהנתונים עליהם אומן המודל לא מספקים די מידע עבור הפרומפט הזה. המודלים מאומנים להשלים טקסטים באמצעות הטוקן המסתבר ביותר, אבל התהליך כולל מידה מסוימת של אקראיות, שבדרך כלל יוצרת הבדלים בניסוח אבל לא בתוכן. אם המודל נשאל שאלה בלי שאומן על מידע רלוונטי, ההסתברויות להשלמות שונות עשויות להיות קרובות מאוד ואז הגדלים האקראיים יוצרים הבדלי מהות ולא רק ניסוח. אבל המחשב יספק לנו תשובה, גם אם אינו יודע אותה, וכמובן אם אינו יודע שאינו יודע. במקרה כזה, אם ניתן את אותו הפרומפט שוב ושוב, נקבל בכל פעם תגובה אחרת. הזיות כאלה מכונות לעיתים קונפבולציות (confabulation), על שם בעיה נוירולוגית המתאפיינת בהמצאת זכרונות כוזבים שלא מתוך כוונה לשקר.

אז איך עולים על הטעות?

המחקר החדש מציע דרך לזהות טעויות מהסוג השני, בעזרת הטבע האקראי של הטעות. אם נזין למודל השפה את אותו הפרומפט כמה פעמים ונקבל תשובות שונות מאוד לא רק מבחינת בחירת המילים, אלא במשמעות עצמה. במקרה כזה נוכל להניח בוודאות גבוהה שמדובר בקונפבולציה.

אבל זה לא פשוט כמו שזה נשמע. המכשול העיקרי הוא שמחשב, לא אדם, צריך לעשות את התהליך הזה והמחשב צריך להבין מתי המשמעות של התשובות דומה או שונה, לא הטקסט עצמו. זו משימה קלה לאדם אך מורכבת מאוד למחשב. קושי נוסף הוא שתשובה של מודל שפה יכולה להיות ארוכה  ולכלול עובדות רבות, חלקן נכונות וחלקן קונפבולציות. בדיקה טובה תוכל להתייחס לא רק לתשובה כולה, אלא לכל עובדה בתוכה בנפרד. כדי להתמודד עם הקשיים האלה נשתמש, איך לא, בבינה מלאכותית.

החוקרים משתמשים במודל שפה נוסף כדי לבדוק את המודל הראשון. המודל הבודק שואל את המודל הנבחן את אותה שאלה כמה פעמים ובוחן עד כמה המשמעות של התשובות דומה. האלגוריתם מקבץ את התשובות במקבצים בעלי משמעות זהה, כאשר שתי תשובות תהיינה באותו מקבץ אם כל אחת מהן נובעת מהאחרת. יש כיום מודלים שמאומנים למשימות מסוג זה. באמצעות התהליך הזה מחשבים גודל שנקרא אנטרופיה סמנטית, מדד מספרי שמציין את מידת ההתפלגות במשמעויות של התשובות. ככל שההתפלגות רחבה יותר, גדול יותר הסיכוי שנתקלנו בהזיה.

עבור תשובה ארוכה יותר, המודל הבודק ינסה לבודד מתוכה עובדות ולבחון כל אחת בפני עצמה בעזרת שאלה ספציפית על העובדה הזו, אולי בווריאציות שונות. בדוגמה מתוך המאמר, המודל הנבחן נשאל מי הוא פרדי פרית' (Frith), אופנוען מרוצים בריטי ידוע מתחילת המאה העשרים.  המודל הנבחן ענה בין השאר שהוא נולד בשנת 1911. המודל הבודק מתייחס לזה כאל עובדה ושואל את הנבחן שלוש פעמים באיזו שנה נולד פרדי פרית', ומקבל את התשובה 1909. אחר כך המודל הבודק שואל שלוש פעמי מתי נולד פרדי פרית' ומקבל את התשובות 30 במאי 1909, 29 במרץ 1909 ו-26 באוקטובר 1911. בהסתמך על השונות בין כל התשובות האלה, המודל הבודק מסווג את התשובה המקורית כהזיה ככל הנראה, ואת השאלה ככזו שהמודל לא יכול כפי הנראה לענות עליה.

 

החוקרים בחנו את האלגוריתם הבודק שלהם עם כמה מודלי שפה ובכמה תחומי ידע, והראו כי הוא עולה על בדיקות מהימנות אחרות הקיימות כיום, לעיתים בפערים של עשרות אחוזים. אז מי ישמור על מודלי השפה? כנראה שמודלי שפה אחרים. ומי ישמור על השומרים? מי יודע.

מאת: דר' בועז קרני-הראל

לכתבה>>

באדיבות מכון דוידסון לחינוך מדעי, הזרוע החינוכית של מכון ויצמן למדע
https://davidson.weizmann.ac.il/

מאמרים נוספים

חיסוןןן
ה-CDC ממליץ למבוגרים לקבל חיסון נגד פניאומוקוקוס
הוועדה המייעצת לפרקטיקות החיסון של המרכז האמריקאי לבקרת מחלות ומניעתן ממליצה למבוגרים אמריקאים לקבל חיסון נגד פניאומוקוקוס. פניאומוקוקוס הינו זיהום חיידקי,...
DNA 1
למידה עמוקה במיוחד
רובוט ימי בעל זרוע רגישה, מצלמות משוכללות, חיישני אור למעקב אחרי תנועה ומשאבה ללכידה וקיבוע מיידי של DNA, מאפשר ללמוד את יצורי המעמקים ברמת פירוט חסרת...
וירוס
הפיתוח של חיסון המיועד לריריות כנגד נגיפים הפוגעים בדרכי הנשימה
מאמר סקירה חדש, שפורסם בכתב העת "תאי המאכסן וחיידקים", בוחן את האתגרים והגישות לשיפור החיסוניות. שלא כנגיפים אחרים, לנגיפי הקורונה מספר מאפיינים...
artificial intelligence
זהירות: בינה מלאכותית
קבוצת חוקרים מתחומי דעת שונים קוראת ליתר פיקוח על טכנולוגיות ה-AI. לפני מספר חודשים פורסם בכתב העת המדעי היוקרתי Science מאמר דעה, המתריע מפני סכנות הבינה...

עדכוני רישום

חיפושים מובילים

וובינרים קרובים

  • 21:20 – 21:00
    "Dayvigo מנגנון פעולה חדש לטיפול בנדודי שינה (אינסומניה)"

 

  • 21:50 – 21:30
    "שיפור ושימור יכולות קוגניטיביות – מה חדש בעולם תוספי התזונה?"
לפרטים נוספים והרשמה
  • אטופיק דרמטיטיס – מי המטופלים שלנו?

 

  • טיפולים מקומיים – איזה טיפול, כמה זמן, ובאיזה מקום?

 

  • טיפולים סיסטמיים – למי, מתי, ואיזה?
לפרטים נוספים והרשמה
  • מולקולה חדשה מסוגה – קו-אגוניסט ארוך פעולה של הקולטנים ל GLP-1 ו GIP
  • הצגת תוצאות מחקרי ה SURPASS
  • יעילות התרופה בירידה במדדי HbA1c ובמשקל
  • פרופיל בטיחות
  • גישות לטיפול במחלת ההשמנה
  • הצגת תוצאות מחקרי הSURMOUNT
  • יעילות התרופה בהורדה במשקל
  • פרופיל בטיחות
לפרטים נוספים והרשמה

אישור הרשמה

תודה על הרשמתך

ברגעים אלה נשלח אליכם מייל אישור הרשמה. להפעלת חשבונך באתר, יש ללחוץ על קישור זה.

הנתונים שסיפקת במהלך הרישום נבדקים כעת מול מאגר רישוי המקצועות הרפואיים במשרד הבריאות. בתום הבדיקה תתקבל הודעה בהתאם.

תוכן למנויים

תוכן זה ניתן להצגה
לאנשי / נשות
צוות מקצועי בלבד

לכניסה למערכת:

עדיין לא נרשמת? להרשמה לאתר

,אם הינכם עובדי מקצועות הבריאות
.עדכנו זאת בחשבונכם האישי

אם לדעתך נפלה טעות, ניתן ליצור קשר עם צוות האתר דרך עמוד יצירת הקשר

כניסת מנויים רשומים

עדיין לא נרשמת? להרשמה לאתר

בלחיצה על כניסה אני מאשר\ת את הסכמתי לתנאי האתר ולמדיניות הפרטיות