עמוד הביתמאמריםהאם הבינה המלאכותית הוזה?

האם הבינה המלאכותית הוזה?

חוקרים פיתחו דרך חדשה לבדוק את האמינות של מודלי שפה גדולים, כמו צ'אט GPT, בעזרת… עוד בינה מלאכותית.

מודלי שפה גדולים (LLM) דוגמת צ'אט GPT, קלוד, ג'מיני ועוד, הופכים להיות כלים שימושיים יותר ויותר ולפעמים אף מחליפים את השיטות האחרות לחיפוש מידע ברשת. הבעיה היא שהתשובות שלהם לא תמיד אמינות, אבל הן מנוסחות היטב ובבטחון מלא ולכן קשה לנו להבחין בכך. במאמר חדש מציעה קבוצת חוקרים באוניברסיטת אוקספורד דרך להתמודד עם הבעיה.

מה הם מודלי שפה גדולים ולמה הם טועים?

כדי להבין את הבעיה ולהתקדם אל פתרון, כדאי להבין קודם מה הם מודלי שפה ואיך הם עובדים. מודלי שפה הם מודלים של למידת מכונה. מהי למידת מכונה?  זו דרך לתת למחשב כמות גדולה של נתונים ופונקציית ציון מסוימת, ולתת לו ללמוד לבד איך לעבד את הנתונים כדי לקבל את הציון הטוב ביותר. בדרך כלל הציון הוא מדד שמראה עד כמה תוצאת העיבוד של המחשב רחוקה מתוצאת אמת ידועה מראש או עד כמה הוא קרוב לעמידה במשימה מסוימת, כמו קבלת ניקוד מרבי במשחק. לאחר שלב האימון והלימוד, נותנים למחשב נתונים שהוא לא מכיר, הוא משתמש באותו עיבוד שהוא למד בשלב הקודם, ואנחנו מקווים שהתוצאה שהוא יתן אכן תהיה טובה ואמיתית.

ומה לגבי מודלי שפה? אלה מודלים שאומנו על כמות גדולה של טקסטים מתוך מטרה לחזות, בהינתן טקסט מסויים, מה פיסת הטקסט הבאה. הכוונה לא למילה שלמה, המונח הטכני הוא טוקן (token), רצף תווים  קצת יותר קצר ממילה ממוצעת —  שצריך להופיע. ביישומים שבהם אנחנו מספקים למודל טקסט התחלתי, הבקשה/שאלה שלנו, המכונה פרומט (prompt)- והם משלימים אותו לפי האימון שלהם. נדגיש כי המודלים לא אומנו לתת תשובה נכונה, אלא את פיסת הטקסט הבאה המסתברת ביותר.  בשלב הבא הם מתייחסים לכל הטקסט כקלט, כולל הטוקן החדש, חוזים את הטוקן הבא, וחוזר חלילה עד שהם חוזים טוקן שמסמן עצירה. כך נוצרים משפטים, פסקאות ואף חיבורים שלמים. לעיתים התשובות שמודלים כאלה נותנים לנו שגויות מאוד, ולכן מכנים אותן "הזיות" (hallucinations).

במאמר החוקרים מפרידים בין שני סוגי הזיות. הראשון – שגיאה מערכתית – נובעת מכך שהמודל אומן על נתונים המכילים שגיאות. שגיאה כזו תחזור על עצמה, בהסתברות גבוהה, בכל פעם שנשאל את אותה שאלה. הסוג השני הוא הזיות שנובעות מכך שהנתונים עליהם אומן המודל לא מספקים די מידע עבור הפרומפט הזה. המודלים מאומנים להשלים טקסטים באמצעות הטוקן המסתבר ביותר, אבל התהליך כולל מידה מסוימת של אקראיות, שבדרך כלל יוצרת הבדלים בניסוח אבל לא בתוכן. אם המודל נשאל שאלה בלי שאומן על מידע רלוונטי, ההסתברויות להשלמות שונות עשויות להיות קרובות מאוד ואז הגדלים האקראיים יוצרים הבדלי מהות ולא רק ניסוח. אבל המחשב יספק לנו תשובה, גם אם אינו יודע אותה, וכמובן אם אינו יודע שאינו יודע. במקרה כזה, אם ניתן את אותו הפרומפט שוב ושוב, נקבל בכל פעם תגובה אחרת. הזיות כאלה מכונות לעיתים קונפבולציות (confabulation), על שם בעיה נוירולוגית המתאפיינת בהמצאת זכרונות כוזבים שלא מתוך כוונה לשקר.

אז איך עולים על הטעות?

המחקר החדש מציע דרך לזהות טעויות מהסוג השני, בעזרת הטבע האקראי של הטעות. אם נזין למודל השפה את אותו הפרומפט כמה פעמים ונקבל תשובות שונות מאוד לא רק מבחינת בחירת המילים, אלא במשמעות עצמה. במקרה כזה נוכל להניח בוודאות גבוהה שמדובר בקונפבולציה.

אבל זה לא פשוט כמו שזה נשמע. המכשול העיקרי הוא שמחשב, לא אדם, צריך לעשות את התהליך הזה והמחשב צריך להבין מתי המשמעות של התשובות דומה או שונה, לא הטקסט עצמו. זו משימה קלה לאדם אך מורכבת מאוד למחשב. קושי נוסף הוא שתשובה של מודל שפה יכולה להיות ארוכה  ולכלול עובדות רבות, חלקן נכונות וחלקן קונפבולציות. בדיקה טובה תוכל להתייחס לא רק לתשובה כולה, אלא לכל עובדה בתוכה בנפרד. כדי להתמודד עם הקשיים האלה נשתמש, איך לא, בבינה מלאכותית.

החוקרים משתמשים במודל שפה נוסף כדי לבדוק את המודל הראשון. המודל הבודק שואל את המודל הנבחן את אותה שאלה כמה פעמים ובוחן עד כמה המשמעות של התשובות דומה. האלגוריתם מקבץ את התשובות במקבצים בעלי משמעות זהה, כאשר שתי תשובות תהיינה באותו מקבץ אם כל אחת מהן נובעת מהאחרת. יש כיום מודלים שמאומנים למשימות מסוג זה. באמצעות התהליך הזה מחשבים גודל שנקרא אנטרופיה סמנטית, מדד מספרי שמציין את מידת ההתפלגות במשמעויות של התשובות. ככל שההתפלגות רחבה יותר, גדול יותר הסיכוי שנתקלנו בהזיה.

עבור תשובה ארוכה יותר, המודל הבודק ינסה לבודד מתוכה עובדות ולבחון כל אחת בפני עצמה בעזרת שאלה ספציפית על העובדה הזו, אולי בווריאציות שונות. בדוגמה מתוך המאמר, המודל הנבחן נשאל מי הוא פרדי פרית' (Frith), אופנוען מרוצים בריטי ידוע מתחילת המאה העשרים.  המודל הנבחן ענה בין השאר שהוא נולד בשנת 1911. המודל הבודק מתייחס לזה כאל עובדה ושואל את הנבחן שלוש פעמים באיזו שנה נולד פרדי פרית', ומקבל את התשובה 1909. אחר כך המודל הבודק שואל שלוש פעמי מתי נולד פרדי פרית' ומקבל את התשובות 30 במאי 1909, 29 במרץ 1909 ו-26 באוקטובר 1911. בהסתמך על השונות בין כל התשובות האלה, המודל הבודק מסווג את התשובה המקורית כהזיה ככל הנראה, ואת השאלה ככזו שהמודל לא יכול כפי הנראה לענות עליה.

 

החוקרים בחנו את האלגוריתם הבודק שלהם עם כמה מודלי שפה ובכמה תחומי ידע, והראו כי הוא עולה על בדיקות מהימנות אחרות הקיימות כיום, לעיתים בפערים של עשרות אחוזים. אז מי ישמור על מודלי השפה? כנראה שמודלי שפה אחרים. ומי ישמור על השומרים? מי יודע.

מאת: דר' בועז קרני-הראל

לכתבה>>

באדיבות מכון דוידסון לחינוך מדעי, הזרוע החינוכית של מכון ויצמן למדע
https://davidson.weizmann.ac.il/

מאמרים נוספים

Pharmacy
פיטורי מאות עובדי FDA ואנטי-אייג'ינג: המהפכה שמתכנן שר הבריאות של טראמפ
שר הבריאות המיועד של טראמפ רוברט פ. קנדי, מרבה להתבטא נגד חברות התרופות, ובמיוחד נגד החיסונים • הוא מבקר בחריפות את רשויות הבריאות, מפיץ תיאוריות קונספירציה...
brest_cancer
שיטת הדמיה חדשה עשויה לחולל מהפך באבחנה של סרטן השד
טכניקת הדמיה חדשנית של השד מדגימה רגישות גבוהה לאיתור ממאירות, בעודה מפחיתה באופן משמעותי את הסבירות לתוצאות false positive. אלה מסקנותיו של מחקר, שפורסם...
DNA 1
RNA נגד סרטן ריאות
החל ניסוי קליני בחיסון mRNA נגד סוג מסוים של סרטן ריאות, במטרה לבדוק את הבטיחות והיעילות שלו. כשמונים אחוזים ממקרי סרטן הריאות מערבים תאים באחד מהקרומים...
SALTTT
האם התבלין הנפוץ ביותר במזוננו מעלה סיכון לסוכרת?
מחקר חדש מצביע על קשר מובהק בין צריכה מרובה של מלח להתפתחות של סוכרת מסוג 2. כמעט לא משנה מה בישלנו, אפינו או קצצנו, קרוב לוודאי שהוספנו לו מלח. מלח שולחן,...

עדכוני רישום

חיפושים מובילים

וובינרים קרובים

 

  • היבטים חדשים מבחינה כלייתית ולבבית

 

  • מה צופן לנו העתיד
לפרטים נוספים והרשמה

 

  • 21:20 – 21:00
    "Defining efficacy and safety in pain treatment"

 

  • 21:50 – 21:30
    "צלקות: המפתח לייעוץ מקצועי בבית המרקחת"
לפרטים נוספים והרשמה

 

  • 21:20 – 21:00
    "Iron deficiency – who, why and how"

 

  • 21:50 – 21:30
    "האם התרופה מגיעה לאתר המטרה? אירוצ׳מבר מתווך בין  המשאף למטופל"
לפרטים נוספים והרשמה

כניסת מנויים רשומים

בלחיצה על כניסה אני מאשר\ת את הסכמתי לתנאי האתר ולמדיניות הפרטיות

עדיין לא נרשמת? להרשמה לאתר

אישור הרשמה

תודה על הרשמתך

ברגעים אלה נשלח אליכם מייל אישור הרשמה. להפעלת חשבונך באתר, יש ללחוץ על קישור זה.

הנתונים שסיפקת במהלך הרישום נבדקים כעת מול מאגר רישוי המקצועות הרפואיים במשרד הבריאות. בתום הבדיקה תתקבל הודעה בהתאם.

תוכן למנויים

תוכן זה ניתן להצגה
לאנשי / נשות
צוות מקצועי בלבד

לכניסה למערכת:

עדיין לא נרשמת? להרשמה לאתר

,אם הינכם עובדי מקצועות הבריאות
.עדכנו זאת בחשבונכם האישי

אם לדעתך נפלה טעות, ניתן ליצור קשר עם צוות האתר דרך עמוד יצירת הקשר