צ'אט GPT משמש כיום בתחום הרפואה במגוון יישומים, כגון התראות על אירועים רפואיים, כימות דם ואבחונים, וגם לקבלת מענה מיידי לשאלות רפואיות. לפני כשנה, עם הופעתו של הצ'אטבוט המבוסס על בינה מלאכותית, העלה ד"ר אוריאל כץ, סטאז'ר בבית החולים וולפסון, רעיון לבדוק את יכולות צ'אט GPT במענה על שאלות רפואיות. באותה תקופה, כאמור, היה עניין רב בנושא הצ'אט ויכולותיו.
עוד בעניין דומה
יחד עם חברו ללימודי הרפואה בחו"ל, ד״ר ערן כהן, מתמחה בפסיכיאטריה במרכז הרפואי לבריאות הנפש לב השרון, החליטו השניים למצוא מאגר שאלות על מנת לבחון את הצ'אט. לאחר חיפושים נרחבים הם החליטו לתרגם את המבחנים המסמיכים לקבלת תואר מומחה במקצועות הרפואה בישראל. הם תרגמו מקבץ שאלות קטן ואתגרו את הצ'אט. שעות ספורות לאחר מכן, ד״ר כץ התקשר לד"ר כהן והודיע לו: ״יש מצב שהוא עובר את בחינות ההתמחות".
השניים תרגמו עוד ועוד מבחנים והבינו שיכולות הצ'אט אכן מרשימות. עם התוצאות הגיעה ההבנה שאין להם את הכלים להביא את המידע לעולם המחקר, הם פנו לחברים וקולגות על מנת להבין מהו השלב הבא וקיבלו המלצה לפנות לפרופ' עידו וולף, מנהל המערך האונקולוגי ב"איכילוב", ראש בית הספר לרפואה בפקולטה לרפואה באוניברסיטת תל אביב, שהסכים מיד לחנוך אותם והמחקר יצא לדרך.
בעזרתו של פרופ' וולף בוצעה פנייה להסתדרות הרפואית על מנת שיוכלו להשוות את תוצאות הבחינות של צ'אט GPT לתוצאות הבחינות של המתמחים בשנת 2022. בהר״י נענו לפנייה. כך נוצר מחקר השוואתי, בין בינה מלאכותית למתמחים ברפואה.
התוצאות היו מפתיעות: צ'אט GPT גירסה 4 הצליח לעמוד בבחינות שלב א' במקצועות פנימית, כירורגיה ופסיכיאטריה טוב יותר מהמתמחים הישראלים, ולמעשה סטיית התקן בתוצאות של הצ'אט נמוכה משמעותית מזו של המתמחים. בגינקולוגיה וברפואת ילדים, לעומת זאת, המתמחים השיגו תוצאה טובה יותר משל הצ’אט, אולם בפער קטן.
במחקר נבחנו תוצאות הבחינות של המתמחים ושל צ'אט GPT בגירסתו הישנה יותר - 3.5 ובגירסתו החדשה 4, שיצאה כשנה לאחר מכן. כל צ'אט עבר את המבחן 120 פעם על מנת לאמוד את יכולותיו בעקביות. המקצועות שנבדקו היו: ילדים, כירורגיה כללית, גינקולוגיה, פסיכיאטריה ורפואה פנימית.
ניתן לראות בגרף כי שיפור היכולות בין גירסה 3.5 ל-4 מדגים את הקפיצה המהירה וקצב התפתחות ה-AI בטווח זמן של כשנה. מדובר בנתוני אמת ממבחני הרישוי, כאשר כל מתמחה נבחן רק בתחום התמחותו, ואילו הצ'אט נבחן בכל התחומים וצלח את הבחינות, כאשר במקצוע רפואה פנימית ופסיכיאטריה הצ'אט הצליח טוב יותר מרוב המתמחים.
לשאלה מי הצליח טוב יותר, יש כמה תשובות: צ'אט 4 כמעט ולא נכשל - הקו האדום מסמן ציון עובר, לעומת שיעורי כישלון של 25% בקרב המתמחים בהתמחויות השונות. עם זאת, ממוצע הציונים בין הצ'אט למתמחים כמעט זהה, כאשר הצ'אט עקבי ומראה ביצועים יציבים והמתמחים נעים בין ציון 30 ל-85.
המחקר הישראלי הוגש ל-New England Journal of Medicine AI והוא הובא השבוע לפרסום. כזכור, היכולת המדהימה של צ'אטבוטים לענות על שאלות רפואיות אינה חדשה. חוקרים מארה"ב בדקו אשתקד את הביצועים של צ'אט GPT בבחינת הרישוי הרפואי של ארה"ב ומצאו שהצ'אט הגיע לסף העובר בכל שלושת מרכיבי הבחינה, בלי כל הכשרה מוקדמת או תגבור מיוחד. ממצאי המחקר התפרסמו באתר medrivx.