check
אֱלִיעֶזֶר בּוֹט יְהוּדָה – לייצר חלופות עבריות למילים לועזיות באופן אוטומטי | האוניברסיטה העברית בירושלים

אֱלִיעֶזֶר בּוֹט יְהוּדָה – לייצר חלופות עבריות למילים לועזיות באופן אוטומטי

5 ינואר, 2022
Markus Winkler, unsplash

החוקרות בנו מערכת המנסה לחקות את תהליך היצירה האנושי ומייצרת באופן אוטומטי חלופות עבריות למילים לועזיות. המערכת נבנתה בהנחייתה של פרופ' דפנה שחף, החוקרות מורן מזרחי וסתיו ירדני זליג, מבית הספר להנדסה ולמדעי המחשב ומהמרכז למדעי המוח באוניברסיטה. הן השתמשו בשיטות מתקדמות מתחום הבינה המלאכותית כדי שפלטי המערכת ישמרו על חוקי לשון בסיסיים והראו כי באפשרותה להיות לעזר למומחי-שפה ולספק להם השראה. כמחווה למחיה השפה העברית, החוקרות העניקו למערכת את השם אֱלִיעֶזֶר בּוֹט יְהוּדָה

(למעבר לאתר הפרויקט)

אל המערכת שבנו החוקרות מזינים מילה באנגלית (הקלט), והמערכת מספקת רשימה של חלופות עבריות (הפלט). לדוגמה, עבור המילה palette (פָּלֵטָה בלעז, כלי המשמש ציירים לארגון וערבוב צבעים), האלגוריתם של המערכת ייצר כמה חלופות: מַצְבֵּעָה, עַרְבֶּלֶת, קַשֶּׁתֶת, לוּחַ צֶבַע, עִרְבּוּלוּחַ ועוד. למען השוואה, החלופה העברית הרשמית למילה זו היא פְּתֵכָה (מהשורש פ-ת-כ ששימש בלשון חז"ל במשמעות עירוב). דוגמה נוספת: עבור המילה debate (דיבייט בלועזית), המערכת הציעה את החלופות: שִׁיחוּחַ, פִּלְמוּס, נְצִיחָה, נְמִיקָה, תגר שיחה, קרב דיון ועוד. החלופה הרשמית היא מַעֲמָת.

מרב המאמצים בבניית המערכת התמקדו ביצירת חלופות על בסיס שילוב של שורש ומשקל, דרך התצורה המועדפת בשפה העברית. תחילה, באמצעות כלים לכריית מידע, איתרו החוקרות שורשים ומשקלים בעלי עניין לתיאור המושג. לאחר מכן, בעבור כל זוג של שורש ומשקל שנמצאו, הציבו את השורש בתוך המשקל. משום שכשני שלישים מהשורשים בשפה העברית הם שורשים בגזרה מיוחדת, נדרשות התאמות לשוניות. לדוגמה, הצבת השורש ר-פ-א במשקל תַּקְטֵלָה תניב את המילה תַּרְפֵאָה, ולאחר התאמות לשוניות המילה המתקבלת היא תְּרוּפָה. כדי ללמד את המחשב לבצע את ההתאמות הלשוניות השתמשו החוקרות במודל רשתות נוירונים (character-based attentional seq2seq model). המודל כמובן אינו מחליף לשונאי, אך הוא הצליח ללמוד לבד חוקי לשון מוכרים, לדוגמה שאותיות בג"ד כפ"ת בראש מילה ולאחר שווא נח מקבלות דגש קל.  לסיום, סיננו החוקרות את החלופות שלא סביר שיהוו מילה עברית ומדרגים את אלו שנותרו. כדי שהסינון האוטומטי יעבוד, אימנו החוקרות מודל נוסף הנקרא בשפה המקצועית מודל שפה. מודל זה קרא הרבה טקסטים מנוקדים זמינים בעברית ולמד מהם איך מילים נראות. בתום תהליך הלמידה, המודל נתן ציון לכל מילה שהאלגוריתם ייצר שמעיד על התאמה לשפה. לדוגמה, המילה "חֲמִירָה" קיבלה ציון גבוה, ואילו "מֶשֶׁ", "מִשְׁוֹן" ו"גְּיִיבָה" קיבלו ציון נמוך מאוד.

Joshua Hoehne, unsplash

לקריאת המאמר האקדמי

כדי לבחון את תוצרי המערכת, עברו החוקרות על פרוטוקולי ישיבות האקדמיה ללשון עברית מהעשורים האחרונים ואספו מילים לועזיות שהיו להן מספר חלופות שהועלו להצבעה, וייצרו עבורן חלופות באמצעות המערכת. בנוסף, החוקרות נתנו למספר מתנדבים, שאינם מומחי שפה, להציע חלופות משל עצמם לפני חשיפה לתוצרי המערכת ולאחריה. לאחר מכן, החוקרות הריצו סקר מקוון ובו ביקשו מכ-200 משתתפים לדרג את החלופות בשלושה מדדים: התאמת החלופה למילת המקור, חיבה לחלופה ויצירתיות החלופה. התוצאות היו מרשימות – לרוב הצעות המומחים קיבלו את הציונים המשוקללים הגבוהים יותר בשלושת המדדים, אך הצעות המערכת זכו גם הן לציונים גבוהים ואף ניצחו לא מעט מההצעות האנושיות. בין החלופות שהציעה המערכת הופיעו החלופה "בָּקְבִּיק" עבור המילה הלועזית אמפולה (החלופה שקבעה האקדמיה היא: בַּקְבּוּקִית), וגְּבִיעוּגָה לקאפקייק (אקדמיה: עוּגוֹנִית). באופן מפתיע, חלק מהחלופות שהציעה המערכת היו זהות לחלופות שהועלו להצבעה בישיבות האקדמיה כדוגמת פִּלְמוּס עבור המילה דיבייט ותַקָּן כחלופה להנדימן.

החוקרות נוכחו גם לגלות שהחשיפה לתוצרי המערכת צמצמה את הפער בין הצעות המתנדבים הלא-מומחים והצעות המומחים. עבור 45% מהמילים, החלופה הטובה ביותר של הלא-מומחים, לאחר החשיפה לתוצרי המערכת, עקפה את זו של המומחים (בהשוואה ל-35% בלבד לפני כן). כמו-כן, עבור 70% מהמילים, החלופה הטובה ביותר של הלא-מומחים לאחר החשיפה עקפה את זו של המומחים ביצירתיות (בהשוואה ל-55% לפני כן).

פרופ' שחף סיכמה: "המצאת חלופות חדשות היא תהליך יצירתי מרתק. חשוב להדגיש שלבעיה יש רמות רבות של מורכבות שלא נכנסנו אליהן – למשל, הבנת קונוטציות: המערכת סיפקה את החלופה סָכָּל-זֵעָה עבור דאודורנט (אקדמיה: תַּכְשִׁיר אַל-רֵיחַ), שמתאימה במשמעות, אך הציבור כנראה לא היה מאמץ אותה בגלל הקונוטציות השליליות שלה. אנחנו מקוות שהעבודה תיתן השראה למחקרים נוספים העוסקים בבניית מערכות יצירתיות."