ב-Online
 
 
 
 
 
 
 
לפרק את הבייט 
מי מפחד מבימבו שושנה? 
 
 האם המחשב נבון מספיק?    צילום: פליקר, Mikey G Ottawa    
לפרק את הבייט |
 

אחרי שנהנינו כהוגן מיכולות התרגום המופלאות של Google Translate בעברית, הגיע הזמן להבין למה מחשבים אינם מסוגלים לתרגם טקסט כמו שצריך

 
 
 
 
 
 
 
 
 
time flies like an arrow = תזמן זבובים כמו חץ? התרגום של בבילון
 time flies like an arrow = תזמן זבובים כמו חץ? התרגום של בבילון 
 צילום: פליקר, [niv] 
 
בכל פעם ששומעים על תוכנה חדשה שמתיימרת לתרגם טקסטים באופן אוטומטי, המתרגמים האנושיים* הם הראשונים לפרוץ בצחוק גדול. אחרי שהם גומרים לצחוק, הם רצים בשיא המהירות לבדוק איך התוכנה הזאת מתרגמת, ואז מעבירים האחד לשני קטעים שתורגמו בצורה מגוחכת, כאילו כדי להרגיע את עצמם שהג'וב שלהם לא הפך בן לילה למיותר.

אבל אם יום אחד תופיע תוכנה מתרגמת מוצלחת באמת, כולנו נצטרך להתחיל לפחד, כי פירוש הדבר יהיה שהמחשב פיתח בינה אנושית וכל תסריטי האימה של המדע הבדיוני עלולים להפוך למציאות. בינתיים אפשר להישאר רגועים: היום הזה עוד רחוק מאד. המהלך האחרון בתחום, תרגום המכונה של גוגל לעברית ומעברית, התגלה כמביך אף יותר מהצפוי. נשאלת השאלה, כיצד בעצם מתבצע תרגום המכונה, ואיך זה שלמרות ההתפתחות העצומה בעולם התוכנה והחומרה, הוא עדיין לא מצליח להמריא מעל לפדיחות נוסח "בימבו שושנה"?
 
 
גם בתחום התרגום האנושי לא חסרות גישות ותיאוריות, אך כשאדם מתרגם, אפשר לומר בכלליות שהוא קורא ומבין את המשמעות של טקסט המקור, ואז מביע את המשמעות הזו בשפת היעד. בעולם המחשבים, "משמעות" היא המילה הכי בעייתית שיש, כי היא חשובה ומרכזית מצד אחד, ומצד שני היא מעורפלת מאד ולא מוגדרת. קשה להסביר אותה אפילו במונחים אנושיים, קל וחומר במונחי מחשב כמו מספרים ואלגוריתמים. זו משימה כה מורכבת וקשה, שהאלגוריתמאים פשוט מוותרים עליה מראש ומחפשים קיצורי דרך שייצרו מראית עין של הבנת משמעות. ככל הנראה, כאן בדיוק טמונה הבעיה - משום שאי אפשר לתרגם כמו שצריך בלי להבין את המשמעות.

 

פירושי מילים

איך למצוא את המשמעות הנכונה בכל פעם? אז זהו, שאלגוריתמאים  מחפשים קיצורי דרך
 איך למצוא את המשמעות הנכונה בכל פעם? אז זהו, שאלגוריתמאים מחפשים קיצורי דרך 
 צילום: GettyImages 
 
עבור רוב המילים בשפה כלשהי, ניתן למצוא מילים מקבילות בשפות אחרות, או לפחות ביטויים בעלי משמעות דומה. אלא שלהרבה מילים יש יותר ממשמעות אחת, ובטקסטים בעברית ללא ניקוד המצב מסובך עוד יותר, כי מילים שונות לגמרי נכתבות באותה צורה (למשל, האם "ספר" זה Book, Barber, Counted, Frontier או Spare בסלנג?) – ולמרות זאת, אין בעיה עקרונית לאחסן במחשב מילון ענק עם כל המשמעויות האפשריות של כל מילה. מילון כזה יכול בקלות להקיף יותר ממה שכל אחד מאיתנו יודע. השאלה היא איך למצוא את המשמעות המתאימה בכל פעם. בני האדם עושים זאת בקלות כי יש להם המון ידע על העולם, ובזכותו הם מסוגלים להבין הקשרים. לדוגמה, במשפט "משה הוא ספר מצוין", אנו יודעים שהנושא (משה) הוא שם של אדם, כך שהמשמעות הנכונה ל"ספר" כאן תהיה מקצוע של אדם. למעשה, השימוש שלנו בהקשרים כל כך נרחב וחזק, שקל לבלבל אותנו באמצעות משפט כמו "שוקי זיקרי ספר כלבים".

למחשב אין ידע על העולם, וקשה מאד לתת לו את הידע הזה. כל מילה טומנת בחובה עושר עצום של הקשרים, ידיעות, אסוציאציות ותחושות, שכלי "ווב 2.0" המפורסם והמופלא שנקרא "תגיות קשורות" לא מצליח אפילו לגרד. לנו עצמנו נדרשות שנים רבות של לימוד והתנסות כדי להבין את המילים כמו שצריך, וגם אז קשה לנו לנסח את כל ההבנה הזאת במילים. אז איך אפשר להעביר אותה למחשב?
 
גשם של הקשרים ואסוציאציות, שהמחשב לא יוכל אפילו להבין
 גשם של הקשרים ואסוציאציות, שהמחשב לא יוכל אפילו להבין   צילום: GettyImages 
 
 
אחד מקיצורי הדרך המבטיחים (לפחות בתיאוריה) הוא התרגום הסטטיסטי, שמסתמך על המון טקסטים קיימים שתורגמו על ידי בני אדם. בתרגום סטטיסטי, המחשב יודע איך כל מילה מתורגמת בכל טקסט שבמאגר הנתונים שלו, והמשימה שלו היא למצוא את הטקסט שהכי קרוב במשמעותו למשפט שהוא צריך לתרגם. נניח שצריך לתרגם את הביטוי "שבוע הספר". את המילה "הספר" לבדה אפשר, כאמור, לתרגם בהמון צורות, אבל בטקסטים קיימים שמופיעה בהם גם המילה "שבוע" בקרבה גדולה, סביר מאד להניח שנמצא את התרגום הרלוונטי (book""). זו הסיבה שנתלו תקוות רבות בתרגום של גוגל, מכיוון שיש בידי החברה כמות עצומה של מידע שיכול להוות בסיס לתרגום סטטיסטי שכזה, וזו גם אחת הסיבות שתרגום כמו "Bimbo Shoshana my garden" ל"פרחה שושנה אצלי בגינה" הוא מאכזב כל-כך. ישנן תוכנות תרגום מקצועיות בתשלום בעלות יכולות טובות יותר, אבל גם הן רחוקות מאד משלמות גם בתרגומים פשוטים יחסית.

 

תחביר

מעבר לפירושים של המילים הבודדות, גם התחביר קריטי להבנה ולתרגום נכון של המשפט. לדוגמה, הנה שני משפטים עם אותן מילים בדיוק: "כלב נשך איש" ו-"איש נשך כלב". שני הפירושים לשני המשפיטם שונים, בדיוק כפי ש-"Deep blue sea" זה לא "עמוק כחול ים" אלא "ים כחול עמוק". כללי התחביר מוגדרים וידועים, ומערכות החינוך משקיעות שנים בניסיון להחדיר אותם לראשינו. באופן תיאורטי, לא מסובך להכניס את הכללים האלה למחשב כי הם ברורים וקבועים. בפועל, בכל שפה יש המון יוצאי דופן וחריגות, ובמיוחד כשמתעסקים עם טקסטים "מהעולם האמיתי" שכוללים סלנג, שיבושים מכוונים או קיצורים. בעיה קשה נוספת היא שאין מיפוי אחד-לאחד של תחביר משפה אחת לאחרת. באנגלית יש יותר מעשרה זמנים, בעברית יש שורשים ובניינים וכן הלאה, ובלתי אפשרי להמציא נוסחה להמרה פשוטה בין התחבירים – אפילו בהנחה שיש לנו את הפירוש הנכון של כל מילה.
 
למה אסור לסמוך על תרגום מכונה (צילומסך: עידו גנדל)
 למה אסור לסמוך על תרגום מכונה (צילומסך: עידו גנדל)   
כדי לסבך את העניינים עוד יותר, בשפה הטבעית אנו משתמשים בהמון מטאפורות, דימויים וביטויים שגם מי שמבין את המילים ואת התחביר לא יצליח לפענח. הנה למשל המשפט הנפוץ "הוא מכוער לאללה". מה לכל הרוחות המחשב אמור להבין מזה? התרגום המילולי יהיה "He is ugly to Allah", שמפספס את המשמעות לחלוטין. אפרופו, ניסיון לתרגם את המשפט הזה בתרגום של גוגל מוכיח עד כמה מסוכן להסתמך על תרגום מכונה, משום שהתוצאה האוטומטית עלולה לצאת, לגמרי בלי כוונה, פוגענית ומעליבה עד כדי תקרית פוליטית (ראו בצילום המסך).

 

התמונה המלאה

כדי לתרגם כמו שצריך, נדרש ידע של בנאדם
 כדי לתרגם כמו שצריך, נדרש ידע של בנאדם 
 צילום: פאנל מתוך חוברת הקומיקס שליוותה את הפצת גוגל-כרום 
 
תרגום מכונה נוטה להתמקד ברמת המשפט הבודד, וזוהי כמובן טעות. גוגל יודע לתרגם את "I am a woman and I love cats" כ"אני אישה ואני אוהבת חתולים", אבל אם מפרקים את המשפט לשניים – "I am a woman. I love cats." מקבלים "אני אישה. אני אוהב חתולים". האלגוריתמים הקיימים אינם יודעים ליצור הקשר כולל לטקסט, שיסייע בתרגום מדויק של כל המשפטים ובפענוח של משפטים סתומים. יצירה של הקשר כזה מחייבת מעקב מדויק אחרי כל הנושאים, הנשואים, התארים, הפסוקיות וכו' שבטקסט. כשחושבים על זה לעומק, ככל שמעקב כזה מדויק יותר, כך בהכרח קשה יותר לתכנת אותו וכך הוא קרוב יותר להבנה אמיתית של המשמעות של הטקסט – בהנחה שלטקסט בכלל יש משמעות!

כלומר, כדי שמחשב יתרגם טקסטים כמו שצריך, הוא צריך ידע של בן אדם (גם ספציפי בנוגע לשפה וגם ידע כללי), יכולת אסוציאטיבית של בן אדם, כישורי הסקת מסקנות אנושיים ועוד. בקיצור, הוא צריך להיות בן אדם. איש לא הוכיח שזה בלתי אפשרי: ייתכן שיום אחד יצוצו מחשבים עם תוכנות בינה אנושית או על-אנושית שיהיו מסוגלים לעשות זאת. אבל היום הזה אפילו לא באופק.

* גילוי נאות: הכותב הוא מתרגם אנושי.
 
 
 
@@@@@@@@@@@@@@@@@@@ ilan @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
 
@@@@@@@@@@@@@@@@@@@ ilan @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
 
 
תגובות
הוסף תגובה0 תגובות
הוספת תגובה
מאת
 
נושא
 
תוכן
 
 
 
 
תודה! תגובתך התקבלה.
התגובה תתפרסם בכפוף לתנאי האתר.
 
 
 
 
 

כל הזכויות שמורות 2011 © נענע 10 בע"מ
 
 
 
 
כל הזכויות שמורות © Nana10 בע"מ
Video powered by