אנחנו מאמינים רק לנתונים

ביג דאטא. אלגוריתמים. תנו לנתונים לספר את הסיפור. תנו למודל לקבל את ההחלטות.
למי שלא מכירה, בעולמות ה-machine learning, מדובר על מודל מתמטי (אלגוריתמי), ש״לומד״ את הנתונים, ומתוך כל המידע יכול לחזות בהמשך מה יעבוד ומה לא. לדוגמא, אם ניתן למודל ללמוד את כל המאפיינים של קורות החיים של מי שהתקבלה לעבודה, בהמשך נוכל לתת לו קורות חיים של מועמדת, והוא יוכל לנבא אם היא מתאימה או לא. בשלב הבא – ניתן למודל קורות חיים של המוני בעלי תפקידים שונים, ואז בהינתן קורות חיים חדשים הוא יוכל להגיד לאיזה תפקיד מתאימה המועמדת. מבחינת התהליך – מהניסיון שלי בניה של מודל זה דבר מאוד עדין, שלוקח הרבה זמן ומאמץ. צריך לבנות מודל לכל שאלה, וכדי שהמודל יעבוד צריך להזין בו המון המון נתונים (אנחנו מדברים על עשרות ומאות אלפים).

יש הרבה דוגמאות למודלים כאלה שעובדים ממש טוב, והתוצאות שלהם יכולות להיות אפילו יותר טובות מהחלטה אנושית. החל מהאלגוריתם של המלצות על סרטים של נטפליקס (שהם ממשיכים להשקיע בו כל הזמן, ובזמנו עשו תחרות מפורסמת כדי לשפר אותו), ועד ליכולת לזהות מחלה שמסכנת את הראיה אצל בני אדם, מתוך תמונה של העין (פרויקט מדהים של גוגל).

אז Machine learning, ואינטליגנציה מלאכותית, הן מילות הקסם של זמננו. אנשים חושבים שבעצם נגמר אחד החלקים הכי קשים וחשובים בתפקיד של מנהלת המוצר – להבין את הלקוחות, להבין את המוצר, לקבל את ההחלטות איך לבנות את המוצר הכי טוב ללקוח. לא צריך! נשים את כל הנתונים בתוך ״המודל״, והוא כבר יגיד לנו מה הפתרון הנכון לאיזה משתמש. Machine learning הוא הפתרון לכל בעיותינו.

עד כאן ההקדמה שלי להרצאה המצורפת כאן בהמשך.

ההרצאה הזו, עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמיםֿ, והיא דיברה אלי מאוד. אני ממליצה לצפות בה ולשמוע את כל הדוגמאות, אבל סיכמתי לכם את הנקודות החשובות עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמים:

1. ההחלטה מה לכלול בנתונים שנכנסים לתוך האלגוריתם – data integrity check. לנתונים שאנחנו בוחרים להכניס לתוך האלגוריתם, לתוך קבלת ההחלטות, יש חשיבות קריטית, מפני שהם בהכרח מגבילים את טווח התוצאות.   לדוגמא – בארה״ב פי 4 או 5 שחורים נשפטים על שימוש בסמים, אז סביר שגם יהיו הרבה יותר אשמים שחורים מאשר לבנים. אבל זו לא התמונה המלאה. התמונה המלאה מתחילה באחוז המשתמשים – והוא אותו אחוז בהשוואה בין שחורים ללבנים.

2. ההסתמכות על נתוני העבר – אם נאמן אלגוריתם לפי נתוני עבר, נאמן אותו לחקות את חוקי העבר והצלחות העבר. למשל,אם כל קורות החיים שנכניס למודל כדי שילמד הם של גברים, הוא לעולם לא יחשוב שנשים יכולות להצליח או להתאים לתפקיד.

3. הגדרת ההצלחה – מה חשוב, ומה לא חשוב. גם בבחירת הנתונים, וגם בבחירת מדד ההצלחה, צריך להיות מודעים להשפעות של הנתונים על המודל. בתאוריה אפשר להכניס כל פריט של מידע למודל, אבל נשאלת השאלה עבור כל פריט – למה? למה הוא חשוב? האם הוא עלול לתת יתרון שאינו הוגן למשהו? הדוגמא היא אודיציות לנגני תזמורת חדשים, מאחורי וילון. יש הגדרה מה חשוב (איכות הנגינה), ומה לא חשוב (איך נראה הנגן, או מי הוא).

4. צריך לקחת בחשבון את ההשפעות ארוכות הטווח של תוצאות האלגוריתם. לפחות לחשוב עליהן.

לסיכום, הדוברת טוענת שאנחנו לא עוסקים במתמטיקה, אלא בפוליטיקה.
צריך לדרוש ממפתחי האלגוריתמים accountability – אחריות על המודלים ועל התוצאות שלהם. אי אפשר לתחבא מאחורי החישוביות.
נקודות חשובות למחשבה.

 

פוסטים קשורים (בדרך זו או אחרת)

3 תגובות

  1. המשפט שהכי לקחתי היה: algorithems automates the status quo

  2. הדס שיינפלד

    לגמרי! בני אדם זה דבר כל כך מסובך, וזה החלק הכי חשוב ומענין בעבודה שלנו, ולפעמים יש לי הרגשה שעכשיו מחליפים את זה באלגוריתם מסובך, כך שאנחנו בעצם עדין נשארים עם מה שאנחנו לא יודעים.

  3. שיתפת הרצאה של מתמטיקאית!
    אני חושב שאין מנוס מלקרוא את הספר שלה על העניין.
    (ו 2 פשוט לא נכון)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *