April 15, 2018

אנחנו מאמינים רק לנתונים

ביג דאטא. אלגוריתמים. תנו לנתונים לספר את הסיפור. תנו למודל לקבל את ההחלטות.
למי שלא מכירה, בעולמות ה-machine learning, מדובר על מודל מתמטי (אלגוריתמי), ש״לומד״ את הנתונים, ומתוך כל המידע יכול לחזות בהמשך מה יעבוד ומה לא. לדוגמא, אם ניתן למודל ללמוד את כל המאפיינים של קורות החיים של מי שהתקבלה לעבודה, בהמשך נוכל לתת לו קורות חיים של מועמדת, והוא יוכל לנבא אם היא מתאימה או לא. בשלב הבא – ניתן למודל קורות חיים של המוני בעלי תפקידים שונים, ואז בהינתן קורות חיים חדשים הוא יוכל להגיד לאיזה תפקיד מתאימה המועמדת. מבחינת התהליך – מהניסיון שלי בניה של מודל זה דבר מאוד עדין, שלוקח הרבה זמן ומאמץ. צריך לבנות מודל לכל שאלה, וכדי שהמודל יעבוד צריך להזין בו המון המון נתונים (אנחנו מדברים על עשרות ומאות אלפים).

יש הרבה דוגמאות למודלים כאלה שעובדים ממש טוב, והתוצאות שלהם יכולות להיות אפילו יותר טובות מהחלטה אנושית. החל מהאלגוריתם של המלצות על סרטים של נטפליקס (שהם ממשיכים להשקיע בו כל הזמן, ובזמנו עשו תחרות מפורסמת כדי לשפר אותו), ועד ליכולת לזהות מחלה שמסכנת את הראיה אצל בני אדם, מתוך תמונה של העין (פרויקט מדהים של גוגל).

אז Machine learning, ואינטליגנציה מלאכותית, הן מילות הקסם של זמננו. אנשים חושבים שבעצם נגמר אחד החלקים הכי קשים וחשובים בתפקיד של מנהלת המוצר – להבין את הלקוחות, להבין את המוצר, לקבל את ההחלטות איך לבנות את המוצר הכי טוב ללקוח. לא צריך! נשים את כל הנתונים בתוך ״המודל״, והוא כבר יגיד לנו מה הפתרון הנכון לאיזה משתמש. Machine learning הוא הפתרון לכל בעיותינו.

עד כאן ההקדמה שלי להרצאה המצורפת כאן בהמשך.

ההרצאה הזו, עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמיםֿ, והיא דיברה אלי מאוד. אני ממליצה לצפות בה ולשמוע את כל הדוגמאות, אבל סיכמתי לכם את הנקודות החשובות עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמים:

1. ההחלטה מה לכלול בנתונים שנכנסים לתוך האלגוריתם – data integrity check. לנתונים שאנחנו בוחרים להכניס לתוך האלגוריתם, לתוך קבלת ההחלטות, יש חשיבות קריטית, מפני שהם בהכרח מגבילים את טווח התוצאות. לדוגמא – בארה״ב פי 4 או 5 שחורים נשפטים על שימוש בסמים, אז סביר שגם יהיו הרבה יותר אשמים שחורים מאשר לבנים. אבל זו לא התמונה המלאה. התמונה המלאה מתחילה באחוז המשתמשים – והוא אותו אחוז בהשוואה בין שחורים ללבנים.

2. ההסתמכות על נתוני העבר – אם נאמן אלגוריתם לפי נתוני עבר, נאמן אותו לחקות את חוקי העבר והצלחות העבר. למשל,אם כל קורות החיים שנכניס למודל כדי שילמד הם של גברים, הוא לעולם לא יחשוב שנשים יכולות להצליח או להתאים לתפקיד.

3. הגדרת ההצלחה – מה חשוב, ומה לא חשוב. גם בבחירת הנתונים, וגם בבחירת מדד ההצלחה, צריך להיות מודעים להשפעות של הנתונים על המודל. בתאוריה אפשר להכניס כל פריט של מידע למודל, אבל נשאלת השאלה עבור כל פריט – למה? למה הוא חשוב? האם הוא עלול לתת יתרון שאינו הוגן למשהו? הדוגמא היא אודיציות לנגני תזמורת חדשים, מאחורי וילון. יש הגדרה מה חשוב (איכות הנגינה), ומה לא חשוב (איך נראה הנגן, או מי הוא).

4. צריך לקחת בחשבון את ההשפעות ארוכות הטווח של תוצאות האלגוריתם. לפחות לחשוב עליהן.

לסיכום, הדוברת טוענת שאנחנו לא עוסקים במתמטיקה, אלא בפוליטיקה.
צריך לדרוש ממפתחי האלגוריתמים accountability – אחריות על המודלים ועל התוצאות שלהם. אי אפשר לתחבא מאחורי החישוביות.
נקודות חשובות למחשבה.

5 Responses

לירון says:

15/04/2018 at 18:17

המשפט שהכי לקחתי היה: algorithems automates the status quo

Reply
הדס שיינפלד says:

16/04/2018 at 02:19

לגמרי! בני אדם זה דבר כל כך מסובך, וזה החלק הכי חשוב ומענין בעבודה שלנו, ולפעמים יש לי הרגשה שעכשיו מחליפים את זה באלגוריתם מסובך, כך שאנחנו בעצם עדין נשארים עם מה שאנחנו לא יודעים.

Reply
עמית says:

17/04/2018 at 05:26

שיתפת הרצאה של מתמטיקאית!
אני חושב שאין מנוס מלקרוא את הספר שלה על העניין.
(ו 2 פשוט לא נכון)

Reply
1. הדס שיינפלד says:
  
  04/05/2018 at 04:52
  
  הגבת בבלוג שלי! 🙂
  אבל תסביר למה 2 לא נכון? כי המודל כל הזמן לומד שוב? אבל בשביל זה צריך להזין לו תוצאות נוספות, לא?
  
  Reply
הדס שיינפלד says:

30/10/2018 at 17:02

ובכן, אני חושבת שאמזון עשו בשבילי את העבודה, להוכיח ש-2 בדיוק יכול לקרות.
הנה מה שקרה – הם ניסו לבנות מודל לבחירת מועמדים, מחפשים את ה-5 הכי מתאימים מתוך 100 מועמדים. הבסיס ללמידת המכונה היה קורות חיים שהוגשו לאמזון בעשר השנים האחרונות. רובם, מן הסתם, גברים. אז המודל ״למד״ שגברים יותר מתאימים, והתחיל ״להעניש״ קורות חיים שהזכירו במפורש מוסדות/פעילויות נשיים. היתרון – אמזון הבינו שיש כאן בעיה. המודל חשף את ההטיה הזו. החסרון – אמזון רציניים, מבינים, בודקים את הדברים האלה. מה עם האחרים?
אהבתי את הניתוח הזה:
“It is the dawn of a new level of understanding and awareness we all need to have when it comes to the shortcomings of AI,” he tells Datanami. “We have been using this technology for years in recruitment and Amazon has made a bold move to say that it is flawed. The beauty of AI and technology is when it fails at something, it simply means we need to build it in another way to make it work for all.”
המקור: https://www.datanami.com/2018/10/16/do-amazons-biased-algorithms-spell-the-end-of-ai-in-hiring/
לקריאה נוספת – https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

Reply