HADAS SHEINFELD

אנחנו מאמינים רק לנתונים

ביג דאטא. אלגוריתמים. תנו לנתונים לספר את הסיפור. תנו למודל לקבל את ההחלטות.
למי שלא מכירה, בעולמות ה-machine learning, מדובר על מודל מתמטי (אלגוריתמי), ש״לומד״ את הנתונים, ומתוך כל המידע יכול לחזות בהמשך מה יעבוד ומה לא. לדוגמא, אם ניתן למודל ללמוד את כל המאפיינים של קורות החיים של מי שהתקבלה לעבודה, בהמשך נוכל לתת לו קורות חיים של מועמדת, והוא יוכל לנבא אם היא מתאימה או לא. בשלב הבא – ניתן למודל קורות חיים של המוני בעלי תפקידים שונים, ואז בהינתן קורות חיים חדשים הוא יוכל להגיד לאיזה תפקיד מתאימה המועמדת. מבחינת התהליך – מהניסיון שלי בניה של מודל זה דבר מאוד עדין, שלוקח הרבה זמן ומאמץ. צריך לבנות מודל לכל שאלה, וכדי שהמודל יעבוד צריך להזין בו המון המון נתונים (אנחנו מדברים על עשרות ומאות אלפים).

יש הרבה דוגמאות למודלים כאלה שעובדים ממש טוב, והתוצאות שלהם יכולות להיות אפילו יותר טובות מהחלטה אנושית. החל מהאלגוריתם של המלצות על סרטים של נטפליקס (שהם ממשיכים להשקיע בו כל הזמן, ובזמנו עשו תחרות מפורסמת כדי לשפר אותו), ועד ליכולת לזהות מחלה שמסכנת את הראיה אצל בני אדם, מתוך תמונה של העין (פרויקט מדהים של גוגל).

אז Machine learning, ואינטליגנציה מלאכותית, הן מילות הקסם של זמננו. אנשים חושבים שבעצם נגמר אחד החלקים הכי קשים וחשובים בתפקיד של מנהלת המוצר – להבין את הלקוחות, להבין את המוצר, לקבל את ההחלטות איך לבנות את המוצר הכי טוב ללקוח. לא צריך! נשים את כל הנתונים בתוך ״המודל״, והוא כבר יגיד לנו מה הפתרון הנכון לאיזה משתמש. Machine learning הוא הפתרון לכל בעיותינו.

עד כאן ההקדמה שלי להרצאה המצורפת כאן בהמשך.

ההרצאה הזו, עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמיםֿ, והיא דיברה אלי מאוד. אני ממליצה לצפות בה ולשמוע את כל הדוגמאות, אבל סיכמתי לכם את הנקודות החשובות עוסקות במה הם הסיכונים/דברים שצריך לחשוב עליהם בעבודה עם אלגוריתמים:

1. ההחלטה מה לכלול בנתונים שנכנסים לתוך האלגוריתם – data integrity check. לנתונים שאנחנו בוחרים להכניס לתוך האלגוריתם, לתוך קבלת ההחלטות, יש חשיבות קריטית, מפני שהם בהכרח מגבילים את טווח התוצאות.   לדוגמא – בארה״ב פי 4 או 5 שחורים נשפטים על שימוש בסמים, אז סביר שגם יהיו הרבה יותר אשמים שחורים מאשר לבנים. אבל זו לא התמונה המלאה. התמונה המלאה מתחילה באחוז המשתמשים – והוא אותו אחוז בהשוואה בין שחורים ללבנים.

2. ההסתמכות על נתוני העבר – אם נאמן אלגוריתם לפי נתוני עבר, נאמן אותו לחקות את חוקי העבר והצלחות העבר. למשל,אם כל קורות החיים שנכניס למודל כדי שילמד הם של גברים, הוא לעולם לא יחשוב שנשים יכולות להצליח או להתאים לתפקיד.

3. הגדרת ההצלחה – מה חשוב, ומה לא חשוב. גם בבחירת הנתונים, וגם בבחירת מדד ההצלחה, צריך להיות מודעים להשפעות של הנתונים על המודל. בתאוריה אפשר להכניס כל פריט של מידע למודל, אבל נשאלת השאלה עבור כל פריט – למה? למה הוא חשוב? האם הוא עלול לתת יתרון שאינו הוגן למשהו? הדוגמא היא אודיציות לנגני תזמורת חדשים, מאחורי וילון. יש הגדרה מה חשוב (איכות הנגינה), ומה לא חשוב (איך נראה הנגן, או מי הוא).

4. צריך לקחת בחשבון את ההשפעות ארוכות הטווח של תוצאות האלגוריתם. לפחות לחשוב עליהן.

לסיכום, הדוברת טוענת שאנחנו לא עוסקים במתמטיקה, אלא בפוליטיקה.
צריך לדרוש ממפתחי האלגוריתמים accountability – אחריות על המודלים ועל התוצאות שלהם. אי אפשר לתחבא מאחורי החישוביות.
נקודות חשובות למחשבה.

 

עוד תוכן מעולה מהבלוג

בהמלצת Galit Galperin הקשבתי לפודקסט Artificial - the Open AI Story. הפקה משותפת של הוול סטריט גו׳רנל וספוטיפיי, יש כבר 3 פרקים באויר והרביעי אמור להגיע בקרוב. אני עוקבת אחרי open AI...
אתמול נפתח המחזור החדש של הגילדה למנהלי מוצר.ההוא שהיה אמור להיות מחזור אוקטובר.רעדו לי הברכים כשפתחתי את ההרשמה מחדש בדצמבר, אחרי שב 7.10 הכל נעצר.זו בעצם החזרה הרשמית שלי לסוג של עשיה,...
מרטי כתב פוסט סיכום וגם פירסם הרצאה עם תחזיות פרודקט ל- 2024, שבעצם מסכמים את כל מה שהוא חושב על התפקיד של מנהלי מוצר בתעשיה בימינו. למי שמכיר את הקו של מרטי...