May 29, 2011

AB test וחשיבה ביקורתית

כשהתחלתי ללמוד פסיכולוגיה (לתואר ראשון באוניברסיטה העברית), ציפיתי ללמוד על בני אדם. תוך כדי שנות הלימודים, וגם בדיעבד, הבנתי שמעבר ללימודים על בני אדם, למדתי עוד שני דברים שלא ממש ציפיתי ללמוד – סטטיסטיקה, וחשיבה ביקורתית. החלק של החשיבה הביקורתית היה כל כך מודגש במהלך התואר, שלפעמים היה נדמה לי שאנחנו קצת משחקים ב”הכה את המאמר”. כל מחקר או מאמר שלמדנו, עסקנו בחלק קטן של הזמן בלהבין מה הוא חקר/מוכיח, ובשאר הזמן בלקרוע אותו לגזרים – למה המתודה לא נכונה, למה הוא לא שאל את השאלות הנכונות, לא ניתח את התוצאות כמו שצריך, מגבלות המחקר, וכו’ וכו’. בזמנו זה היה לי קצת מתסכל. חשבתי לעצמי שאי אפשר לקדם ככה שום דבר, וזה מוציא את החשק מכל מחקר. בדיעבד, היכולת הזו לנתח לא רק את התוצאות הסופיות אלא גם את התהליך, וההסתכלות הביקורתית, היא אחד הכלים המהותיים שקיבלתי בשנים האלה.

הכלי הזה של חשיבה ביקורתית משמש אותי ביום יום, וההבנה בסטטיסטיקה היא עוד כלי חשוב.

דוגמא קלאסית היא ניתוח תוצאות של מבחני משתמשים, או של AB tests. כולם היום עושים מבחנים כאלה, נכון? זה הפך להיות אחד הכלים היותר נפוצים, ובצדק. למרות כל הנתונים המצטברים, והידע על המשתמשים, וגוף הידע הרציני שאנשי שימושיות כבר מחזיקים, למרות כל אלה, עדין חשוב מאוד פשוט לנסות דברים, ולראות איך המשתמשים מגיבים. הבעיתיות במבחנים כאלה, היא שנורא קל לקפוץ למסקנות, להסיק מסקנות גורפות, לשנות מיד את האתר ולמדוד שוב את ההשלכות. יש פעמים שזה הדבר הנכון לעשות, במיוחד בעולמנו האינטרנטי, המהיר. שינוים מהירים ובדיקה של ההשפעה שלהם הם חלק מצורת העבודה. מצד שני, הרבה פעמים קופצים כל כך מהר למסקנות, מנתונים שאין להם שום תוקף אמיתי, ואז נכנסים לסחרור של שינויים שההשפעה שלהם לא ברורה (במקרה הטוב), משקיעים הרבה זמן ומשאבים בשינויים האלה, ובסופו של דבר ממש לא ברור אם שיפרנו או פגענו בתפקוד של האתר.

אם כבר עושים מבחן, משקיעים בכמה גרסאות של דף, ורוצים לבדוק את ההשפעה, הנה כמה עקרונות ברזל:

1. הגדירו מה בדיוק בודקים – צריך לוודא שמגדירים מראש את התוצאות שישמשו לבדיקה של הצלחת המבחן, ולוודא שמודדים אותן כמו שצריך. האם הדף נמדד במספר הפעמים שלקוחות קונים את המוצר? בירידה בכמות הפניות לתמיכה? מה בדיוק המטרה, ואיך נמדוד אותה. אם אי אפשר למדוד – אין טעם במבחן.

2. וודאו שיש קבוצת ביקורת – ברב הכלים למבחנים כאלה בימינו יוצרים שתי קבוצות שונות, ומוודאים שהן דומות. מאוד חשוב לוודא שיש קבוצת ביקורת, ושהיא מיצגת. הרבה פעמים קבוצת הביקורת לא מיצגת – משווים את תוצאות השבוע לתוצאות השבוע שעבר, אבל בשבוע שעבר היה חג שמשפיע מאוד על גרף המכירות, ולכן אין באמת דרך להשוות.

3. בודדו את המשתנים -כדי לודא שמה שמשפיע על התוצאות הוא אכן המבחן שאנחנו עושים ולא משהו אחר, צריך לבדוד את המשתנים עד כמה שניתן. אם למשל אנחנו משווים בין שתי גרסאות של דף מכירה, אבל במקביל רץ גם מבחן על דף הבית של האתר, יכול להיות שיש השפעה למבחן השני על הראשון – כלומר לא אותו מדגם של אנשים רואה את שתי הגרסאות השונות של דפי המכירה, וההבדל בין התפקוד של הדפים לא נובע מההבדלים בדף, אלא ממי שבכלל הגיע לראות אותו.

4. אל תקפצו למסקנות – אחרי יומיים נראה שגרסא ב’ מנצחת, אבל בפועל ההבדל הוא בין 30 איש שקנו בגרסא א’ ל-35 איש שקנו בגרסא ב’. אתם כבר מתכננים איך לשפר את גרסא ב’, ואיך בעזרתה תשברו את השוק ותהפכו לחנות של המדינה, אבל אחרי יומיים הטרנד מתהפך. אין מה לקפוץ למסקנות לפני שיש מספיק נתונים. מספרים קטנים הם מטעים.

5. מבחנים קטנים ומבחנים גדולים – הספרות המקצועית מראה הרבה פעמים עד כמה אפשר לשפר אתר בצעדים קטנים. מבחני AB ומבחנים מרובי משתנים (multivariate), רק תזיז טיפונת את הכפתור – כבר הגדלת את המכירות, רק תשנה את הצבע של הכותרת – וכבר המכירות הכפילו את עצמם. אני מאוד מאמינה בשינויים קטנים, מדידים, שאפשר לנהל אותם ולהבין אותם. אבל לפעמים מרב שינויים קטנים, אנחנו נתקעים איפה שאנחנו נמצאים, ובעצם מגיעים רק עד ל”מקסימום מקומי”, ולא מעבר לכך. המאמר הזה על ההשפעה של המקסימום המקומי ואיך לפעמים שווה לנסות לפרוץ אותה ולנסות משהו אחר לגמרי – מומלץ (לא שכנעתי אתכם? הנה וידיאו על איך ישמו את זה בפייסבוק… ).