נתונים גדולים: מה הם ולמה אנחנו לא יכולים לעשות בלעדיהם

(של אנטוניו וקיו)

27/02/19

כאשר התגלתה זני השפעת החדשים של H2009N1 ב- 1, הופעל בארה"ב תהליך הניטור וההערכה הרגיל, אשר כלל דיווח על כל המקרים למרכזי בריאות ובקרה אזוריים.

נוהל נימי ו-ריצה, אשר עם זאת הגבלה: הוא הציג תמונה של התפתחות הנגיף, תמיד באיחור של שבועיים לעומת המצב מותנה.

באותה תקופה, המגזין טבע הוא פרסם מאמר שבו כמה מהנדסי גוגל, ליועץ בתדהמה ובחוסר אמון, טען שהוא מסוגל להפיק ואכן לחזות את ההתפשטות הגיאוגרפית של H1N1 להסתמך אך ורק על מילות מפתח בשימוש באינטרנט.

באופן ספציפי, החל במיליוני 50 של מילים שרוב המשתמשים השתמשו בהם על ידי המשתמשים בארה"ב, Mountain View Gurus זיהה את השימוש הנפוץ ביותר באזורים המדווחים על ידי מרכזים רפואיים אזוריים, ויישם מיליוני 450 של מודלים מתמטיים שונים הצליחו להדגיש מתאם בין 45 מילות מפתח הרחבת וירוסים.

העובדות אישרו את החדשות, ולראשונה הוכח שניתן היה לחזות את התפשטות הנגיף בשיטות מתמטיות בלבד, תוך שימוש בכמויות נתונים עצומות (ענקיות) שעובדו על ידי מכונות בעלות קיבולת מחשוב נאותה.

סיפור זה הוא הוכחה נוספת עד כמה המהפכה הדיגיטלית, שנוסדה על טכנולוגיית מידע (IT), יש מהפכה בעידן שלנו. החל מהמה שקרוי "המהפכה התעשייתית הרביעית", שינוי אפוכלי המתפתח ברוחב ובמהירות שלא נראתה קודם לכן, תוך השקעת ריבוי שדות שלא התרחשו מעולם.

בינה מלאכותית (AI), רובוטיקה, ביוטכנולוגיה, ננוטכנולוגיה, אינטרנט של דברים (IOT), נהיגה אוטונומית, מחשוב קוונטי הם רק כמה מן התחומים עוברים תקופה של התקדמות רציפה, מדהים עבור מגוון ועומק התוצאות עבור שלה מהירות הפיתוח.

של ראשי תיבות ה- IT, לעתים קרובות, אנו מתמקדים בטכנולוגיה T, כלומר מחשבים: מכונות יותר ויותר חזקים, מסוגלים להכפיל את קיבולת החישוב כל 18 חודשים, על פי חוק שנקרא מור¹ - כי למרות חסר ערך מדעי, הוא עדיין נתמך על ידי עוד 50 שנים של התבוננות של המציאות.

המחשב שהביא את אפולו 16 לירח ב 1972 היה הרבה פחות כוח מאשר כל טלפון חכם שיש לנו בכיס שלנו היום, אפילו הזול ביותר; ואפילו לחמשת המחשבים המשולבים של המעבורת אנדוור היה זיכרון RAM כולל של 2 MB בלבד. כהוכחה נוספת, את הכוח הכולל של המחשב השולחני 5mila בשימוש ב 80 שנים הוא נמוך יותר מזה של הטאבלט הנוכחי.

עם זאת, ולא לקחת כלום מן החשיבות הנובעת מכונות חזק יותר, העושר האמיתי היום טמון הנתונים, אכן בנתונים הגדולים נגזר מיליארדי מידע המיוצר בכל רגע אחד על ידי קליקים שלנו, tweets והעדפות הרכישה.

ברבעון הראשון של 2018, פייסבוק היה 2.19 מיליארד משתמשים פעילים², אשר בתורו אינטראקציה עם מיליארדי XNXX של אנשים אחרים ברשת: נתון מעל 200% מכלל האוכלוסייה של כדור הארץ. באותה שנה, YouTube היה אחד וחצי מיליארד משתמשים, ואחריו WhatsApp עם מיליארד שלוש מאות מיליון.

מספרים חשובים, המייצרים מקור בלתי נדלה של נתונים.

מה שהרשת, לעומת זאת, היא סביבה שבה כל יום, מיליוני אנשים מבלים חלק ניכר מחייהם (באיטלקית, על שעות 6 ממוצעות ביום ב 2018), דעות להחלפה, רגשות, הנאות, צער, העדפות קונות ועוד.

קבוצה של התנהגויות בודדות כי ניתן "מיום", כלומר רשום, ניתח ואורגן מחדש על פי קריטריונים מדעיים כי ברציפות לייצר נתונים.

שתי דוגמאות, יותר מכל אחד אחר, להפוך את הרעיון של איך התוצאות שאנחנו מחפשים מוסתרים המידע.

ב 2006, פורטל AOL (AmericaOnline) עשתה ציבור, לחוקרים וחוקרים, A 20 מ'שאילתות מסד נתונים "" עשו בתוך שלושה חודשים ממשתמשי 675mila, והוא עשה את זה על ידי ביצוע אנונימי בעבר, מסיבות של הגנה , המשתמש מעורב בתפקידים שונים. עם זאת, אחרי כמה ימים, אלמנה שישים ג'ורג'יה, תלמה ארנולד, היה - ובצדק - המשויך למספר המשתמשים 4417749, ועוררה מחלוקת שהביאה לפיטוריו של שלושה עובדים של AOL.

וגם כאשר נטפליקס פירסמה את ההעדפות של כחצי מיליון משתמשים אנונימיים, זה לא היה הרבה לפני שהגברת במערב התיכון הוכרה לפי שם וכתובת. חוקרים באוניברסיטת טקסס הוכיחו מאוחר יותר כי אכן ניתן לזהות משתמש ערוץ ידי בחירה רק סרטים 6 על 500.

אבל לא רק האינטרנט הוא: אנחנו חושבים על המצלמות, בכל מקום ברחובות ובכיכרות של הערים שלנו, ואת הדרכים והמטרות שבהן עקבות אנו יכולים להשתמש בתוכנה מיוחדת זיהוי פנים (לפני כמה שנים, עיתון אנגלי הוא גילה כי פחות מ 200 מטרים מהבית שבו הוא חי ג'ורג 'אורוול, מחבר הספר dystopian "1984", היו לא פחות מאשר מצלמות 30).

על פי דיווחים של ויקטור שונברגר וקנת צוקר בעבודתם הבסיסית³ (משמש כמקור עיקרי במאמר זה), ב 2012 יוצרו כך הרבה נתונים שאם הם הועמסו על CD-ROM היה יצר חמש ערימות במקביל מסוגלים להגיע לירח, כאילו הם הודפסו על גיליונות נייר היה מסוגל כדי לכסות את כל השטח של ארה"ב שלוש פעמים.

שים לב שאנחנו מדברים על 6 לפני שנים, וכי בינתיים הנתונים שהופקו מדי שנה הוכפלו פעמיים נוספות (בממוצע, הכפלת כל שלוש שנים).

הנתונים מהווים את הזהב השחור של תקופתנו: ערך שאין לו ערך, לכמות ולריבוי השימושים, לרוב שונים מאלו שלקחו אותם במקור. למעשה, לעתים קרובות יותר ויותר, אנו מספקים מידע באינטרנט למטרות כי בזמן האוסף שלהם עדיין לא ידוע.

הם מזינים את הגבול החדש של ה- AI, המהווה את הדלק הראשון: הודות להם המחשבים מתקדמים ומתחילים "לתפוס" את המציאות החיצונית.

הם באמצעות רובוטים מתחילים לבצע פעולות אוטונומיות⁴, החליטה על בסיס נתוני המצב שנאספו ונותחו מבחוץ (ולא על התכנות שהתקבלו).

אבל איך משתמשים בנתונים הגדולים? החלת שיטות מתמטיות, "אלגוריתמים", המורחבת על בסיס מה שאתה רוצה לגלות ברגע נתון, של תופעה מסוימת.

האלגוריתמים, המנצלים כמויות גדולות של נתונים, מאפשרים לנו לראות כל "מתאמים", המבינים את ההסתברות ליחסים מסוימים בין המרכיבים הנבדקים.

מה אם כן, קשרים כאלה מופיעים בצירוף מקרים טהור, אין דבר שמפחית מתוקפו של המחקר עצמו, שכן חוסר הדיוק וחוסר הדיוק הם "התואם" ביחס למספר הנתונים הזמינים.

עם כל הכבוד לעקרון הסיבתיות, שהיה טוב בעידן הנתונים הקטנים כאשר ההבנה התבססה על ניתוח זהיר של האלמנטים (המצומצמים) הזמינים, שבוצעו על ידי אנשים "מומחים" בתחום המסוים הנלמד.

בעידן של נתונים גדולים, ההבנה של תופעות מושגת במקום בעזרת "מדען נתונים" - קרקע אמצעית בין מתכנת, מתמטיקאי וסטטיסטיקאי - ולא של מומחים מסורתיים.

למעשה, בנתונים גדולים, האמת היא: אין זה מקרי שאלגוריתמים שמציעים תוצאות (הסתברותיות) אינם מספקים עם כמויות מוגבלות של נתונים, עוברים פלאים כאשר הם מיושמים על מספרים גדולים יותר.

"Google Translator" מספק דוגמה ברורה כיצד ניתן ליישם את הקריטריון ההסתברותי יחד עם כמות המידע כדי לפתור בעיה מורכבת כגון תרגום.

התכנית, למעשה, אינה מתרגמת החלת כללים דקדוקיים או להזדקק מילונים המאוחסנים, אבל מבוססת על הסבירות כי תכניו של מסמך נתון יכולים להיות מתורגמים בהתאם מבנים דקדוקיים ואת המשמעויות של מילות, פעלים ושמות תואר נוכחים מיליארדי מסמכים, בכל השפות, יש לו בזיכרון.

בדרך זו, זכתה התוכנית בתחרות עם מיקרוסופט והפכה במהרה למתרגמת ביותר בעולם.

בהקשר זה, כאמור, קיבולת המחשוב מייצגת רק חלק מהתהליך, אפילו לא החשוב ביותר, בדיוק כמו האלגוריתמים המשמשים מעת לעת. הגורם הקובע נשאר מספר הנתונים הזמינים: ככל שיש לנו יותר, כך גדל הסיכוי שיש לנו למצוא את מה שאנחנו מחפשים.

הנתונים הגדולים "נותנים כנפיים" למהפכה התעשייתית הרביעית, ומאפשרים הבנה טובה יותר של העולם. הלמידה לנהל אותם ולהשתמש בהם במלואם היא האתגר שמחכה לנו.

¹_{http://www.treccani.it/enciclopedia/legge-di-moore_%28Enciclopedia-della...}

²_{https://wearesocial.com/it/blog/2018/01/global-digital-report-2018}

³_{נתונים גדולים מאת ויקטור שונברגר וקנת צוקר - גרזנטי 2013}

⁴_{המערכת נקראת "אוטומטית" כאשר היא פועלת בעיקר באופן דטרמיניסטי, תמיד מגיבים באותה הדרך כאשר נתונים לאותן תשומות. מערכת "אוטונומית", לעומת זאת, סיבות על בסיס הסתברותי: לאחר קבלת סדרה של תשומות, היא מפרטת את התשובות הטובות ביותר. שלא כמו מה שקורה עם מערכות אוטומטיות, מערכת אוטונומית, עם קלט זהה, יכול לייצר תשובות שונות.}

_{צילום: אמיליו לברדור / נאס"א}