מאגרי מידע, מידע, ידע

(של ג'ורג'יו ג'יאצ'ינטו)
04/07/24

מאז שהאדם החל לעשות שיטתיות בידע, היה לו צורך לסווג ולהגדיר את המציאות הסובבת. לשם כך הוא הציג שיטות כמותיות לתיאור כל מה שסביבו.

מסד נתונים הוא כלי IT שמטרתו להקל ויעיל לא רק לאחסן תיאורים של מציאות מעניינות, אלא בעיקר לאחזר נתונים באופן מתאם על מנת לחלץ מידע.

ניקח דוגמה פשוטה. ניתן לתאר מוצרים המוצעים בסופרמרקט לפי מותג, שם מסחרי, תיאור ומחיר. ללקוח קבוע עשוי להיות "כרטיס נאמנות" המשויך לכמה נתונים אישיים, הרכב התא המשפחתי וכישורים לימודיים. כל קבלה בסופרמרקט מחברת את הלקוח עם המוצרים שנרכשו בתאריך ושעה מסוימים. אלו הנתונים.

אבל איזה מידע אנחנו יכולים לחלץ? למשל, מהו היום בשבוע שבו נמכרת הכמות הגדולה ביותר של בירה, או סוג המזון שנרכש על ידי משפחות שבהן לפחות חבר אחד יש תואר אוניברסיטאי.

ככל שנשמור יותר פרטים עבור מציאות נתונה, כך גדלה האפשרות לחקור את המערכת כדי לחלץ מידע בעל ערך. באנגלית הפועל המשמש לביטוי המושג להטיל ספק במערכת הוא שאלה שלמעשה יש לו שורש לטיני, הפועל quaero (בקשו לקבל משהו). הסוד ליצירת מסד נתונים שיכול לשמש למגוון רחב של שאילתות הוא לייצג את הנתונים התיאוריים של מציאות בצורה אטומית ולא מצטברת.

בדוגמה הקודמת תיאור המוצר אינו שיטה טובה אם נכניס פרטים כמו למשל. משקל מוצר או מספר האריזות יחד. נתונים שאינם מקוטלגים במפורש הופכים את העיבוד שלהם למורכב מאוד מכיוון שהם דורשים פרשנות של התוכן.

כדי להפוך את קטלוג הנתונים לאינטואיטיבי, נעשה שימוש במבנה הטבלה, שבו ישות של עניין מיוצגת על ידי שורות (למשל מוצר במבצע, מטופל וכו') והמאפיינים שלו לפי עמודות (למשל, מותג, שם מוצר, מחיר , וכו.). טבלה יכולה גם לייצג קשרים בין ישויות שונות. לדוגמה, אם אני צריך לייצג את יחסי הבעלות על רכב, אצטרך רק טבלה שבה כל שורה מציגה את קוד המס של הבעלים ואת לוחית הרישוי של הרכב, כלומר שני המאפיינים המאפשרים לי לזהות באופן ייחודי את הבעלים ואת הרכב. .

זה שתואר עד כה הוא מודל הנתונים ההתייחסותיים שהוצע על ידי Edgar Codd (IBM1) שעדיין מייצג את הסטנדרט לייצוג נתונים, גם הודות לפשטות השפה שפותחה כדי לבצע שאילתות במערכת (SQL, המכונה לפעמים ראשי תיבות של Structured Query Language, למרות שבמציאות זה השם שניתן לתקן של ה- שפה כדי להבדיל אותו מהשם המסחרי המשמש את IBM, SEQUEL).

הזמינות של כמות גדולה של מידע מפורט המאוחסן במסד נתונים יחסי מאפשרת להוציא מידע שימושי לניטור, ניהול ותכנון אסטרטגי של ארגון. לדוגמה, צבירת התקבולים הבודדים של מפעל מסחרי, או הערכות הרווח של סטודנט, מאפשרים לנו ללמוד את מגמת המכירות הכוללת בהתאמה (לפי משבצות שעות היום, לפי סוג לקוח וכו') או של קריירות הסטודנטים (תוצאות בחינות באוניברסיטה לפי סמסטר, לפי מסלול לימודים וכו'). פעולות אלו מבוצעות ב מחסן נתונים, ארכיונים שבהם הנתונים מאוחסנים בצורה מצטברת. כלי ניתוח הנתונים המשמשים במחסן נתונים נקראים בינה עסקית וכוללים מספר טכניקות סטטיסטיות וסטטיסטיות למידת מכונה. המונח שימש בעבר כריית נתונים מציין שהנתונים הם מכרה שממנו ניתן לחלץ ערך.

המודל ההתייחסותי מאפשר לאחסן נתונים ביעילות ולהיות מסוגלים לבצע סוגים שונים של מתאמים, אך עם איטיות עיבוד מהותית עקב הפרדת המידע לטבלאות מובחנות הדורשות מספר פעולות קריאה ממערכת האחסון כדי להפיק את התוצאה. דגמי NoSQL התפשטו במהלך 20 השנים האחרונות2 (לא רק SQL) המתמחה באחסון אגרגטים. דוגמה ממגזר המסחר האלקטרוני יכולה להבהיר את הרעיון. כאשר אנו מחפשים מוצר, ומשווים חלופות שונות, יש לנו הזדמנות לבחור את המאפיינים הרצויים. זוהי פונקציונליות טיפוסית של מודלים רלציוניים המאחסנים את מאפייני המוצר בצורה מובנית. לדוגמה, עבור טלוויזיה אנו יכולים לבחור את גודל המסך, הרזולוציה, נוכחות או היעדר יציאות חיבור מסוימות וכו'. כאשר נמשיך ברכישה נוכל להשתמש בקוד הנחה או בהצעה של היום. כל הפרטים הללו מאוחסנים באלמנט בודד של מסד נתונים NoSQL המייצג את המקבילה של הקבלה או החשבונית. למעשה, יהיה זה מכביד לשנן את ההיסטוריה של הגרסאות השונות של המוצרים הנמכרים, קמפיינים קידום מכירות וקודי הנחה באמצעות המודל היחסי.

בארגון מודרני אנו מוצאים אפוא מסדי נתונים שונים, כל אחד מתמחה למטרה מסוימת: מסדי נתונים יחסיים לאחסון כל הפרטים של מציאות ספציפית, ומסדי נתונים NoSQL לייצוג אגרגטים שקל לאחזר ללא צורך בקורלציה של מידע בכל פעם. לכן אנו מדברים לעתים קרובות על שינון מתמשך פוליגלוט3.

הצורך לאחסן נתונים ולאחר מכן לעבד אותם גדל באופן דרמטי היום הודות לפיתוח סוגים שונים של חיישנים שאליהם אנו מתייחסים לעתים קרובות במונח הגנרי אינטרנט של דברים. בחיי היומיום שלנו אנחנו כנראה משתמשים במכשיר לביש כדי לנטר כמה פרמטרים של הפעילות שלנו. רכבים רבים (מכוניות, קטנועים, אופניים וכו') מאפשרים לשנן את המסלול שנעשה ואת השחיקה של חלק מהרכיבים. בבתים שלנו ישנם מדי שירות ביתיים חכם כי הם מתקשרים, במרווחי זמן קבועים, מידע על צריכת חשמל, גז או מים. נתונים אלה רלוונטיים הן לזיהוי מיידי של מצבים חריגים או מסוכנים, אך מעל לכל הם שימושיים כאשר הם מצטברים לזיהוי מגמות והרגלים.

שפע זה של נתונים, מובנים ובלתי מובנים, המנוהלים עם מודלים וטכנולוגיות שונות (המכונה לעתים קרובות אגם נתונים), הולידה בשנים האחרונות את הדמות המקצועית של מדען נתונים, כלומר, המומחה בשרשרת הנתונים מהפקתם, ועד לסינונם, הניקוי והצבירה שלהם כדי להגיע לטכניקות השאילתה המאפשרות חילוץ מידע.

אנחנו חיים במה שנקרא חברת מידע4, כאשר האחסון, הייצוג והמתאם בין הנתונים מהווים את העושר האמיתי. לא במקרה בשנת 2006 האמרה שהתפרסמה "הנתונים הם הנפט החדש"5, ולאחרונה גם זה "בינה מלאכותית היא החשמל החדש"6.

1https://www.ibm.com/history/edgar-codd

2https://sheinin.github.io/nosql-database.org/

3https://martinfowler.com/articles/nosqlKeyPoints.html

4https://www.manuelcastells.info/en/

5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby

6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity