סטגנליזה ולמידה מכונה: תשובה אירופאית

(של איג'ינו קורונה, מתאו מאורי)
05/05/20

La סטגנוגרפיה זהו מנגנון סודי לקידוד מידע בכל אמצעי העברה. השימוש בו היה ידוע מאז יוון העתיקה גם אם נכנס רשמית למילוני המונחים בסוף המאה ה -XNUMX.

גם הקידוד וגם מדיום השידור הם סגרטי, או ידוע רק לצדדים שמתכוונים לתקשר בצורה סמויה. סטגנוגרפיה לפיכך היא מציגה את עצמה ככלי אידיאלי ליצירת ערוצי תקשורת חשאיים הניתנים לשימוש בתרחישי ריגול מתוחכמים, פשעי מחשב והפרת פרטיותם של נושאים ציבוריים ופרטיים.

La סטגנוגרפיה שונה מ קריפטוגרפיה, כאשר קידוד המידע ואמצעי השידור ידועים בדרך כלל (חשוב למשל על פרוטוקול HTTPS המשמש את האתר המארח מאמר זה). במקרה זה פרטיות המידע מובטחת על ידי מנגנון הקידוד אשר מקשה (באופן קיצוני)1 שליחה / חילוץ מידע ללא ידיעה על מידע נוסף, המכונה מפתחות הצפנה / פענוח. מפתחות אלה ידועים רק לצדדים המוסמכים לתקשר (למשל, הדפדפן שלך ושרת האינטרנט שלנו).

תהליך ניתוח המחקר סטגנוגרפיה זה ידוע גם בשם steganalysis. בשלב הראשון תהליך זה נועד לזהות נוכחות של סטגנוגרפיה באמצעי העברה אחד או יותר, ורק במקרה השני הוא יכול להמשיך עם חילוץ המסר הנסתר.

היעילות של טכניקות סטגנליזה תלויה לחלוטין במידת התחכום וה"התאמה האישית "של הטכניקות הסטגנוגרפיות בהן משתמש יריב זדוני.

המקרה הקל ביותר להתמודד הוא זה שבו סטגנוגרפיה מתבצעת באמצעות כלי "מדף". המקרה הזה משקף יריב עם רמת ידע נמוכה (או אפס) סטגנוגרפיה, ומי פשוט משתמש בכלים המיושמים וזמינים על ידי אחרים: באבטחת מחשב נקרא לעתים קרובות מתנגד כזה תסריט קידי.

בתחום הדיגיטלי יש הרבה תוכנות שהם מיישמים סטגנוגרפיה ורוב אלה משלבים טכניקות הצפנה. הטבלה מציגה דוגמאות לתוכנות קוד פתוח המשתמשות בשתי הטכניקות.

כמובן שמכשירי "מדף" זמינים בדרך כלל גם למי שמתכוון לבצע סטגנליזה.

ביישום ה- סטגנוגרפיה, כל תוכנה בדרך כלל משאירה (פחות או יותר מרומז) חפצים אופייניים בקבצים המנוהלים, שאותם ניתן ללמוד לבנות חתימות (טביעת אצבע). ניתן להשתמש בחתימות אלה בשלב הסטגנליזה כדי לזהות לא רק את נוכחותם של סטגנוגרפיה, אך הכלי הספציפי בו נעשה שימוש, כמו גם חילוץ תוכן מוסתר [7,8]. רוב מערכות הסטגנליזה משתמשות במנגנון זה [9].

קל לראות שאנחנו במעגל קסמים ("מירוץ חימוש") שמאפשר להגדיל את התחכום של הטכניקות והכלים המשמשים גם את מי שמתכוון להשתמש סטגנוגרפיה, ועל ידי מי שמתכוון לחשוף אותו ולגלות את תוכנו הנסתר. בין שני הפרופילים, לנתון הראשון יש בדרך כלל יתרון מכיוון שהיא יכולה בכל עת לשנות את אמצעי ההעברה ו / או הקידוד של המידע בכדי לברוח מזיהוי.

לדוגמה, יריב עשוי לשנות את יישום התוכנה סטגנוגרפיה לברוח מ טביעת אצבע, או אפילו ליישם טכניקות סטגנוגרפיות חדשות לחלוטין. זה כמובן בעלות - אנחנו כבר לא נמצאים בנוכחות תסריט קידי - אך ניתן לאזן בין עלות זו לסיבות (למשל יתרונות אסטרטגיים / כלכליים של ארגון ריגול סייבר).

מצב זה ידוע היטב בתחום אבטחת הסייבר: בדרך כלל הרבה יותר קל לתקוף מערכות מחשב מאשר להגן עליהן. מקרים של תוכנות זדוניות מתבטאים בגרסאות "פולימורפיות" רציפות בדיוק כדי להתחמק ממנגנוני הזיהוי במקום להגנה על מערכות (למשל. antimalware).

בתרחיש זה, למידת מכונה (למידת מכונה מדוגמאות) יכולה לייצג נשק מתוחכם לשירותם של מי שמתכוון לחשוף את המסמך סטגנוגרפיה. באמצעות טכניקות של למידת מכונה למעשה, ניתן לפתח אוטומטית מודל סטגנליזה החל מסט של דגימות קבצים עם ו / או בלי סטגנוגרפיה.

מרבית הגישות המוצעות משתמשות במה שנקרא למידה דו-כיתתית מפוקחת (סטגנוגרפיה נוכח / נעדר), הדורש שימוש בדגימות הן עם והן בלי סטגנוגרפיה, כדי לקבוע אוטומטית הבדלים סטטיסטיים. שיטה זו שימושית במיוחד לגילוי נוכחות של גרסאות ידועות של טכניקות סטגנוגרפיה (למשל מיושמות בתוכנה חדשה) שאין בהן חתימות.

דוגמאות לאלגוריתמים שונים המבוססים על למידה מפוקחת לגילוי סטגנוגרפיה בתמונות הם יושמו בספריית קוד פתוח בשם Aletheia [10].
חתימות ולמידה מפוקחת יכולים לספק דיוק טוב בכל מה שקשור לגילוי טכניקות סטגנוגרפיה ידוע וגרסאותיו, אך נתונים להיעלמות בנוכחות טכניקות חדשות לחלוטין, למשל, עם פרופיל סטטיסטי שונה משמעותית מזה שנצפה בדגימות המשמשות לאימונים.

מסיבה זו, מחקרים אחרים [11,12] הציעו במקום זאת להשתמש בטכניקות למידה מבוססות אנומליה. גישה זו כוללת שימוש רק בדגימות בהן סטגנוגרפיה הוא נעדר, לבנייה אוטומטית של פרופיל רגיל. ניתן להשתמש אפוא בנוכחות חריגות ("חריגות"), או חריגות מפרופיל זה, כדי לאתר טכניקות סטגנוגרפיות לא ידועות לחלוטין. גישה זו, לעומת זאת, חייבת להתמקד בהיבטים (תכונות) שסטיותיהם מהנורמה הן אינדקס מניפולציה גבוה כדי להציע דיוק טוב. חשבו למשל על השוואת הגודל שצוין בכותרת הקובץ לגודל האמיתי.

מכיוון שלכל טכניקת סטגנליזה היתרונות שלה, שילוב ביניהן מועיל לעיתים קרובות: חתימות, למידה מפוקחת וללא פיקוח [12]. הנציבות האירופית יודעת היטב שהיא מימנה פרויקט אסטרטגי למטרה זו, שנקרא SIMARGL - אבטח שיטות חכמות לזיהוי מתקדם של תוכנות זדוניות, stegomalware ושיטות הסתרת מידע (הסכם מענק מס '833042 - www.simargl.eu).

הפרויקט, בתקציב כולל של 6 מיליון יורו, נועד ליצור מערכות סטגנליזה מתקדמות המיושמות לאיתור תוכנות זדוניות (סטגו), תוכנות זדוניות המשמשות יותר ויותר את עבירות הסייבר והמדינות הלאומיות בפעולות ריגול. בפרויקט זה משתתפים שחקנים בינלאומיים בקליבר של איירבוס, Siveco, Thales, Orange Cert, FernUniversität (רכז הפרויקט), לשלושה "איטלקים" בניגודים סטגומאליים: Pluribus One, ספין אוף של אוניברסיטת קליארי, משתתף כספק תוכנה ומפתח; CNR, יחידת גנואה, מקימה אלגוריתמים לזיהוי אנרגיה מודעת המבוססים על בינה מלאכותית; חברת נומרה, הפועלת בתחום ה- ICT שבסיסה בססארי, תגיש "חלק מהמערכות שלה המיועדות לשוק האשראי" לבדיקת "SIMARGL.

בסך הכל ישנם 14 שותפים בינלאומיים (משתתפים בקונסורציום גם Netzfactor, ITTI, אוניברסיטת ורשה, IIR, RoEduNet, קרן Stichting CUIng) מ- 7 מדינות שיביאו אינטליגנציה מלאכותית לשטח, מוצרים מתוחכמים שכבר זמינים ו למידת מכונה בתהליך השיפור, על מנת להציע פיתרון משולב המסוגל להתמודד עם תרחישים שונים ולפעול ברמות שונות: החל מניטור תנועת רשת ועד גילוי קטעים מטושטשים בתמונות.

האתגר של פרויקט SIMARGL רק התחיל ויספק תשובות קונקרטיות לבעיית הסטגומלואר בשנתיים הקרובות: הפרויקט יסתיים למעשה באפריל 2022.

חשוב להדגיש כי למידת מכונה (ובאופן כללי יותר בינה מלאכותית) היא טכנולוגיה ניטרלית (כמו טכנולוגיות רבות אחרות). באופן ספציפי, הוא משמש כפול [13] ואינו שייך לתחום של אנשים טובים. בהתחלה, ה למידת מכונה זה יכול לשמש גם לפיתוח טכניקות סטגנוגרפיות מתוחכמות, פולימורפיות יותר.

בואו להתכונן, כי תרחיש זה יכול לייצג את העתיד של איומי הסייבר (ואולי פיסת עתיד כבר קיימת).

1. מידת הקושי מזהה בדרך כלל את עוצמת הקידוד.

הפניות: 
[1] https://www.softpedia.com/get/Security/Encrypting/Xiao-Steganography.shtml
[2] https://archive.codeplex.com/?p=imagesteganography
[3] http://steghide.sourceforge.net/download.php
[4] https://www.ssuitesoft.com/ssuitepicselsecurity.htm
[5] https://www.gohacking.com/hide-data-in-image-audio-video-files-steganogr...
[6] https://embeddedsw.net/OpenPuff_Steganography_Home.html
[7] Pengjie Cao, Xiaolei He, Xianfeng Zhao, Jimin Zhang, גישות להשגת טביעות אצבע של כלים של סטגנוגרפיה שמטמיעות הודעה במיקומים קבועים, Forensic Science International: Reports, Volume 1, 2019, 100019, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2019.100019.
[8] צ'ן גונג, ג'ינג-ג'ונג ג'אנג, יונזאאו יאנג, שיאו-יי-יי, שיאנפנג ג'או, יי-מא, איתור טביעות אצבעות של תוכנת שמע סטגנוגרפיה, Forensic Science International: Reports, Volume 2, 2020, 100075, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2020.100075
[9] https://www.garykessler.net/library/fsc_stego.html
[10] https://github.com/daniellerch/aletheia
[11] ג'ייקוב טי ג'קסון, גרג ה 'גונש, רוג'ר ל' קלייפול ג'וניור, גארי ב 'למונט. איתור סטגנוגרפיה עיוור באמצעות מערכת חיסונית חישובית: עבודה בעיצומה. כתב העת הבינלאומי להוכחות דיגיטליות, חורף 2003, גיליון 1, כרך 4
[12] ברנט ט. מקברייד, גילברט ל. פיטרסון, סטיבן סי גוסטפסון. שיטה עיוורת חדשה לגילוי סטגנוגרפיה רומן, חקירה דיגיטלית, כרך 2, גיליון 1, 2005, עמודים 50-70, ISSN 1742-2876,
https://doi.org/10.1016/j.diin.2005.01.003
[13] https://www.pluribus-one.it/company/blog/81-artificial-intelligence/76-g...