עדכון רציף של חוקי סיווג לתמיכה בסביבת נתונים דינאמית

אנה חלמסקי, רועי משה גלברד

Research output: Contribution to journalArticlepeer-review

Abstract

בתהליכי סגמנטציה דינאמיים רבים אנו מסווגים מקרים חדשים המתקבלים מזרם הנתונים על פי מודל שנבנה על בסיס מקרים קודמים. כל עוד המקרים החדשים "דומים מספיק" לסגמנטים הקודמים, הסיווג מתנהל באופן מהיר וחסכוני. עם זאת, כאשר מקרה חדש שונה מהותית מסגמנטים קיימים, נדרשת בחינה מחודשת של הסגמנטים שנוצרו בעבר. הבדיקה המחודשת עשויה לגרום ליצירת סגמנטים חדשים או לעדכון הקיימים. במחקר זה אנו מניחים שבסביבות נתונים דינאמיות של נתוני עתק לא ניתן לבחון מחדש את כל נתוני העבר ולכן אנו מציעים להשתמש במאגרי זיכרון קטנים (data buffers) המשמשים לאחסון של מקרים נבחרים כחלופה לשימוש בכל נתוני העבר. אנו מציגים מנגנון דינאמי אינקרמנטלי התומך בסגמנטציה וסיווג של זרם הנתונים, ללא שדה מטרה, בזמן אמת. על מנת להפחית את המאמץ החישובי של תהליך סגמנטציה בסביבות דינאמיות ועמוסות נתונים, המודל המוצע Dynamic Classification Unit (DCU) מבצע עדכונים רק על סמך הנתונים ב מאגרי הזיכרון המצומצמים. הערכת מודל ה-DCU מוצגת באמצעות השוואה עם שתי גישות מקובלות לניהול זרם הנתונים ועדכון סגמנטים: גישה סטטית שאינה מאפשרת יצירת סגמנטים חדשים או מיזוג של הקודמים וגישה דינאמית שמאפשרת יצירת סגמנטים חדשים או מיזוג הקודמים, אך העדכון מתבצע על סמך כל נתוני העבר בסגמנט הרלוונטי. בסביבות נתונים דינאמיות, ויזואליזציה של תהליך סגמנטציה לאורך זמן לרוב אינה מאפשרת למשתמש לעקוב אחר מספר היבטים באופן סימולטני, כגון מעקב על רמת הקבוצה ורמת הפרט, בקרת הגרסאות או מעקב אחר קצב עדכון הסגמנטים. המחקר מציג שיטת ויזואליזציה מקיפה, המכונית להלן Expan Drogram, שנועדה לתמוך במסווגים דינאמיים הפועלים בסביבת נתוני עתק בכפוף לשינויים במאפייני הנתונים. השיטה מאפשרת למשתמש לשלוט על מגוון רחב של פרמטרים על מנת למקסם את ההתאמה האישית של בעיית הסגמנטציה למשתמש .בנוסף לויזואליזציה עצמה, המשתמש יכול לבחור בת צוגה שכבות נוספ ות (layouts) שמדגיש ות היבטים ספציפיים של תהליך הסגמנטציה, כגון רובד של מגמות חדשות או רובד של ערכים חריגים. (מתוך המאמר)
Original languageHebrew
Pages (from-to)5-22
Journalתיאוריה ופרקטיקה בניהול
Volume2
StatePublished - 2021

IHP Publications

  • ihp
  • Big data
  • Classification
  • Data mining
  • Databases
  • Mathematical models

Cite this