זו ההזדמנות לעשות סדר בבלאגן – DQS, מודול טיוב הנתונים של SQL Server 2012

15 בינואר 2012

2 תגובות

face_profile מאת: רועי פסטרנק

 

מנהלי מחשוב ומערכות מידע משקיעים משאבים רבים בפיתוח תשתיות מחשוב מתקדמות אשר יתרמו לייעול תהליכים בארגון ולשיפור ביצועים. אבל הנה פרדוקס קטן: גם התשתיות הכי מתקדמות תמיד יהיו תלויות באיכות הנתונים שאותן הן אמורות לנהל וגם השקעות גדולות באיסוף כמות גדולה של נתונים ובניהול שלהן הופכות חסרי ערך ללא דאגה מתמדת לאיכות הנתונים.

המשוואה פשוטה: נתונים לא טובים = מידע לא טוב = עסקים לא טובים.

בנוסף, היום יותר ויותר אנו רואים התייחסות רגולטורית לסוגיית טיוב הנתונים. במקרים רבים ישנה רגולציה שדורשת נתונים נקיים, תקינים ונכונים.

הנה כמה דוגמאות לבעיות נפוצות בנתונים:

· סטנדרטיזציה: הנותונים מופיעים בפורמט שאינו אחיד. כך לדוגמא זכר/נקבה לעומת ז/נ.

· שלמות: מידע חסר ברשומות. ניתן לומר שב-30% מרשומות הלקוחות חסר שם משפחה, ב-60% מנתוני המיקוד יש 999999

· דיוק: המידע אינו מדוייק או לא מעודכן. כך למשל במקרים בהם קיימים ספקים רבים בסטטוס 'פעיל' כשבפועל הם אינם פעילים

· תקינות (validation): מידע אשר אינו תקין משום שלא התבצעה בדיקת תקינות בעת ההכנסה. למשל מבנה ת.ז צריך לכלול 9 ספרות וספרת הביקורת צריכה לענות על תנאי מסויים.

· ייחודיות (Unique): מידע מוכפל הוריאציות שונות. למשל 3 ספקים שונים – Microsoft, Microsoft LTD, Microsoft CORP ברור לי ע"פ שדות אחרים שמדובר באותו ספק והוא מנוהל כ-3 ספקים ולכן הלקוח לא מקבל תמונה מלאה

אנחנו במיקרוסופט הבנו זה מכבר שישנו קשר תלותי בין תשתיות ניהול מידע ותקינות המידע עצמו ושביצועים עסקיים טובים תלויים בשניהם גם יחד. במסגרת SQL Server 2012, אנו מספקים רכיב חדש בשם DQS – Data Quality Services. כן, אותן יכולות טיוב, שהורגלתם להשקיע בהם רבות כפתרונות נפרדים, מעכשיו כלולות כחלק אינטגרלי של SQL Server 2012.

ה-DQS  יודע להתמודד עם כל בעיות הנתונים שהוצגו באמצעות שני תהליכי טיוב מרכזיים:

· Cleansing – "ניקוי" ותיקון של נתונים (סטנדרטיזציה של שדה מגדר, השלמת שמות המשפחה החסרים, השלמת שמות המשפחה ותיקון ת.ז')

· Matching – "איחוד" של נתונים (במקום 3 ספקים שונים של Microsoft, תהיה רשומה אחת)

המערכת היא מערכת לומדת וככל שחולף הזמן ובהתבסס על המשוב שהלקוח מחזיר היא מזהה בצורה טובה יותר את הבעיות בנתונים ומציעה תיקון (הלקוח יכול להחליט האם הוא סומך על המערכת ונותן לה לתקן או שהוא רוצה רק חיווי).

כיצד זה עובד?

ה- DQS הינה מערכת המבוססת על ידע המאפשרת בניית בסיס ידע אשר ישמש לביצוע מגוון פעולות טיוב מידע, כולל תיקון, השלמה, סטנדרטיזציה, ומניעת שכפולים. בניית בסיס הידע הינו קל ופשוט, שכן הוא מבוסס על המידע הקיים שלכם, תוך שימוש בתהליכים מחשוביים ואינטרקטיביים. בסיס הידע ניתן להרחבה עם ידע של צדדים שלישיים באמצעות Data Reference Services (נתונים שיסופקו ע"י הארגון עצמו, בסיסי נתונים חיצוניים שיירכשו ע"י הארגון ואפילו מקורות המנוהלים ב- Windows Azure Marketplace. )

המערכת מציעה קונסול (ממש אפליקציה) לשימוש מומחי ידע ויכולה להשתלב באופן אינטגרלי עם כלי הגזירה שלנו SSIS (מגרסת 2012 כמובן) לביצוע תהליכי אצווה (batch).

clip_image001

רועי פסטרנק הנו מנהל תחום Data Platform & BI במיקרוסופט ישראל

הוסף תגובה
facebook linkedin twitter email

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

2 תגובות

  1. שמאי14 בפברואר 2012 ב 14:39

    שלום, האם פתרון הDQS מבוסס על תשתית של חברת ZOOMIX שנרכשה זה מכבר ע"י מיקרוסופט ? אשמח לתשובה למייל שלי markel12@013.net.il. תודה.

    הגב
  2. ירון14 בפברואר 2012 ב 14:55

    שלום,
    האם יש ספקי מידע ישראליים שיודעים לעבוד עם אותם Reference Data Services?

    תודה.

    הגב