DCSIMG
February 2010 - Posts - Ella Maschiach's BI Blog

Ella Maschiach's BI Blog

BI, Olap Technologies, Tools, System Analysis and Design

News

About Ella Maschiach

Business Inteligence

February 2010 - Posts

Microsoft Business Intelligence Roadshow: פרספקטיבת האנאליסט ניתוח נתונים אד-הוק עם PowerPivot ואקסל 2010

ב Reporting Services 2008 R2 הדוח שלנו יכול להפוך ל data source בפני עצמו מאחר וכעת ניתן להתחבר אליו ב PowerPivot דרך ה Atom data feed.

הכוונה היא להציע את PowerPivot בחינם מתוך רצון שיעודד את הלקוחות לקנות רשיון ל SharePoint 2010.

PowerPivot מהווה סוג של mid tier בין Excel Services ל AS Engine מבחינת ה SharePoint.

שילוב ה PowerPivot עם SharePoint 2010 מאפשרת ניהול שלהם בקלות - זיהוי דוחות ה PowerPivot הכבדים ביותר מבחינת דרישות המשאבים שלהם וזיהוי רמת התכיפות בה משתמשים בקבצים השונים. ניתן כך להזהות מה דורש משאבים רבים לאורך זמן רב ולשקול לבנות לו קוביה.

מעבר לכך, ניהול ההרשאות לקבצים מתאפשר גם דרך ה security של SharePoint 2010. ה security הוא file based security שקיים לכל קובץ שנאחסן על שרת ה SharePoint 2010.

הוצגו מספר פונקציות ב DAX. DAX היא שפת התכנות של PowerPivot המהווה אלטרנטיבה ללמידת MDX או VB עבור ה Power User. הוצגו פונקציות כגון Related, SumX, AverageX ו Time Intelligence Functions שמסייעים בבניית חישובים פיננסיים לאורך זמן (יכולת שדורשת הגדרות מורכבות יותר בכלי דוחות מתחרים).

ב SharePoint 2010 תצוגת Carousel, Theatre שמציגים את הקבצים מקדימה, נבעו מרצון לשפר ביצועי שרת. בעבר, גילו כי אם לא מציגים למשתמש תצוגה מקדימה של ה PowerPivot, הוא היה מקליק על כל קובץ עד שהיה מגיע לזה שעניין אותו. התצוגות של הקובץ מקדימה עוזרות להפוך אותו ל eye candy אך גם מקלות על העומס על השרת.

הגדרת השם לחישובים שלנו ב DAX מאפשרת לנו להתייחס לחישובים בכל ה sheets שבאותו קובץ PowerPivot.

ה Slicer של כמה Pivot Tables המבוססים על אותו מקור, יחתוך על כולם.

החלק האחרון של היום הוקדש לחלק שבו מר לוקוויקי הכי ידוע - data mining. הפעם ניתן הדגש למודל של Association Rules הבוחן את הקשרים בין החברים השונים. למדנו כיצד לחזות מהם המוצרים שסביר ביותר שייקנו יחדיו בעזרת הסתכלות על ה probability.

Microsoft Business Intelligence Roadshow: פרספקטיבת ה-IT מחסני נתונים, ניהול ומבנים אנאליטיים

מעבר ל PowerPivot, מתן כח נוסף למשתמשים מתקבל גם ב Report Builder 3.0 
 
אחד מהחידושים של SQL Server 2008 R2 הוא MDS – Master Data Services. מטרתו ניהול המידע בכל הארגון והבטחת עקביות ואיכות המידע בכל מאגרי המידע.
חשיבות ה Data Warehouse היא בכך שהוא מאחסן מידע היסטורי כולל עבור הארגון, שהוא גם מידע נקי. ה MDS נוצר מתוך חשיבות שיתוף המידע הנקי בין כלל המערכות בארגון.
 
MDS מכיל בתוכו שלושה שלבים:
Import and Integration
Modeling
Export and Subscription 
חלק מה modeling הוא tracking of instances כלומר, ההבנה שהשם משפחה אלקיים הוא בשימוש בת.ז. בעוד שהשם אלקים מופיע ברשיון הנהיגה ושניהם קשורים לאותו האדם.  
 
לרוב יש 4 סוגי קטגוריות למידול ב Master Data Management:
People
Places
Things
Concepts

בניית מודל ב MDM היא לדוגמא בעזרת ERD - Entity Relationship Diagram. מאפשר הבנה של קישור בין הישויות והתכונות שלהן.

Microsoft Business Intelligence Roadshow: פרספקטיבת צרכן המידע בינה עסקית בשירות עצמי

Self Service BI ב Excel 2010 מתבטא במספר אופנים:
שילוב SSAS
מחוונים ויזואליים חדשים
פילטור מתקדם
Data mining
PowerPivot (כולל שפת התכנות החדשה של DAX)

אקסל גם משולב באופן אינטגרלי עם SharePoint 2010. Excel Services מאפשר לנו ניהול של אפליקציות האקסל מבחינת הרשאות, Workflow ארגוני והקצאת משאבים. בהערת אגב, מציין גם מר לוקוויקי כי ה thin client מאפשר למיקרוסופט גם להתחרות ב Google docs. השימוש באקסל דרך Excel Services מאפשר לעשות את מרבית הפעולות שאפשר לעשות על אקסל בדסקטופ המקומי.

לעיתים, אנחנו מתחילים את האפליקציות BI שלנו כתוצאה מאקסל ש Power User פיתח לניהול הנתונים. כיום, הכוח שניתן למשתמשים מחזק את הצורך שלנו כמפתחים להכיר היטב את SharePoint שכעת הפיתוחים של המשתמשים ישבו עליהם.

Data Mining Add In באקסל משולבת כרגע רק בגירסת ה 32bit. כמו כן הוא דורש התקנה של SQL Server 2005 Analysis Services. הוא מדגים את הפעולות שניתן לבצע בעזרת ה ribbon של Analyze שהוא בכל פעולות יותר בסיסיות בתחום ה Data Mining. שימוש יותר מתקדם הוא בעזרת ה ribbon של Data Mining.

PowerPivot נעזר בשפת תכנות DAX, data compression וחישובים שנעשים In Memory כדי לחזק את יכולות המשתמש. הניתוחים של PowerPivot מתבצעים מאחורי הקלעים ב SQL Server Analysis Services. ההדגמה מציגה הן את היכולות המהירות בתגובה של PowerPivot והן את הדרישות הנמוכות שלו מבחינת memory בזכות שימוש ב Vertipack ו Vertiscan. הרעיון הבסיסי הוא אינדוקס כל הערכים ושימוש בקשרים ביניהם על מנת לאפיין את הקשרים באופן שיאפשר תצוגה מהירה.

PowerPivot מתחבר למקורות מידע רבים: SQL Server, SSAS, Oracle, DB2, SQL Azure, Access ועוד רבים אחרים. ניתן להשתמש במספר מקורות מידע במשולב בעת יצירת המידע על אקסל. PowerPivot מאפשר בחירת טבלה ומציג את הטבלאות הקשורות על מנת להביאן לאקסל. עוד בשלב היבוא ניתן להחליט אם נרצה לוותר על עמודות מסויימות ולפלטר על הערכים שנביא (נושא חשוב ל PowerPivot Performance Management כפי שמצויין בפוסט של מרקו רוסו). כל המידע נשמר כעת באופן לוקאלי באופן מכווץ על המחשב שלנו. במקרה ושמות העמודות המקשרות זהה בטבלאות השונות, לחיצה על create (המופיע כחלק מההודעה של הצורך להגדיר קשרים במקרה ולא עשינו זאת) תיתן ל PowerPivot לזהות את הקשרים ולהגדירם עבור המודל.

לאחר איסוף והגדרת הנתונים נתחבר לקישור מידע חיצוני כדי להביא את המידע מה Sandbox על מנת לצור טבלת ציר על הנתונים מה PowerPivot. כיום אין תמיכה בשילוב מידע בין מספר Sandboxes.  

בוצעו הדגמות גם על ה visualization החדש שקיים ב Excel 2010 (כגון sparklines).

להבדיל מ QlikView שמאפשרים פילטור בעזרת עוד dimensional hierarchy, ניקח slicer נפרד לכל רמה ב hierarchy (נבחר כל רמה בהיררכיה בנפרד. לא נזוז בהיררכיה מקטגוריה לתת קטגוריה למוצר. נבחר בנפרד בתכונה של קטגוריה, תת קטגוריה ומוצר. ברגע שבחרנו בחבר ברמה בהיררכיה בקטגוריה, יאפשר לנו לבחור רק את התת קטגוריות והמוצרים הקשורים לאותה קטגוריה. (עולה ב CPU אולם בזכות ה vertipack וה vertiscan או דורש יותר מידי).

על מנת לראות את מה שקורה מאחורי הקלעים, ניתן לתת לקובץ האקסל שלנו סיומת .zip ולהכנס לקובץ הזיפ. נכנס לתיקיית ה XL ונוכל בתוכה לראות את כל קבצי ה xml המגדירים את פעילות ה PowerPivot.

Microsoft Business Intelligence Roadshow: בינה עסקית מטרות, מושגים והפלטפורמה

החלטתי לנסות היום לעשות משהו שלא עשיתי מעולם... לייב בלוגינג!
נתחיל בשידורי החסות - השידורים היום באים אליכם בעזרת הלפטופ של אח שלי (תודה עדלי) והנטסטיק של הבוס שלי (תודה חמאדה) :)
 
השידורים מגיעים אליכם ישירות מיום ההרצאות של רפל לוקוויקי במשרדי מיקרוסופט רעננה בנושא Microsoft Business Intelligence Roadshow. אם אתם לא כאן... אז כנראה שאתם במשרד. אבל אם אתם כן כאן – תגידו שלום!
 
ההרצאה הראשונה בינה עסקית: מטרות, מושגים והפלטפורמה מציגה ראשית כל את החידושים ב PerformancePoint 2010 שמכיל בין היתר תכונות חברתיות כמו like שקורץ לכל משתמשי ה facebook ואבטחה שהיא integrated כיום עם זו של SharePoint 2010 ולא בנפרד ממנה כפי שהיה ב 2007.
כמו כן הוצג ה
dashboard החדש של Contoso בשילוב Silverlight והדגמה של PerformancePoint 2007 בהשוואה לגירסא החדשה שמגיעה (תאריך היציאה הרשמי הוא עדיין רבעון ראשון של 2010).
 

המשך ההרצאה מדבר עלהמעבר מ Organizational BI ל Self – Service BI. הדוגמא שהוא מביא היא בנושא אפליקציות שהמשתמשים שלנו יוצרים על אקסל לניהול נתונים, ביצוע חישובים וניתוחים. חוסר השליטה שלנו כ IT על מאגרי המידע הפרטיים הללו והניהול שלהם. כאן נכנס Office 2010. Self Service BI הוא חלק חשוב מה BI העתידי והשילוב שלו הוא ב SharePoint 2010 כחלק מ Office 2010.

Free Datasets, Data Warehouse and OLAP Databases for your use

Whether you're doing demos, trying different aspects of applications or just looking for something new, you may want to have a broad and free selection of data to choose from. This post is here to help you out on that.
I've collected a number of free data source for you to use:

From the PowerPivot blog:
Data on the District of Columbia http://ogdisdk.cloudapp.net/DataCatalog.aspx

From Andrew Fryer's blog:
Data from the UK Government: http://data.gov.uk/data/
Datasets for neighborhoods in the UK (with Geospatial data) http://www.data4nr.net/resources/all/

From Chris Webb's blog:
The Guardian Data Store
Data from the Greater London Authority http://data.london.gov.uk/

Also, following a post from Mr. Webb on the Dallas Project, I made a post detailing the use of Dallas in SSRS via an Excel spreadsheet. There is also a post from Mr. Webb on connecting to Dallas through Excel well worth checking out.
The data from Dallas includes datasets from NASA, Associated Press and more all for free (for the time of writing). Dallas requires you sign up for it.

From Russell Christopher's blog:
The new large DW and OLAP sample databases of Contoso for SQL Server 2008, SQL Server 2008 R2.

And obviously there's the old trusted Adventure Works DW and OLAP sample databases for SQL Server 2005, SQL Server 2008, SQL Server 2008 R2 and SQL Azure.

Once you have downloaded the data, you can use it in the appropriate server platform and also use it in PowerPivot.
I will keep updating this post so tag it for future use!
Start querying your new free data to find something interesting.

Update 14th of February 2010: if you’re interested in a free data source in Dutch based on a SSAS 2005 cube and presented in Panorama, then you can look up:

https://www.werk.nl/portal/page/portal/werk_nl/cwiencijfers/meerweten/arbeidsmarktinfo/landelijkearbeidsmarktinformatie#ID78Unemployed

Which shows data about vacancies and job seekers. Obviously, you can also look at it also to get an idea about styling your Panorama report. Thank you Marco for your update!