Przejdź do głównej zawartości

D jak Dane

Rozwijamy słowo IDEA. Druga litera. Już mamy I D ....

Przypominam: O danych. O profesjonalizmie. O Excelu. A właściwie nie całkiem. Teraz raczej o „Excelu w kontekście”.
Jednak jeśli chcemy spojrzeć w drugie oblicze Światowidowego Ducha Profesjonalizmu, musimy zacząć od podstaw.

Zacząć…

Może taka scenka?

Słonecznego ranka, w sobotę, podczas wiosennych porządków w ogródku, pan Zygmunt, właściciel segmentu na podwarszawskim osiedlu, zauważył dziwne, białe plamy na świerku, rosnącym w rogu.
Zaniepokojony, rzucił grabie i poleciał po komórkę, aby zrobić zdjęcie gałązce z plamami. Wsiadł w samochód i popędził do oddalonego o kilkanaście kilometrów marketu budowlanego, chwalącego się, że jego doradcy rozwiążą każdy problem.

I rzeczywiście. Doradca, po obejrzeniu zdjęcia i krótkiej rozmowie poradził kupić środek grzybobójczy do rozpuszczenia w wodzie i ręczne urządzenie do oprysku.
Klient podszedł do kasy, gdzie zapłacił za lekarstwa na swoje kłopoty niecałe 30 złotych gotówką.
Kasjerka, zanim wydała mu paragon, stanowiący jednocześnie dowód zakupu i podstawę ewentualnej rękojmi, poprosiła o kod pocztowy.

Pan Zygmunt, zadowolony, z uczuciem ulgi, bez oporów podał kod i wrócił do swojego ogródka i do swoich spraw. Świerk był uratowany.

Co tu jest ciekawego?

Ktoś przytomny w zarządzie firmy handlowej postanowił zbierać dane. Wdrożył genialnie prostą procedurę. Nobel! I w systemie informatycznym firmy dokonał się właśnie akt

zapisania danych o ... f a k c i e.

Można teraz rozważać przez kilka rozdziałów, co można z taką informacja zrobić, ile to daje korzyści. Jeśli się ją przetworzy i wyciągnie odpowiednie wnioski. No i j a k to zrobić. Ale na to trochę za wcześnie.
Na razie skupmy się na samym fakcie.

Fakt

Pojęcie podstawowe w analizie biznesowej.

Paragon, który zawiera informacje o pozycjach zakupu, ilościach, cenach, podatku VAT, dacie (i godzinie!) oraz wartości zakupu został uzupełniony o ważną daną. O miejscu zamieszkania klienta z dokładnością do urzędu pocztowego, czyli o kodzie pocztowym.

Fakt. Pojęcie podstawowe. Ale można je rozebrać na czynniki jeszcze bardziej pierwotne. I pokazać,
jakie składowe musi mieć taki zestaw danych, żeby był faktem. Bo nie wszystkie dane to fakty.
Najważniejszą cechą faktu nie jest bynajmniej ten sprytnie zdobyty, kod pocztowy.

Miara

Najważniejsze jest, by fakt posiadał składową o nazwie m i a r a. Wartość zakupów. A właściwie, wartości zakupów na poszczególnych pozycjach. Bo mamy tu do czynienia z faktem złożonym.
Bez miary nie ma faktu. Możemy mieć mnóstwo danych, które nie są faktami. Pan Zygmunt mógł pójść do tego sklepu, ale nic nie kupić. Doradca mógł nie mieć dla niego czasu, albo nie wiedział, co poradzić na dziwne, białe plamy. I pan Zygmunt wrócił z niczym.
Przy wyjściu przez bramkę „bez zakupów”, ochroniarz mógłby go nawet zapytać o kod pocztowy. Zakładając nawet, że rozczarowany klient miałby ochotę odpowiedzieć, to na co taka informacja mogła się komu przydać? Nie ma ona miary. Sklepy nie robią jeszcze analizy ruchu zwiedzających bez zakupów. A może robią? Ale my się tym nie zajmujemy.

Tak więc fakt musi mieć miarę. Minimum jedną. Czasem kilka. W omawianym przypadku może to być liczba sztuk zakupionych produktów, liczba asortymentów, podatek VAT w rozbiciu na asortymenty, jeśli stawki są różne.

Miara - to liczba, określająca w jakiś sposób stopień wagi faktu czyli coś w rodzaju jego ciężaru gatunkowego. Żeby można było porównać zakup pana Zygmunta z innym zakupem. Dodać je razem. Dodać wszystkie zakupy z danego dnia. Tygodnia. Wszystkie zakupy dla kodu pocztowego, który podał pan Zygmunt. Wszystkie zakupy dla opryskiwaczy. Albo obliczyć średnią. Albo odszukać zakup największy.

Atrybut

Jeśli mamy miarę, dysponujemy faktem biznesowym. Ale fakt musi mieć jeszcze jedną składową. Przynajmniej jedną. To składowa, którą określmy nazwą atrybut.

Atrybutem może być właśnie kod pocztowy. Ale również nazwa produktu lub jego indeks. Data zakupu. Razem trzy atrybuty.
Można również uzyskać atrybuty pochodne. Można na przykład rozszyfrować kod pocztowy i uzyskać atrybut – „dwa pierwsze znaki kodu”. Będziemy mieli wówczas informację nie tylko o urzędach pocztowych ale o jednostkach terytorialnie większych.
Również data może być źródłem co najmniej dwóch pochodnych atrybutów: rok i miesiąc zakupu.
Dodajmy jeszcze, że atrybut nazywany jest jeszcze kilkoma imionami: kryterium, cecha, wymiar.

Co począć z takim faktem?

W ten sposób wyprawa pana Zygmunta stała się źródłem danych o fakcie, który ma:

Siedem atrybutów:
data, miesiąc, rok zakupu, kod pocztowy, dwa znaki kodu, nazwa artykułu, cena

i

dwie miary:
wartości zakupu netto asortymentu i ilości zakupu asortymentu. Podatki sobie darujemy.

Jeśli zgromadzimy w Excelu dane o faktach z pewnego okresu, dostaniemy następującą tabelkę:

Tabela Faktów



Skąd się te dane tam wzięły? Na pewno nikt ich tam nie będzie wklepywał z klawiatury. Nie te czasy. Ale o tym sobie porozmawiamy później.
Teraz jednak odpowiedzmy sobie na dwa podstawowe pytania:

Czy osiągnęliśmy cel, mając takie dane?
Czy takie ułożenie faktów jest wygodne, czy też należałoby układ ulepszyć?
Rozważmy to po kolei.

Pytanie 1: Czy taka tabelka stanowi dobry punkt wyjścia do analizy?

Odpowiedź jest pozytywna. Spójrzmy, co dostaliśmy: Każdy fakt, opisany w jednym wierszu o stałej strukturze, posiada siedem atrybutów i dwie miary. Skupmy się na jednej mierze: wartości sprzedaży netto, którą określimy po prostu sprzedażą.

Możemy teraz sumować miarę ogółem (całkowita sprzedaż netto), oraz według poszczególnych atrybutów. Np. wartość sprzedaży opryskiwaczy, wartość sprzedaży w kwietniu, wartość sprzedaży w 2010 roku. No i wartość sprzedaży dla kodu 00, czyli śródmieścia Warszawy.
Dysponujemy wiedzą o sprzedaży zarówno w czasie, w zakresie asortymentu, jak i w zakresie miejsca zamieszkania naszych klientów.

Możemy planować zaopatrzenie w towary dla różnych okresów - sezonowo – (dla poszczególnych odcinków roku lub miesiąca), jak też profilować nasze akcje promocyjne, kierując je do rejonów, gdzie mamy najwięcej, lub najlepszych klientów.

Pytanie 2: Czy takie ułożenie faktów jest wygodne?

Najpierw, żeby być ścisłym, opiszmy w punktach dobrą formę ułożenia danych.

1. Pierwszy wiersz jest nagłówkiem tabeli.
2. Każda kolumna jest opisana odpowiednim napisem w nagłówku, który określa, jakie dane znajdują się w kolumnie. To nazwa pola lub kolumny.
3. W kolumnie (polu) znajdują się zawsze dane tego samego rodzaju. W naszym wypadku mamy dziewięć kolumn. Siedem atrybutów, dwie miary.
4. W każdym wierszu (rekordzie) znajduje się ten sam zestaw danych. W tej samej kolejności.
5. Wiersze odróżniają się pewnym polem o unikalnej wartości, którego tu, dla jasności obrazu nie umieściliśmy: identyfikatorem wiersza. Na razie pomińmy ten problem.
6. Opisaliśmy każdą tabelkę, która spełnia postulat wygody. Ta konkretna tabelka, ze względu na jej zawartość, treść, jest tabelą faktów.
Bo zawiera zapis zdarzeń biznesowych, zachodzących w czasie, względnie często.
I dlatego interesujących nas, jako analityków biznesowych.
Faktów podlegających analizie.

To nie jedyny rodzaj tabel, jakie występują w analizie biznesowej.
Innego rodzaju tabelki, które są interesujące i ważne, omówimy później.

Porządek. Podstawa profesjonalnej analizy. Odwrotność entropii, czyli chaosu. Ale o tym będzie później.

Czy to wygodne? Tak! To najlepsza forma. Zamiast dowodu, przykład najprostszy.

Jak najszybciej ustalić sprzedaż dla Bielan w roku 2010 ?

Wystarczy skorzystać z filtru Excela: Zakładka Dane i ikonka lejka.
Następnie trzeba odchylić myszką strzałeczkę w prawym dolnym rogu nagłówka kolumny C (Rok) i wybrać rok 2010. Potem to samo zrobić z nagłówkiem kolumny E (pierwsze dwie cyfry kodu pocztowego). Następnie ustawić się w komórce znajdującą się pod ostatnim wierszem w kolumnie I (miara Wartość sprzedaży netto).
Teraz do wyboru: albo skrót klawiszowy {Alt + =} albo kliknięcie na ikonkę z wielką literą sigma – autosumowanie. W komórce I73 pojawi się formuła wyliczająca wartość sprzedaży netto dla żądanych kryteriów:

=SUMY.CZĘŚCIOWE(9;I2:I72)

Analiza faktów dla Bielan i roku 2010




To nie jest dowód, że taka forma jest najlepsza. Ale to jest mocne uzasadnienie. I to na razie musi nam wystarczyć.

Komentarze

Popularne posty z tego bloga

Referencje dla architektury i podejścia SOA

Od 2012 roku prowadziłem na swoim blogu akcję promowania architektury i podejścia SOA, której koncepcję opublikowaliśmy we trzech , współtwórcą tej architektury, Wojciechem Gardzińskim oraz Jakubem Rumińskim(zbieżność nazwisk nie całkiem przypadkowa, ale chyba nie przynosząca mi wstydu), analitykiem i konsultantem międzynarodowych korporacji, który ją weryfikował i uwiarygadniał z punktu widzenia realiów światowego biznesu.

Teraz czas na innego rodzaju uwiarygodnienie.

Architektura i podejście SOA nie jest tylko nową, oryginalną koncepcją.
Jest produktem komercyjnym, posiadającym pierwsze, ale poważne i sprawdzone na przestrzeni co najmniej dwóch lat, referencje biznesowe w dużej instytucji publicznej.
Podaję jednak referencje z trzech kolejnych lat.
Wyłania się z nich w sposób dla nieco zaskakujący, konsekwentna linia rozwojowa podejścia SOA.
To właściwie logiczne: Wzięła się nie z "nagłego olśnienia".
Wyłoniła się, jako logiczny (i nieubłagany) skutek naszych doświadczeń, …

Codd'a 12 zasad zarządzania bazą danych dla OLAPu

(Codd's paper)
Jako glossa do nieudanej ale burzliwej "dyskusji" o tym, czym jest OLAP i czy tabela przestawna i OLAP to inne bajki, zamieszczam podstawowy tekst tego Ojca Założyciela dzisiejszej technologii bazodanowej Edgara Franka "Teda" Codd'a.
W tekście wytłuszczam te fragmenty, które bezpośrednio odnoszą się do przedmiotu sporu. W komentarzach (kursywą) wyjaśniam, jakie wypowiedzi mojego adwersarza i moje mają tu zastosowanie. Dyskusja ta ma charakter nieco abstrakcyjny, ale dla genezy dzisiejszych "problemów z analizą biznesową", ma fundamentalne znaczenie. Moim skromnym zdaniem. Tłumaczenie zasad z angielskiego tekstu - własne.
Zaczynam: W 1985 Edgar F. Codd napisał artykuł, określający zasady dla Systemów Zarządzania Relacyjnymi Bazami Danych (RDBMS systemów zarządzania), które zrewolucjonizowały branżę IT.
Pamiętam, jak czytałem jeszcze wcześniejsze teksty Codda, wówczas pracownika IBM, w materiałach szkoleniowych tej firmy, jeszcze nie z…

Technologia OLAP dla analityków (4)

Architektura analizy z Excelem w roli głównej Praktyka Dzisiaj Jaka jest teraz, dzisiaj rola Excela w analizie - to wie dobrze każdy analityk, mający szczęście współpracować z jakimś systemem bi – aj. Opisałem to tutaj.  A także jeszcze gdzieś, w formie rozwiniętej, pasjonującej historyjki. Prosto z życia. Tam.
Najpierw musi coś zrobić w swoim bi-aju. A potem? 1)Potem – dostęp tylko w interface’ie (kontrolce) tabeli przestawnej bi – aja. Własnej kontrolce bi - aja. (…). 2)Jak analityk koniecznie chce, to może zawsze użyć innej kontrolki - „Excel”. (czyli „Export do Excela” przyp KR, żeby pewien czytelnik zrozumiał, że Excel nie jest wprawdzie kontrolką, ale istnieją kontrolki „Excel” :) ) (…). Wówczas analityk otrzyma w Excelu piękną tabelkę prostokątną, z nagłówkami, której postać wynika z tego, jak obsłużył „kontrolkę” TP w (…) bi-aju. 3)Jak wejdziemy w szczegóły, to się okaże, że musi jeszcze wykonać mnóstwo czynności, które równają się ciągnięciu wózka inwalidzkiego po błocie. Ale …