logo

Czym jest CRISP w eksploracji danych?

CRISP-DM oznacza międzybranżowy standardowy proces eksploracji danych. Metodologia CRISP-DM zapewnia ustrukturyzowane podejście do planowania projektu eksploracji danych. Jest to solidna i sprawdzona metodologia. Nie rościmy sobie do niego żadnych praw własności. Nie my to wymyśliliśmy. Jesteśmy konwerterem jego potężnej praktyczności, elastyczności i użyteczności przy wykorzystaniu analityki do rozwiązywania problemów biznesowych. To złota nić, która przewija się przez niemal każde spotkanie z klientem.

Model ten jest wyidealizowaną sekwencją zdarzeń. W praktyce wiele zadań można wykonać w innej kolejności i często konieczne będzie cofnięcie się do poprzednich zadań i powtórzenie pewnych czynności. Model nie próbuje uchwycić wszystkich możliwych ścieżek procesu eksploracji danych.

Jak CRISP pomaga?

CRISP DM zapewnia plan działania, najlepsze praktyki oraz zapewnia struktury umożliwiające lepsze i szybsze wyniki wykorzystania eksploracji danych, dzięki czemu pomaga firmie podążać podczas planowania i realizacji projektu eksploracji danych.

Fazy ​​​​CRISP-DM

CRISP-DM zapewnia przegląd cyklu życia eksploracji danych jako model procesu. Model cyklu życia składa się z sześciu faz, przy czym strzałki wskazują najważniejsze i najczęściej występujące zależności pomiędzy fazami. Kolejność faz nie jest ścisła. Większość projektów przechodzi między fazami, jeśli to konieczne. Model CRISP-DM jest elastyczny i można go łatwo dostosować.

Na przykład, jeśli celem Twojej organizacji jest wykrywanie prania pieniędzy, prawdopodobnie będziesz przeglądać duże ilości danych bez określonego celu modelowania. Zamiast modelować, Twoja praca skupi się na eksploracji i wizualizacji danych w celu wykrycia podejrzanych wzorców w danych finansowych. CRISP-DM pozwala stworzyć model eksploracji danych odpowiadający Twoim potrzebom.

Zawiera opisy typowych faz projektu, zadań związanych z każdą fazą oraz wyjaśnienie powiązań pomiędzy tymi zadaniami.

Czym jest CRISP w eksploracji danych

Faza 1: Zrozumienie biznesu

Pierwszym etapem procesu CRISP-DM jest zrozumienie, co chcesz osiągnąć z biznesowego punktu widzenia. Twoja organizacja może mieć konkurencyjne cele i ograniczenia, które muszą być odpowiednio zrównoważone. Ten etap procesu ma na celu odkrycie ważnych czynników wpływających na wynik projektu. Zaniedbanie tego kroku może oznaczać włożenie dużego wysiłku w udzielenie właściwych odpowiedzi na błędne pytania.

Jakie są pożądane rezultaty projektu?

    Wyznacz cele:Opisz swój główny cel z perspektywy biznesowej. Mogą być również inne powiązane pytania, o których chciałbyś wspomnieć. Na przykład Twoim głównym celem może być utrzymanie obecnych klientów poprzez przewidywanie, kiedy będą oni skłonni przejść do konkurencji.Przygotuj plan projektu:Opisz plan osiągnięcia celów eksploracji danych i celów biznesowych. Plan powinien określać kroki, jakie należy wykonać w pozostałej części projektu, łącznie ze wstępnym wyborem narzędzi i technik.Kryteria sukcesu biznesowego:W tym miejscu przedstawisz kryteria, które wykorzystasz do ustalenia, czy projekt odniósł sukces z biznesowego punktu widzenia. W idealnym przypadku powinny one być konkretne i mierzalne, na przykład ograniczać bodźce klientów do pewnego poziomu. Czasami jednak może być konieczne zastosowanie bardziej subiektywnych kryteriów, takich jak zapewnienie przydatnego wglądu w relacje.

Oceń obecną sytuację

ridhima tiwari

Wiąże się to z bardziej szczegółowym ustaleniem faktów na temat zasobów, ograniczeń, założeń i innych czynników, które należy wziąć pod uwagę przy ustalaniu celu analizy danych i planu projektu.

    Inwentaryzacja zasobów:Wymień zasoby dostępne dla projektu, w tym:
    • Personel (eksperci biznesowi, eksperci danych, wsparcie techniczne, eksperci data mining)
    • Dane (stałe wyciągi, dostęp do danych bieżących, magazynowanych lub operacyjnych)
    • Zasoby obliczeniowe (platformy sprzętowe)
    • Oprogramowanie (narzędzia do eksploracji danych, inne odpowiednie oprogramowanie)
    Wymagania, założenia i ograniczenia:Wymień wszystkie wymagania projektu, w tym harmonogram realizacji, wymaganą zrozumiałość i jakość wyników, a także wszelkie obawy dotyczące bezpieczeństwa danych i kwestie prawne. Upewnij się, że masz pozwolenie na wykorzystanie danych. Wymień założenia przyjęte w projekcie. Mogą to być założenia dotyczące danych, które można zweryfikować podczas eksploracji danych, ale mogą również obejmować nieweryfikowalne założenia dotyczące działalności biznesowej związanej z projektem. Ważne jest, aby wymienić te ostatnie, jeśli mają one wpływ na ważność wyników. Wymień ograniczenia projektu. Mogą to być ograniczenia dotyczące dostępności zasobów, ale mogą również obejmować ograniczenia technologiczne, takie jak rozmiar zbioru danych, który można praktycznie wykorzystać do modelowania.Ryzyka i nieprzewidziane zdarzenia:Wymień ryzyka lub zdarzenia, które mogą opóźnić projekt lub spowodować jego niepowodzenie. Wypisz odpowiednie plany awaryjne, np. jakie działania podejmiesz, jeśli wystąpią te ryzyka lub zdarzenia?Terminologia:Sporządź słownik terminologii istotnej dla projektu. Będzie to zazwyczaj składać się z dwóch elementów:
    • Glosariusz odpowiedniej terminologii biznesowej stanowi część zrozumienia biznesowego dostępnego w ramach projektu. Stworzenie tego glosariusza jest użytecznym narzędziem „pozyskiwania wiedzy” i ćwiczeniem edukacyjnym.
    • Glosariusz terminologii eksploracji danych ilustrowany jest przykładami istotnymi dla problemu biznesowego.
    Koszty i korzyści:Sporządź analizę kosztów i korzyści projektu, która porównuje koszty projektu z potencjalnymi korzyściami dla firmy, jeśli zakończy się on sukcesem. Porównanie to powinno być jak najbardziej szczegółowe. Na przykład powinieneś zastosować środki finansowe w sytuacji komercyjnej.

Określ cele eksploracji danych

Cel biznesowy określa cele w terminologii biznesowej. Cel eksploracji danych określa cele projektu w kategoriach technicznych. Na przykład celem biznesowym może być Zwiększenie sprzedaży katalogowej obecnym klientom. Celem eksploracji danych może być przewidzenie, ile widżetów kupi klient, biorąc pod uwagę jego zakupy w ciągu ostatnich trzech lat, informacje demograficzne (wiek, wynagrodzenie, miasto itp.) i cenę produktu.

    Kryteria sukcesu biznesowego:Opisuje zamierzone produkty projektu, które umożliwią osiągnięcie celów biznesowych.Kryteria sukcesu eksploracji danych:Definiuje kryteria pomyślnego wyniku projektu. Na przykład pewien poziom dokładności przewidywania lub profil skłonności do zakupów przy danym stopniu „wzrostu”. Podobnie jak w przypadku kryteriów sukcesu biznesowego, może być konieczne opisanie ich w kategoriach subiektywnych, w takim przypadku należy zidentyfikować osobę lub osoby dokonujące subiektywnej oceny.

Przygotuj plan projektu

Opisz zamierzony plan osiągnięcia celów eksploracji danych i celów biznesowych. Twój plan powinien określać kroki, które należy wykonać w pozostałej części projektu, w tym wstępny wybór narzędzi i technik.

obiekt w programowaniu w Javie

1. Plan projektu: Wymień etapy, które mają zostać zrealizowane w projekcie, wraz z ich czasem trwania, wymaganymi zasobami, nakładami, wynikami i zależnościami. Tam, gdzie to możliwe, spróbuj wyraźnie wskazać iteracje na dużą skalę w procesie eksploracji danych, na przykład powtórzenia faz modelowania i oceny.

W ramach planu projektu ważna jest analiza zależności pomiędzy harmonogramami a ryzykami. Oznacz wyniki tych analiz wyraźnie w planie projektu, najlepiej wraz z działaniami i zaleceniami, jeśli ryzyko się ujawni. Zdecyduj, która strategia ewaluacji zostanie zastosowana w fazie ewaluacji.

Twój plan projektu będzie dokumentem dynamicznym. Na koniec każdej fazy dokonasz przeglądu postępów i osiągnięć i odpowiednio zaktualizujesz plan projektu. Konkretne punkty przeglądu tych aktualizacji powinny być częścią planu projektu.

2. Wstępna ocena narzędzi i technik: Na koniec pierwszej fazy powinieneś przeprowadzić wstępną ocenę narzędzi i technik. Na przykład wybierasz narzędzie do eksploracji danych, które obsługuje różne metody na różnych etapach procesu. Ważne jest, aby ocenić narzędzia i techniki na wczesnym etapie procesu, ponieważ wybór narzędzi i technik może mieć wpływ na cały projekt.

Faza 2: Zrozumienie danych

Druga faza procesu CRISP-DM wymaga pozyskania danych wymienionych w zasobach projektu. To początkowe gromadzenie obejmuje ładowanie danych, jeśli jest to konieczne do zrozumienia danych. Na przykład, jeśli używasz określonego narzędzia do zrozumienia danych, dobrym pomysłem jest załadowanie danych do tego narzędzia. Jeśli pozyskujesz wiele źródeł danych, musisz rozważyć, jak i kiedy je zintegrujesz.

    Wstępny raport ze zbierania danych:Wymień pozyskane źródła danych, ich lokalizacje, metody użyte do ich uzyskania i wszelkie napotkane problemy. Zapisz napotkane problemy i wszelkie osiągnięte rozwiązania. Pomoże to w przyszłej replikacji tego projektu i realizacji podobnych przyszłych projektów.

Opisz dane

Zbadaj właściwości „brutto” lub „powierzchnię” uzyskanych danych i sporządź raport na temat wyników.

    Raport opisu danych:Opisać zebrane dane, w tym ich format, ilość, tożsamość pól i wszelkie inne odkryte cechy powierzchni. Oceń, czy pozyskane dane spełniają Twoje wymagania.

Przeglądaj dane

Na tym etapie będziesz odpowiadać na pytania dotyczące eksploracji danych, korzystając z technik zapytań, wizualizacji danych i raportowania. Mogą one obejmować:

  • Rozkład kluczowych atrybutów
  • Relacje między parami lub małą liczbą atrybutów
  • Wyniki prostych agregacji
  • Właściwości znaczących subpopulacji
  • Proste analizy statystyczne

Analizy te mogą bezpośrednio odnosić się do celów eksploracji danych. Mogą wnosić wkład w opis danych i raporty dotyczące jakości lub je udoskonalać, a także brać udział w transformacji i innych etapach przygotowania danych potrzebnych do dalszej analizy.

    Raport eksploracji danych:Opisz wyniki eksploracji danych, w tym pierwsze ustalenia lub wstępną hipotezę i ich wpływ na pozostałą część projektu. Jeśli to konieczne, można załączyć tutaj wykresy i wykresy, aby wskazać cechy danych, które sugerują dalsze badanie interesujących podzbiorów danych.

Sprawdź jakość danych

Zbadaj jakość danych, odpowiadając na pytania takie jak:

  • Czy dane są kompletne, czy obejmują wszystkie wymagane przypadki?
  • Czy jest poprawny, czy zawiera błędy, a jeśli występują, to jak często występują?
  • Czy w danych brakuje wartości? Jeśli tak, jak są reprezentowane, gdzie występują i jak powszechne są?

Raport dotyczący jakości danych

Wymień wyniki weryfikacji jakości danych. Jeśli występują problemy z jakością, zasugeruj możliwe rozwiązania. Rozwiązania problemów z jakością danych zazwyczaj w dużym stopniu zależą od danych i wiedzy biznesowej.

Faza 3: Przygotowanie danych

Na tym etapie projektu decydujesz, jakie dane wykorzystasz do analizy. Kryteria, które możesz zastosować przy podejmowaniu tej decyzji, obejmują przydatność danych dla celów eksploracji danych, jakość danych i ograniczenia techniczne, takie jak limity ilości danych lub typów danych.

    Uzasadnienie włączenia/wyłączenia:Wymień dane, które należy uwzględnić/wyłączyć, oraz powody takich decyzji.

Wyczyść swoje dane

Zadanie to polega na podniesieniu jakości danych do poziomu wymaganego przez wybrane przez Ciebie techniki analizy. Może to obejmować wybór czystych podzbiorów danych, wstawienie odpowiednich wartości domyślnych lub bardziej ambitne techniki, takie jak szacowanie brakujących danych poprzez modelowanie.

    Raport czyszczenia danych:Opisz, jakie decyzje i działania podjąłeś, aby rozwiązać problemy z jakością danych. Rozważ wszelkie przekształcenia danych dokonane na potrzeby czyszczenia i ich możliwy wpływ na wyniki analizy.

Skonstruuj wymagane dane

otwarty plik Java

To zadanie obejmuje konstruktywne operacje przygotowania danych, takie jak tworzenie wyprowadzonych atrybutów, całych nowych rekordów lub przekształconych wartości istniejących atrybutów.

    Pochodne atrybuty:Są to nowe atrybuty utworzone na podstawie jednego lub większej liczby istniejących atrybutów w tym samym rekordzie. Na przykład możesz użyć zmiennych długości i szerokości do obliczenia nowej zmiennej pola powierzchni.Wygenerowane rekordy:Tutaj opisujesz tworzenie jakichkolwiek zupełnie nowych rekordów. Na przykład może być konieczne utworzenie rekordów dla klientów, którzy nie dokonali zakupów w ciągu ostatniego roku. Nie było powodu umieszczać takich zapisów w surowych danych. Mimo to sensowne może być przedstawienie, że poszczególni klienci wyraźnie dokonali zerowych zakupów w celach modelowych.

Integruj dane

Metody te łączą informacje z wielu baz danych, tabel lub rekordów w celu utworzenia nowych rekordów lub wartości.

czcionka gimp
    Połączone dane:Łączenie tabel oznacza łączenie dwóch lub więcej tabel zawierających różne informacje o tych samych obiektach. Na przykład sieć detaliczna może mieć jedną tabelę z informacjami o ogólnej charakterystyce każdego sklepu (np. powierzchnia, rodzaj centrum handlowego), drugą tabelę ze zbiorczymi danymi dotyczącymi sprzedaży (np. zysk, procentową zmianę sprzedaży w porównaniu z poprzednim rokiem) oraz drugi z informacjami o demografii okolicy. Każda z tych tabel zawiera jeden rekord dla każdego sklepu. Tabele te można połączyć w nową tabelę z jednym rekordem dla każdego sklepu, łącząc pola z tabel źródłowych.Agregacje:Agregacje to operacje, podczas których obliczane są nowe wartości poprzez podsumowanie informacji z wielu rekordów lub tabel. Na przykład konwertowanie tabeli zakupów klientów, w której jeden rekord dla każdego zakupu, na nową tabelę i jeden rekord dla każdego klienta, z polami takimi jak liczba zakupów, średnia kwota zakupu, procent zamówień obciążanych kartą kredytową, procent pozycji w promocji itp.

Faza 4: Modelowanie

Wybierz technikę modelowania: W pierwszym kroku wybierzesz podstawową technikę modelowania, której będziesz używać. Chociaż być może wybrałeś już narzędzie na etapie zrozumienia biznesu, na tym etapie wybierzesz konkretną technikę modelowania, np. budowanie drzewa decyzyjnego za pomocą C5.0 lub generowanie sieci neuronowej z propagacją wsteczną. Jeśli stosuje się wiele technik, wykonaj to zadanie oddzielnie dla każdej techniki.

    Technika modelowania:Udokumentuj podstawową technikę modelowania, która ma zostać zastosowana.Założenia modelowania:Wiele technik modelowania przyjmuje określone założenia dotyczące danych, na przykład, że wszystkie atrybuty mają równomierny rozkład, nie są dozwolone żadne brakujące wartości, atrybut klasy musi być symboliczny itp. Zapisz wszelkie przyjęte założenia.

Wygeneruj projekt testu

Zanim zbudujesz model, musisz wygenerować procedurę lub mechanizm testujący jakość i ważność modelu. Na przykład w nadzorowanych zadaniach eksploracji danych, takich jak klasyfikacja, często stosuje się współczynniki błędów jako miary jakości modeli eksploracji danych. Dlatego zazwyczaj dzieli się zbiór danych na zbiór pociągowy i testowy, buduje model na zbiorze pociągowym i ocenia jego jakość na oddzielnym zbiorze testowym.

    Projekt testu:Opisz zamierzony plan uczenia, testowania i oceny modeli. Podstawowym elementem planu jest określenie sposobu podziału dostępnego zbioru danych na zbiory szkoleniowe, testowe i walidacyjne.

Zbuduj model

Uruchom narzędzie do modelowania na przygotowanym zestawie danych, aby utworzyć jeden lub więcej modeli.

    Ustawienia parametrów:W przypadku dowolnego narzędzia do modelowania często można dostosować dużą liczbę parametrów. Wymień parametry, ich wartości i uzasadnienie wyboru ustawień parametrów.Modele:Są to modele utworzone przez narzędzie do modelowania, a nie raport na temat modeli.Opisy modeli:Opisać powstałe modele, zgłosić interpretację modeli i udokumentować wszelkie trudności napotkane w związku z ich znaczeniem.

Oceń model

Interpretuj modele zgodnie ze swoją wiedzą dziedzinową, kryteriami sukcesu eksploracji danych i pożądanym projektem testu. Oceń skuteczność zastosowania technik modelowania i odkrywania, a następnie skontaktuj się później z analitykami biznesowymi i ekspertami dziedzinowymi, aby omówić wyniki eksploracji danych w kontekście biznesowym. W tym zadaniu uwzględniane są jedynie modele, natomiast w fazie ewaluacji uwzględniane są także wszystkie inne wyniki uzyskane w trakcie projektu.

Na tym etapie należy dokonać rankingu modeli i ocenić je według kryteriów oceny. W miarę możliwości powinieneś wziąć pod uwagę cele biznesowe i kryteria sukcesu. W większości projektów eksploracji danych pojedyncza technika jest stosowana więcej niż raz, a wyniki eksploracji danych są generowane przy użyciu kilku różnych technik.

    Ocena modelu:Podsumowuje wyniki tego zadania, wymienia cechy wygenerowanych modeli (np. pod względem dokładności) i porównuje ich jakość.Zmienione ustawienia parametrów:Zgodnie z oceną modelu należy je skorygować i dostroić do następnej serii modelowania. Powtarzaj budowanie i ocenę modelu, aż będziesz głęboko przekonany, że znalazłeś najlepszy(e) model(i). Dokumentuj wszystkie takie zmiany i oceny.

Faza 5: Ocena

Oceń swoje wyniki: Poprzednie etapy oceny dotyczyły takich czynników, jak dokładność i ogólność modelu. Na tym etapie ocenisz stopień, w jakim model spełnia Twoje cele biznesowe i spróbujesz ustalić, czy istnieje jakiś biznesowy powód, dla którego model ten jest wadliwy. Inną opcją jest przetestowanie modelu na aplikacjach testowych w rzeczywistej aplikacji, jeśli pozwalają na to ograniczenia czasowe i budżetowe. Faza oceny obejmuje również ocenę wszelkich innych wygenerowanych wyników eksploracji danych. Wyniki eksploracji danych obejmują modele, które koniecznie są powiązane z pierwotnymi celami biznesowymi, oraz wszystkie inne ustalenia, które niekoniecznie są związane z pierwotnymi celami biznesowymi, ale mogą również ujawnić dodatkowe wyzwania, informacje lub wskazówki dotyczące przyszłych kierunków.

    Ocena wyników eksploracji danych:Podsumuj wyniki oceny w kryteriach sukcesu biznesowego, włączając końcowe stwierdzenie, czy projekt spełnia już początkowe cele biznesowe.Zatwierdzone modele:Po ocenie modeli pod kątem kryteriów sukcesu biznesowego, wygenerowane modele spełniające wybrane kryteria stają się modelami zatwierdzonymi.

Proces przeglądu

Uzyskane modele wydają się na tym etapie zadowalające i odpowiadają potrzebom biznesowym. Właściwe jest teraz dokonanie dokładniejszego przeglądu zaangażowania w eksplorację danych, aby ustalić, czy istnieje ważny czynnik lub zadanie, które w jakiś sposób zostało przeoczone. Przegląd ten obejmuje również kwestie zapewnienia jakości. Na przykład: czy poprawnie zbudowaliśmy model? Czy wykorzystaliśmy tylko te atrybuty, z których możemy korzystać i które są dostępne do przyszłych analiz?

    Przegląd procesu:Podsumuj przegląd procesu i podkreśl działania, które zostały pominięte i te, które należy powtórzyć.

Określ kolejne kroki

Teraz Ty decydujesz, jak postępować w zależności od wyników oceny i przeglądu procesu. Czy kończysz ten projekt i przechodzisz do wdrożenia, inicjujesz dalsze iteracje lub konfigurujesz nowe projekty eksploracji danych? Powinieneś także podsumować pozostałe zasoby i budżet, co może mieć wpływ na Twoje decyzje.

    Lista możliwych działań:Wypisz potencjalne dalsze działania oraz powody za i przeciw każdej opcji.Decyzja:Opisz decyzję dotyczącą dalszego postępowania wraz z uzasadnieniem.

Faza 6: Wdrożenie

Zaplanuj wdrożenie: na etapie wdrożenia przeanalizujesz wyniki oceny i określisz strategię ich wdrożenia. Jeśli została zidentyfikowana ogólna procedura tworzenia odpowiedniego modelu(ów), procedura ta jest tutaj udokumentowana do późniejszego wdrożenia. Rozważenie sposobów i środków wdrożenia ma sens na etapie zrozumienia biznesu, ponieważ wdrożenie ma kluczowe znaczenie dla powodzenia projektu. W tym miejscu analityka predykcyjna pomaga ulepszyć operacyjną stronę Twojej firmy.

    Plan wdrożenia:Podsumuj strategię wdrożenia, łącznie z niezbędnymi krokami i sposobem ich wykonania.

Planuj monitorowanie i konserwację

Monitorowanie i konserwacja są ważnymi kwestiami, jeśli wyniki eksploracji danych stają się częścią codziennej działalności biznesowej i jej otoczenia. Staranne przygotowanie strategii konserwacji pozwala uniknąć niepotrzebnie długich okresów nieprawidłowego wykorzystania wyników eksploracji danych. Projekt wymaga szczegółowego planu procesu monitorowania w celu monitorowania wdrażania wyników eksploracji danych. Plan ten uwzględnia konkretny rodzaj wdrożenia.

    Plan monitorowania i konserwacji:Podsumuj strategię monitorowania i konserwacji, w tym niezbędne kroki i sposób ich wykonania.

Przygotuj raport końcowy

Na zakończenie projektu napiszesz raport końcowy. W zależności od planu wdrożenia raport ten może stanowić jedynie podsumowanie projektu i jego doświadczeń (o ile nie zostały one już udokumentowane jako działanie trwające) lub może stanowić ostateczną i kompleksową prezentację wyniku eksploracji danych.

    Raport końcowy:To jest końcowy pisemny raport z eksploracji danych. Obejmuje wszystkie poprzednie rezultaty, podsumowując i porządkując wyniki.Finalna prezentacja:Często po zakończeniu projektu odbędzie się spotkanie, podczas którego prezentowane będą klientowi wyniki.

Przejrzyj projekt

odinstaluj angular cli

Oceń, co poszło dobrze, a co źle, co zostało zrobione dobrze, a co wymaga poprawy.

    Dokumentacja doświadczenia:Podsumuj ważne doświadczenia zdobyte podczas projektu. Dokumentacja ta może na przykład zawierać wszelkie napotkane pułapki, wprowadzające w błąd podejścia lub wskazówki dotyczące wyboru najlepiej odpowiednich technik eksploracji danych w podobnych sytuacjach. W idealnych projektach dokumentacja doświadczenia obejmuje również wszelkie raporty, które poszczególni członkowie projektu napisali podczas poprzednich faz projektu.