CRISP-DM oznacza międzybranżowy standardowy proces eksploracji danych. Metodologia CRISP-DM zapewnia ustrukturyzowane podejście do planowania projektu eksploracji danych. Jest to solidna i sprawdzona metodologia. Nie rościmy sobie do niego żadnych praw własności. Nie my to wymyśliliśmy. Jesteśmy konwerterem jego potężnej praktyczności, elastyczności i użyteczności przy wykorzystaniu analityki do rozwiązywania problemów biznesowych. To złota nić, która przewija się przez niemal każde spotkanie z klientem.
Model ten jest wyidealizowaną sekwencją zdarzeń. W praktyce wiele zadań można wykonać w innej kolejności i często konieczne będzie cofnięcie się do poprzednich zadań i powtórzenie pewnych czynności. Model nie próbuje uchwycić wszystkich możliwych ścieżek procesu eksploracji danych.
Jak CRISP pomaga?
CRISP DM zapewnia plan działania, najlepsze praktyki oraz zapewnia struktury umożliwiające lepsze i szybsze wyniki wykorzystania eksploracji danych, dzięki czemu pomaga firmie podążać podczas planowania i realizacji projektu eksploracji danych.
Fazy CRISP-DM
CRISP-DM zapewnia przegląd cyklu życia eksploracji danych jako model procesu. Model cyklu życia składa się z sześciu faz, przy czym strzałki wskazują najważniejsze i najczęściej występujące zależności pomiędzy fazami. Kolejność faz nie jest ścisła. Większość projektów przechodzi między fazami, jeśli to konieczne. Model CRISP-DM jest elastyczny i można go łatwo dostosować.
Na przykład, jeśli celem Twojej organizacji jest wykrywanie prania pieniędzy, prawdopodobnie będziesz przeglądać duże ilości danych bez określonego celu modelowania. Zamiast modelować, Twoja praca skupi się na eksploracji i wizualizacji danych w celu wykrycia podejrzanych wzorców w danych finansowych. CRISP-DM pozwala stworzyć model eksploracji danych odpowiadający Twoim potrzebom.
Zawiera opisy typowych faz projektu, zadań związanych z każdą fazą oraz wyjaśnienie powiązań pomiędzy tymi zadaniami.
Faza 1: Zrozumienie biznesu
Pierwszym etapem procesu CRISP-DM jest zrozumienie, co chcesz osiągnąć z biznesowego punktu widzenia. Twoja organizacja może mieć konkurencyjne cele i ograniczenia, które muszą być odpowiednio zrównoważone. Ten etap procesu ma na celu odkrycie ważnych czynników wpływających na wynik projektu. Zaniedbanie tego kroku może oznaczać włożenie dużego wysiłku w udzielenie właściwych odpowiedzi na błędne pytania.
Jakie są pożądane rezultaty projektu?
Oceń obecną sytuację
ridhima tiwari
Wiąże się to z bardziej szczegółowym ustaleniem faktów na temat zasobów, ograniczeń, założeń i innych czynników, które należy wziąć pod uwagę przy ustalaniu celu analizy danych i planu projektu.
- Personel (eksperci biznesowi, eksperci danych, wsparcie techniczne, eksperci data mining)
- Dane (stałe wyciągi, dostęp do danych bieżących, magazynowanych lub operacyjnych)
- Zasoby obliczeniowe (platformy sprzętowe)
- Oprogramowanie (narzędzia do eksploracji danych, inne odpowiednie oprogramowanie)
- Glosariusz odpowiedniej terminologii biznesowej stanowi część zrozumienia biznesowego dostępnego w ramach projektu. Stworzenie tego glosariusza jest użytecznym narzędziem „pozyskiwania wiedzy” i ćwiczeniem edukacyjnym.
- Glosariusz terminologii eksploracji danych ilustrowany jest przykładami istotnymi dla problemu biznesowego.
Określ cele eksploracji danych
Cel biznesowy określa cele w terminologii biznesowej. Cel eksploracji danych określa cele projektu w kategoriach technicznych. Na przykład celem biznesowym może być Zwiększenie sprzedaży katalogowej obecnym klientom. Celem eksploracji danych może być przewidzenie, ile widżetów kupi klient, biorąc pod uwagę jego zakupy w ciągu ostatnich trzech lat, informacje demograficzne (wiek, wynagrodzenie, miasto itp.) i cenę produktu.
Przygotuj plan projektu
Opisz zamierzony plan osiągnięcia celów eksploracji danych i celów biznesowych. Twój plan powinien określać kroki, które należy wykonać w pozostałej części projektu, w tym wstępny wybór narzędzi i technik.
obiekt w programowaniu w Javie
1. Plan projektu: Wymień etapy, które mają zostać zrealizowane w projekcie, wraz z ich czasem trwania, wymaganymi zasobami, nakładami, wynikami i zależnościami. Tam, gdzie to możliwe, spróbuj wyraźnie wskazać iteracje na dużą skalę w procesie eksploracji danych, na przykład powtórzenia faz modelowania i oceny.
W ramach planu projektu ważna jest analiza zależności pomiędzy harmonogramami a ryzykami. Oznacz wyniki tych analiz wyraźnie w planie projektu, najlepiej wraz z działaniami i zaleceniami, jeśli ryzyko się ujawni. Zdecyduj, która strategia ewaluacji zostanie zastosowana w fazie ewaluacji.
Twój plan projektu będzie dokumentem dynamicznym. Na koniec każdej fazy dokonasz przeglądu postępów i osiągnięć i odpowiednio zaktualizujesz plan projektu. Konkretne punkty przeglądu tych aktualizacji powinny być częścią planu projektu.
2. Wstępna ocena narzędzi i technik: Na koniec pierwszej fazy powinieneś przeprowadzić wstępną ocenę narzędzi i technik. Na przykład wybierasz narzędzie do eksploracji danych, które obsługuje różne metody na różnych etapach procesu. Ważne jest, aby ocenić narzędzia i techniki na wczesnym etapie procesu, ponieważ wybór narzędzi i technik może mieć wpływ na cały projekt.
Faza 2: Zrozumienie danych
Druga faza procesu CRISP-DM wymaga pozyskania danych wymienionych w zasobach projektu. To początkowe gromadzenie obejmuje ładowanie danych, jeśli jest to konieczne do zrozumienia danych. Na przykład, jeśli używasz określonego narzędzia do zrozumienia danych, dobrym pomysłem jest załadowanie danych do tego narzędzia. Jeśli pozyskujesz wiele źródeł danych, musisz rozważyć, jak i kiedy je zintegrujesz.
Opisz dane
Zbadaj właściwości „brutto” lub „powierzchnię” uzyskanych danych i sporządź raport na temat wyników.
Przeglądaj dane
Na tym etapie będziesz odpowiadać na pytania dotyczące eksploracji danych, korzystając z technik zapytań, wizualizacji danych i raportowania. Mogą one obejmować:
- Rozkład kluczowych atrybutów
- Relacje między parami lub małą liczbą atrybutów
- Wyniki prostych agregacji
- Właściwości znaczących subpopulacji
- Proste analizy statystyczne
Analizy te mogą bezpośrednio odnosić się do celów eksploracji danych. Mogą wnosić wkład w opis danych i raporty dotyczące jakości lub je udoskonalać, a także brać udział w transformacji i innych etapach przygotowania danych potrzebnych do dalszej analizy.
Sprawdź jakość danych
Zbadaj jakość danych, odpowiadając na pytania takie jak:
- Czy dane są kompletne, czy obejmują wszystkie wymagane przypadki?
- Czy jest poprawny, czy zawiera błędy, a jeśli występują, to jak często występują?
- Czy w danych brakuje wartości? Jeśli tak, jak są reprezentowane, gdzie występują i jak powszechne są?
Raport dotyczący jakości danych
Wymień wyniki weryfikacji jakości danych. Jeśli występują problemy z jakością, zasugeruj możliwe rozwiązania. Rozwiązania problemów z jakością danych zazwyczaj w dużym stopniu zależą od danych i wiedzy biznesowej.
Faza 3: Przygotowanie danych
Na tym etapie projektu decydujesz, jakie dane wykorzystasz do analizy. Kryteria, które możesz zastosować przy podejmowaniu tej decyzji, obejmują przydatność danych dla celów eksploracji danych, jakość danych i ograniczenia techniczne, takie jak limity ilości danych lub typów danych.
Wyczyść swoje dane
Zadanie to polega na podniesieniu jakości danych do poziomu wymaganego przez wybrane przez Ciebie techniki analizy. Może to obejmować wybór czystych podzbiorów danych, wstawienie odpowiednich wartości domyślnych lub bardziej ambitne techniki, takie jak szacowanie brakujących danych poprzez modelowanie.
Skonstruuj wymagane dane
otwarty plik Java
To zadanie obejmuje konstruktywne operacje przygotowania danych, takie jak tworzenie wyprowadzonych atrybutów, całych nowych rekordów lub przekształconych wartości istniejących atrybutów.
Integruj dane
Metody te łączą informacje z wielu baz danych, tabel lub rekordów w celu utworzenia nowych rekordów lub wartości.
czcionka gimp
Faza 4: Modelowanie
Wybierz technikę modelowania: W pierwszym kroku wybierzesz podstawową technikę modelowania, której będziesz używać. Chociaż być może wybrałeś już narzędzie na etapie zrozumienia biznesu, na tym etapie wybierzesz konkretną technikę modelowania, np. budowanie drzewa decyzyjnego za pomocą C5.0 lub generowanie sieci neuronowej z propagacją wsteczną. Jeśli stosuje się wiele technik, wykonaj to zadanie oddzielnie dla każdej techniki.
Wygeneruj projekt testu
Zanim zbudujesz model, musisz wygenerować procedurę lub mechanizm testujący jakość i ważność modelu. Na przykład w nadzorowanych zadaniach eksploracji danych, takich jak klasyfikacja, często stosuje się współczynniki błędów jako miary jakości modeli eksploracji danych. Dlatego zazwyczaj dzieli się zbiór danych na zbiór pociągowy i testowy, buduje model na zbiorze pociągowym i ocenia jego jakość na oddzielnym zbiorze testowym.
Zbuduj model
Uruchom narzędzie do modelowania na przygotowanym zestawie danych, aby utworzyć jeden lub więcej modeli.
Oceń model
Interpretuj modele zgodnie ze swoją wiedzą dziedzinową, kryteriami sukcesu eksploracji danych i pożądanym projektem testu. Oceń skuteczność zastosowania technik modelowania i odkrywania, a następnie skontaktuj się później z analitykami biznesowymi i ekspertami dziedzinowymi, aby omówić wyniki eksploracji danych w kontekście biznesowym. W tym zadaniu uwzględniane są jedynie modele, natomiast w fazie ewaluacji uwzględniane są także wszystkie inne wyniki uzyskane w trakcie projektu.
Na tym etapie należy dokonać rankingu modeli i ocenić je według kryteriów oceny. W miarę możliwości powinieneś wziąć pod uwagę cele biznesowe i kryteria sukcesu. W większości projektów eksploracji danych pojedyncza technika jest stosowana więcej niż raz, a wyniki eksploracji danych są generowane przy użyciu kilku różnych technik.
Faza 5: Ocena
Oceń swoje wyniki: Poprzednie etapy oceny dotyczyły takich czynników, jak dokładność i ogólność modelu. Na tym etapie ocenisz stopień, w jakim model spełnia Twoje cele biznesowe i spróbujesz ustalić, czy istnieje jakiś biznesowy powód, dla którego model ten jest wadliwy. Inną opcją jest przetestowanie modelu na aplikacjach testowych w rzeczywistej aplikacji, jeśli pozwalają na to ograniczenia czasowe i budżetowe. Faza oceny obejmuje również ocenę wszelkich innych wygenerowanych wyników eksploracji danych. Wyniki eksploracji danych obejmują modele, które koniecznie są powiązane z pierwotnymi celami biznesowymi, oraz wszystkie inne ustalenia, które niekoniecznie są związane z pierwotnymi celami biznesowymi, ale mogą również ujawnić dodatkowe wyzwania, informacje lub wskazówki dotyczące przyszłych kierunków.
Proces przeglądu
Uzyskane modele wydają się na tym etapie zadowalające i odpowiadają potrzebom biznesowym. Właściwe jest teraz dokonanie dokładniejszego przeglądu zaangażowania w eksplorację danych, aby ustalić, czy istnieje ważny czynnik lub zadanie, które w jakiś sposób zostało przeoczone. Przegląd ten obejmuje również kwestie zapewnienia jakości. Na przykład: czy poprawnie zbudowaliśmy model? Czy wykorzystaliśmy tylko te atrybuty, z których możemy korzystać i które są dostępne do przyszłych analiz?
Określ kolejne kroki
Teraz Ty decydujesz, jak postępować w zależności od wyników oceny i przeglądu procesu. Czy kończysz ten projekt i przechodzisz do wdrożenia, inicjujesz dalsze iteracje lub konfigurujesz nowe projekty eksploracji danych? Powinieneś także podsumować pozostałe zasoby i budżet, co może mieć wpływ na Twoje decyzje.
Faza 6: Wdrożenie
Zaplanuj wdrożenie: na etapie wdrożenia przeanalizujesz wyniki oceny i określisz strategię ich wdrożenia. Jeśli została zidentyfikowana ogólna procedura tworzenia odpowiedniego modelu(ów), procedura ta jest tutaj udokumentowana do późniejszego wdrożenia. Rozważenie sposobów i środków wdrożenia ma sens na etapie zrozumienia biznesu, ponieważ wdrożenie ma kluczowe znaczenie dla powodzenia projektu. W tym miejscu analityka predykcyjna pomaga ulepszyć operacyjną stronę Twojej firmy.
Planuj monitorowanie i konserwację
Monitorowanie i konserwacja są ważnymi kwestiami, jeśli wyniki eksploracji danych stają się częścią codziennej działalności biznesowej i jej otoczenia. Staranne przygotowanie strategii konserwacji pozwala uniknąć niepotrzebnie długich okresów nieprawidłowego wykorzystania wyników eksploracji danych. Projekt wymaga szczegółowego planu procesu monitorowania w celu monitorowania wdrażania wyników eksploracji danych. Plan ten uwzględnia konkretny rodzaj wdrożenia.
Przygotuj raport końcowy
Na zakończenie projektu napiszesz raport końcowy. W zależności od planu wdrożenia raport ten może stanowić jedynie podsumowanie projektu i jego doświadczeń (o ile nie zostały one już udokumentowane jako działanie trwające) lub może stanowić ostateczną i kompleksową prezentację wyniku eksploracji danych.
Przejrzyj projekt
odinstaluj angular cli
Oceń, co poszło dobrze, a co źle, co zostało zrobione dobrze, a co wymaga poprawy.