Advertisement
Guest User

crisp_pl

a guest
Jan 25th, 2020
160
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 19.76 KB | None | 0 0
  1. https://mineracaodedados.files.wordpress.com/2012/04/the-crisp-dm-model-the-new-blueprint-for-data-mining-shearer-colin.pdf
  2.  
  3. Faza pierwsza: zrozumienie biznesu
  4. Być może najważniejsza faza każdego projektu eksploracji danych, początkowa faza zrozumienia biznesu koncentruje się na zrozumieniu celów projektu z perspektywy biznesowej, przekształceniu tej wiedzy w definicję problemu eksploracji danych, a następnie opracowaniu wstępnego planu mającego na celu osiągnięcie tych celów. Aby zrozumieć, które dane należy później przeanalizować i jak ważne jest, aby osoby zajmujące się eksploracją danych w pełni rozumiały działalność, dla której znajdują rozwiązanie. Faza zrozumienia biznesu obejmuje kilka kluczowych kroków, w tym określenie celów biznesowych, ocenę sytuacji, określenie celów eksploracji danych i opracowanie planu projektu
  5. Określ cele biznesowe
  6. Zrozumienie prawdziwego celu klienta ma kluczowe znaczenie dla odkrycia ważnych czynników związanych z planowanym projektem - oraz dla zapewnienia, że ​​projekt nie spowoduje uzyskania prawidłowych odpowiedzi na niewłaściwe pytania. Aby to osiągnąć, analityk danych musi odkryć główny cel biznesowy, a także powiązane pytania, na które firma chciałaby odpowiedzieć.
  7. Na przykład głównym celem biznesowym może być utrzymanie obecnych klientów poprzez przewidywanie, kiedy mają oni skłonność do przejścia do konkurenta. Przykładami powiązanych pytań biznesowych mogą być: „W jaki sposób główny kanał (np. Bankomat, wizyta w oddziale, Internet) klienta banku wpływa na to, czy zostaje, czy jedzie?” Lub „Czy niższe opłaty bankomatowe znacznie zmniejszą liczbę klientów o wysokiej wartości, którzy odejść? ”Drugim problemem może być ustalenie, czy niższe opłaty dotyczą tylko jednego określonego segmentu klientów.
  8. Wreszcie dobry analityk danych zawsze określa miarę sukcesu. Sukces może być mierzony poprzez zmniejszenie liczby utraconych klientów o 10 procent lub po prostu poprzez lepsze zrozumienie bazy klientów. Analitycy danych powinni wystrzegać się wyznaczania nieosiągalnych celów i upewnić się, że każde kryterium sukcesu odnosi się do co najmniej jednego z określonych celów biznesowych.
  9. Oceń sytuację
  10. Na tym etapie analityk danych przedstawia zasoby, od personelu po oprogramowanie, które są dostępne do realizacji projektu eksploracji danych. Szczególnie ważne jest odkrycie, jakie dane są dostępne, aby zrealizować główny cel biznesowy. W tym momencie analityk danych powinien również wymienić założenia poczynione w projekcie - założenia takie jak: „Aby odpowiedzieć na pytanie biznesowe, konieczna jest minimalna liczba klientów w wieku powyżej 50 lat”. Analityk danych powinien również wymienić ryzyko projektu, wymień potencjalne rozwiązania tych zagrożeń, utwórz słownik terminów biznesowych i eksploracji danych oraz opracuj analizę kosztów i korzyści dla projektu.
  11. Określ cele eksploracji danych
  12. Cel eksploracji danych określa cele projektu w kategoriach biznesowych, takich jak: „Przewiduj, ile widżetów klient kupi, biorąc pod uwagę swoje zakupy w ciągu ostatnich trzech lat, informacje demograficzne (wiek, wynagrodzenie, miasto itp.) Oraz cena produktu”. Sukces należy również zdefiniować w tych terminach - na przykład sukces można zdefiniować jako osiągnięcie pewnego poziomu dokładności predykcyjnej. Jeśli celu biznesowego nie można skutecznie przełożyć na cel eksploracji danych, warto rozważyć ponowne zdefiniowanie problemu na tym etapie.
  13. Opracuj plan projektu
  14. Plan projektu opisuje planowany plan osiągnięcia celów eksploracji danych, w tym nakreślenie konkretnych kroków i proponowanego harmonogramu, ocenę potencjalnego ryzyka oraz wstępną ocenę narzędzi i technik potrzebnych do wsparcia projektu. Ogólnie przyjęte w branży standardy osi czasu to: od 50 do 70 procent czasu i wysiłku w projekcie eksploracji danych obejmuje fazę przygotowania danych; 20 do 30 procent dotyczy fazy zrozumienia danych; tylko 10 do 20 procent wydaje się na każdym etapie modelowania, oceny i zrozumienia biznesu; a 5 do 10 procent wydaje się w fazie planowania wdrożenia.
  15.  
  16. Faza druga: zrozumienie danych
  17. Faza rozumienia danych rozpoczyna się od początkowego gromadzenia danych. Następnie analityk zwiększa znajomość danych, identyfikuje problemy z jakością danych, odkrywa początkowy wgląd w dane lub wykrywa interesujące podzbiory, aby sformułować hipotezy na temat ukrytych informacji. Faza rozumienia danych obejmuje cztery etapy, w tym gromadzenie danych początkowych, opis danych, badanie danych i weryfikację jakości danych.
  18. Zbierz początkowe dane
  19. Tutaj analityk danych uzyskuje niezbędne dane, w tym w razie potrzeby ładuje i integruje te dane. Analityk powinien zgłosić napotkane problemy i swoje rozwiązania, aby pomóc w przyszłych replikacjach projektu. Na przykład dane mogą być gromadzone z kilku różnych źródeł, a niektóre z tych źródeł mogą mieć długi czas opóźnienia. Warto o tym wiedzieć z wyprzedzeniem, aby uniknąć potencjalnych opóźnień.
  20. Opisz dane
  21. Na tym etapie analityk danych bada właściwości „brutto” lub „powierzchni” pozyskanych danych i raportuje wyniki, badając takie kwestie, jak format danych, ilość danych, liczba rekordów i pól w każdej tabeli, tożsamości pól i wszelkie inne cechy powierzchni danych. Kluczowe pytanie, które należy zadać, to: Czy pozyskane dane spełniają odpowiednie wymagania? Na przykład, jeśli wiek jest ważnym polem, a dane nie odzwierciedlają całego przedziału wiekowego, rozsądne może być zebranie innego zestawu danych. Ten krok zapewnia także podstawowe zrozumienie danych, na których będą się opierać kolejne kroki
  22. Przeglądaj dane
  23. To zadanie rozwiązuje pytania dotyczące eksploracji danych, które można rozwiązać za pomocą zapytań, wizualizacji i raportowania. Na przykład analityk danych może zapytać o dane, aby dowiedzieć się, jakie rodzaje produktów kupują zwykle nabywcy w określonej grupie dochodowej. Lub analityk może przeprowadzić analizę wizualizacji, aby odkryć potencjalne wzorce oszustw. Analityk danych powinien następnie utworzyć raport z eksploracji danych, w którym nakreślone zostaną pierwsze ustalenia lub wstępna hipoteza oraz potencjalny wpływ na pozostałą część projektu.
  24. Sprawdź jakość danych
  25.  W tym momencie analityk bada jakość danych, odpowiadając na pytania takie jak: Czy dane są kompletne? Często występują brakujące wartości, szczególnie jeśli dane były gromadzone przez długi czas. Niektóre typowe elementy do sprawdzenia obejmują: brakujące atrybuty i puste pola; czy wszystkie możliwe wartości są reprezentowane; wiarygodność wartości; pisownia wartości; oraz czy atrybuty o różnych wartościach mają podobne znaczenie (np. niskotłuszczowy, dieta). Analityk danych powinien również przejrzeć wszelkie atrybuty, które mogą dawać odpowiedzi sprzeczne ze zdrowym rozsądkiem (np. Nastolatki o wysokich dochodach).
  26.  
  27. Faza trzecia: przygotowanie danych
  28. Faza przygotowania danych obejmuje wszystkie działania mające na celu zbudowanie ostatecznego zestawu danych lub danych, które zostaną wprowadzone do narzędzi modelowania na podstawie pierwotnych surowych danych. Zadania obejmują wybór tabeli, zapisu i atrybutów, a także transformację i czyszczenie danych dla narzędzi do modelowania. Pięć etapów przygotowania danych to wybór danych, czyszczenie danych, konstruowanie danych, integracja danych i formatowanie danych.
  29. Wybierz Dane
  30. Decyzja o danych, które zostaną wykorzystane do analizy, opiera się na kilku kryteriach, w tym na ich przydatności do celów eksploracji danych, a także na ograniczeniach jakościowych i technicznych, takich jak ograniczenia wielkości danych lub typów danych. Na przykład, podczas gdy adres osoby może być użyty do ustalenia, z którego regionu pochodzi ta osoba, rzeczywiste dane adresowe można prawdopodobnie wyeliminować, aby zmniejszyć ilość danych, które należy ocenić. Część procesu selekcji danych powinna obejmować wyjaśnienie, dlaczego niektóre dane zostały uwzględnione lub wykluczone. Warto również zdecydować, czy jeden lub więcej atrybutów jest ważniejszy niż inne.
  31. Wyczyść dane
  32. Bez czystych danych kwestionowane są wyniki analizy eksploracji danych. Dlatego na tym etapie analityk danych musi albo wybrać czyste podzbiory danych, albo zastosować bardziej ambitne techniki, takie jak szacowanie brakujących danych za pomocą analiz modelowania. W tym momencie analitycy danych powinni upewnić się, że opisali, w jaki sposób rozwiązali każdy problem dotyczący jakości zgłoszony we wcześniejszym kroku „Weryfikacja jakości danych”.
  33. Konstruuj dane
  34. Po wyczyszczeniu danych analityk danych powinien podjąć działania związane z przygotowaniem danych, takie jak opracowanie całkowicie nowych rekordów lub wytworzenie pochodnych atrybutów. Przykładem nowego rekordu byłoby utworzenie pustego rekordu zakupów dla klientów, którzy nie dokonali żadnych zakupów w ciągu ostatniego roku. Natomiast pochodne atrybuty to nowe atrybuty, które są zbudowane z istniejących atrybutów, takich jak Obszar = długość x szerokość. Te pochodne atrybuty należy dodawać tylko wtedy, gdy ułatwiają proces modelowania lub algorytm modelowania, a nie tylko w celu zmniejszenia liczby atrybutów wejściowych. Na przykład być może „dochód na głowę” jest lepszym / łatwiejszym w użyciu atrybutem niż „dochód na gospodarstwo domowe”. Innym rodzajem atrybutu pochodnego są przekształcenia jednego atrybutu, zwykle wykonywane w celu dopasowania do potrzeb narzędzi do modelowania. Te przekształcenia mogą być konieczne do przekształcenia zakresów w pola symboliczne (np. Przedziały wiekowe do przedziałów wiekowych) lub pola symboliczne („zdecydowanie tak”, „tak”, „nie wiem”, „nie”) w wartości liczbowe. Narzędzia do modelowania lub algorytmy często wymagają tych transformacji.
  35. Zintegruj dane
  36. Integracja danych obejmuje łączenie informacji z wielu tabel lub rekordów w celu utworzenia nowych rekordów lub wartości. W przypadku danych opartych na tabelach analityk może połączyć dwie lub więcej tabel, które zawierają różne informacje o tych samych obiektach. Na przykład sieć detaliczna ma jedną tabelę z informacjami o ogólnych cechach każdego sklepu (np. Powierzchnię, rodzaj centrum handlowego), kolejną tabelę ze podsumowanymi danymi dotyczącymi sprzedaży (np. Zysk, procentowa zmiana sprzedaży w porównaniu z poprzednim rokiem), a drugą tabelę z informacjami o demografii otaczającego obszaru. Każda z tych tabel zawiera jeden rekord dla każdego sklepu. Tabele te można łączyć w nową tabelę z jednym rekordem dla każdego sklepu, łącząc pola z tabel źródłowych.
  37. Integracja danych obejmuje również agregacje. Agregacje odnoszą się do operacji, w których nowe wartości są obliczane przez podsumowanie informacji z wielu rekordów i / lub tabel. Na przykład agregacja może obejmować przekształcenie tabeli zakupów klientów, w której dla każdego zakupu jest jeden rekord, w nową tabelę, w której jest jeden rekord dla każdego klienta. Pola tabeli mogą obejmować liczbę zakupów, średnią kwotę zakupu, procent zamówień obciążonych kartami kredytowymi, procent przedmiotów objętych promocją itp.
  38. Sformatuj dane
  39. W niektórych przypadkach analityk danych zmieni format lub wygląd danych. Zmiany te mogą być proste - na przykład usuwanie niedozwolonych znaków z ciągów lub przycinanie ich do maksymalnej długości - lub mogą być bardziej złożone, na przykład związane z reorganizacją informacji. Czasami zmiany te są potrzebne, aby dane były odpowiednie dla konkretnego narzędzia do modelowania. W innych przypadkach zmiany są potrzebne, aby postawić niezbędne pytania dotyczące eksploracji danych.
  40.  
  41. Faza czwarta: modelowanie
  42. W tej fazie wybierane i stosowane są różne techniki modelowania, a ich parametry są kalibrowane do optymalnych wartości. Zazwyczaj istnieje kilka technik dla tego samego typu problemu z eksploracją danych. Niektóre techniki mają określone wymagania dotyczące formy danych. Dlatego może być konieczne przejście z powrotem do fazy przygotowania danych. Etapy modelowania obejmują wybór techniki modelowania, generowanie projektu testowego, tworzenie modeli i ocenę modeli.
  43. Wybierz technikę modelowania
  44. To zadanie dotyczy wyboru jednej lub więcej określonych technik modelowania, takich jak budowanie drzewa decyzyjnego z C4.5 lub generowanie sieci neuronowej z propagacją wsteczną. Jeżeli założenia są dołączone do techniki modelowania, należy je zapisać.
  45. Wygeneruj projekt testu
  46. Po zbudowaniu modelu analityk danych musi przetestować jakość i ważność modelu, przeprowadzając testy empiryczne w celu określenia siły modelu. W nadzorowanych zadaniach eksploracji danych, takich jak klasyfikacja, powszechnie stosuje się poziomy błędów jako miary jakości modeli eksploracji danych. Dlatego zwykle rozdzielamy zestaw danych na pociąg i zestaw testowy, budujemy model na zestawie pociągu i oceniamy jego jakość na oddzielnym zestawie testów. Innymi słowy, analityk danych opracowuje model na podstawie jednego zestawu istniejących danych i testuje jego poprawność za pomocą oddzielnego zestawu danych. Dzięki temu analityk danych może zmierzyć, jak dobrze model może przewidzieć historię, zanim użyje go do przewidywania przyszłości. Zazwyczaj właściwe jest zaprojektowanie procedury testowej przed zbudowaniem modelu; ma to również wpływ na przygotowanie danych.
  47. Zbuduj model
  48. Po przetestowaniu analityk danych uruchamia narzędzie do modelowania na przygotowanym zestawie danych, aby utworzyć jeden lub więcej modeli.
  49. Oceń model
  50. Analityk eksploracji danych interpretuje modele zgodnie ze swoją wiedzą w tej dziedzinie, kryteriami sukcesu eksploracji danych i pożądanym projektem testu. Analityk eksploracji danych ocenia technicznie powodzenie zastosowania technik modelowania i odkrywania, ale powinien także współpracować z analitykami biznesowymi i ekspertami w dziedzinie, aby interpretować wyniki eksploracji danych w kontekście biznesowym. Analityk zajmujący się eksploracją danych może nawet zdecydować się na zaangażowanie analityka biznesowego podczas tworzenia modeli, aby pomóc w wykryciu potencjalnych problemów z danymi.
  51. Na przykład projekt eksploracji danych może przetestować czynniki wpływające na zamknięcie konta bankowego. Jeśli dane są gromadzone w różnych porach miesiąca, może to spowodować znaczną różnicę w saldach kont dwóch zebranych zestawów danych. (Ponieważ osoby mają tendencję do otrzymywania zapłaty pod koniec miesiąca, dane zebrane w tym czasie odzwierciedlają wyższe salda na koncie). Analityk biznesowy zaznajomiony z operacjami banku natychmiast zauważyłby taką rozbieżność.
  52. Na tym etapie analityk eksploracji danych próbuje także uszeregować modele. On lub ona ocenia modele zgodnie z kryteriami oceny i bierze pod uwagę cele biznesowe oraz kryteria sukcesu biznesowego. W większości projektów eksploracji danych analityk eksploracji danych stosuje jedną technikę więcej niż raz lub generuje wyniki eksploracji danych za pomocą różnych alternatywnych technik. W tym zadaniu porównuje wszystkie wyniki zgodnie z kryteriami oceny.
  53.  
  54. Faza piąta: ocena
  55. Przed przystąpieniem do ostatecznego wdrożenia modelu zbudowanego przez analityka danych należy dokładniej ocenić model i przejrzeć konstrukcję modelu, aby upewnić się, że prawidłowo osiąga cele biznesowe. W tym przypadku kluczowe jest ustalenie, czy jakiś ważny problem biznesowy nie został wystarczająco uwzględniony. Pod koniec tej fazy lider projektu powinien następnie dokładnie zdecydować, jak wykorzystać wyniki eksploracji danych. Kluczowymi krokami są tutaj ocena wyników, przegląd procesu i określenie kolejnych kroków
  56. Oceń wyniki
  57. Poprzednie etapy oceny dotyczyły takich czynników, jak dokładność i ogólność modelu. Ten krok ocenia stopień, w jakim model spełnia cele biznesowe i określa, czy istnieje jakiś powód biznesowy, dlaczego model ten jest wadliwy. Inną opcją jest przetestowanie modelu (modeli) w rzeczywistych aplikacjach - jeśli pozwalają na to ograniczenia czasowe i budżetowe. Co więcej, ocena ma również na celu ujawnienie dodatkowych wyzwań, informacji lub wskazówek dotyczących przyszłych kierunków.
  58. Na tym etapie analityk danych podsumowuje wyniki oceny pod kątem kryteriów sukcesu biznesowego, w tym końcowe stwierdzenie, czy projekt spełnia już początkowe cele biznesowe.
  59. Proces recenzji
  60. Teraz należy dokonać dokładniejszego przeglądu zaangażowania w eksplorację danych, aby ustalić, czy istnieje jakiś ważny czynnik lub zadanie, które zostało w jakiś sposób przeoczone. Przegląd obejmuje również kwestie związane z zapewnieniem jakości (np. Czy poprawnie zbudowaliśmy model? Czy korzystaliśmy tylko z dopuszczalnych atrybutów, które są dostępne do przyszłego wdrożenia?).
  61. Określ kolejne kroki
  62. Na tym etapie kierownik projektu musi zdecydować, czy ukończyć ten projekt i przejść do wdrożenia, czy też rozpocząć dalsze iteracje lub skonfigurować nowe projekty eksploracji danych.
  63. Faza szósta: Wdrożenie
  64. Tworzenie modelu zasadniczo nie jest końcem projektu. Zdobytą wiedzę należy zorganizować i przedstawić w taki sposób, aby klient mógł z niej korzystać, co często wiąże się z zastosowaniem modeli „na żywo” w procesach decyzyjnych organizacji, takich jak personalizacja stron internetowych w czasie rzeczywistym lub wielokrotne ocenianie marketingowych baz danych .
  65. W zależności od wymagań faza wdrażania może być tak prosta jak wygenerowanie raportu lub tak złożona jak wdrożenie powtarzalnego procesu eksploracji danych w całym przedsiębiorstwie. Mimo że często to klient, a nie analityk danych, wykonuje kroki wdrażania, ważne jest, aby klient z góry zrozumiał, jakie działania należy podjąć, aby faktycznie wykorzystać utworzone modele. Kluczowymi krokami są tu wdrożenie planu, monitorowanie i konserwacja planu, opracowanie raportu końcowego i przegląd projektu.
  66. Plan wdrożenia
  67. Aby wdrożyć wyniki wyszukiwania danych w firmie, zadanie to bierze wyniki oceny i opracowuje strategię wdrożenia.
  68. Planowanie monitorowania i konserwacji
  69. Monitorowanie i konserwacja są ważnymi kwestiami, jeśli wyniki eksploracji danych mają stać się częścią codziennej działalności i jej środowiska. Starannie przygotowana strategia konserwacji pozwala uniknąć nieprawidłowego wykorzystania wyników eksploracji danych.
  70. Opracuj raport końcowy
  71. Pod koniec projektu kierownik projektu i jego zespół sporządzają raport końcowy. W zależności od planu wdrożenia, raport ten może być jedynie podsumowaniem projektu i jego doświadczeń (jeśli nie zostały jeszcze udokumentowane jako bieżące działanie) lub może być ostateczną i kompleksową prezentacją wyników wyszukiwania danych. Ten raport zawiera wszystkie poprzednie wyniki oraz podsumowuje i porządkuje wyniki. Często po zakończeniu projektu odbędzie się spotkanie, na którym wyniki zostaną ustnie przedstawione klientowi.
  72. Przejrzyj projekt
  73. Analityk danych powinien ocenić niepowodzenia i sukcesy, a także potencjalne obszary ulepszeń do wykorzystania w przyszłych projektach. Ten krok powinien zawierać podsumowanie ważnych doświadczeń podczas projektu i może obejmować wywiady ze znaczącymi uczestnikami projektu. Dokument ten może obejmować pułapki, podejrzane metody wprowadzania w błąd lub wskazówki dotyczące wyboru najlepiej dobranych technik eksploracji danych w podobnych sytuacjach. W idealnych projektach dokumentacja doświadczenia obejmuje również wszelkie raporty napisane przez poszczególnych członków projektu podczas faz projektu i zadań.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement