Klastrowanie hierarchiczne odnosi się do procedury uczenia się bez nadzoru, która wyznacza kolejne klastry na podstawie wcześniej zdefiniowanych klastrów. Działa poprzez grupowanie danych w drzewo klastrów. Hierarchiczne statystyki grupowania poprzez traktowanie każdego punktu danych jako osobnego klastra. Punkt końcowy odnosi się do innego zestawu klastrów, gdzie każdy klaster różni się od drugiego, a obiekty w każdym klastrze są takie same.
Istnieją dwa typy grupowania hierarchicznego
- Aglomeracyjne grupowanie hierarchiczne
- Klastrowanie dzielące
Aglomeracyjne grupowanie hierarchiczne
Klastrowanie aglomeracyjne jest jednym z najpowszechniejszych typów grupowania hierarchicznego stosowanego do grupowania podobnych obiektów w klastry. Klastrowanie aglomeracyjne jest również znane jako AGNES (zagnieżdżanie aglomeracyjne). W klastrowaniu aglomeracyjnym każdy punkt danych działa jak indywidualny klaster i na każdym etapie obiekty danych są grupowane metodą oddolną. Początkowo każdy obiekt danych znajduje się w swoim klastrze. W każdej iteracji klastry są łączone z różnymi klastrami, aż do utworzenia jednego klastra.
Algorytm grupowania aglomeracyjnego i hierarchicznego
- Określ podobieństwo między osobnikami i wszystkimi innymi skupieniami. (Znajdź macierz bliskości).
- Rozważ każdy punkt danych jako indywidualny klaster.
- Połącz podobne klastry.
- Oblicz ponownie macierz bliskości dla każdego klastra.
- Powtarzaj krok 3 i krok 4, aż otrzymasz pojedynczy klaster.
Rozumiemy to pojęcie za pomocą graficznej reprezentacji za pomocą dendrogramu.
Za pomocą danej demonstracji możemy zrozumieć, jak działa rzeczywisty algorytm. W tym przypadku nie wykonano żadnych obliczeń, przy założeniu całkowitej bliskości klastrów.
Załóżmy, że mamy sześć różnych punktów danych P, Q, R, S, T, V.
Krok 1:
Rozważ każdy alfabet (P, Q, R, S, T, V) jako indywidualny klaster i znajdź odległość pomiędzy indywidualnym klastrem a wszystkimi innymi klastrami.
.równa się Javie
Krok 2:
Teraz połącz porównywalne klastry w jeden klaster. Załóżmy, że klaster Q i klaster R są do siebie podobne, więc możemy je połączyć w drugim kroku. Wreszcie otrzymujemy klastry [ (P), (QR), (ST), (V)]
js limit czasu
Krok 3:
Tutaj ponownie obliczamy bliskość zgodnie z algorytmem i łączymy dwa najbliższe skupiska [(ST), (V)] razem, tworząc nowe skupienia jako [(P), (QR), (STV)]
Krok 4:
Powtórz ten sam proces. Klastry STV i PQ są porównywalne i połączone razem, tworząc nowy klaster. Teraz mamy [(P), (QQRSTV)].
Krok 5:
Na koniec pozostałe dwa klastry są łączone w jeden klaster [(PQRSTV)]
Dzielące grupowanie hierarchiczne
Dzielące grupowanie hierarchiczne jest dokładnym przeciwieństwem aglomeracyjnego grupowania hierarchicznego. W grupowaniu hierarchicznym dzielącym wszystkie punkty danych są traktowane jako indywidualny klaster, a w każdej iteracji punkty danych, które nie są podobne, są oddzielane od klastra. Oddzielone punkty danych są traktowane jako indywidualny klaster. Ostatecznie pozostaje nam N klastrów.
Zalety grupowania hierarchicznego
- Jest prosty we wdrożeniu i w niektórych przypadkach zapewnia najlepszą wydajność.
- Jest to łatwe i skutkuje hierarchią, strukturą zawierającą więcej informacji.
- Nie ma potrzeby wstępnego określania liczby skupień.
Wady grupowania hierarchicznego
- Rozbija duże skupiska.
- Trudno jest poradzić sobie z klastrami o różnej wielkości i wypukłymi kształtami.
- Jest wrażliwy na szum i wartości odstające.
- Algorytmu nie można nigdy zmienić ani usunąć, jeśli zostało to zrobione wcześniej.