logo

Klastrowanie hierarchiczne w eksploracji danych

Klastrowanie hierarchiczne odnosi się do procedury uczenia się bez nadzoru, która wyznacza kolejne klastry na podstawie wcześniej zdefiniowanych klastrów. Działa poprzez grupowanie danych w drzewo klastrów. Hierarchiczne statystyki grupowania poprzez traktowanie każdego punktu danych jako osobnego klastra. Punkt końcowy odnosi się do innego zestawu klastrów, gdzie każdy klaster różni się od drugiego, a obiekty w każdym klastrze są takie same.

Istnieją dwa typy grupowania hierarchicznego

  • Aglomeracyjne grupowanie hierarchiczne
  • Klastrowanie dzielące

Aglomeracyjne grupowanie hierarchiczne

Klastrowanie aglomeracyjne jest jednym z najpowszechniejszych typów grupowania hierarchicznego stosowanego do grupowania podobnych obiektów w klastry. Klastrowanie aglomeracyjne jest również znane jako AGNES (zagnieżdżanie aglomeracyjne). W klastrowaniu aglomeracyjnym każdy punkt danych działa jak indywidualny klaster i na każdym etapie obiekty danych są grupowane metodą oddolną. Początkowo każdy obiekt danych znajduje się w swoim klastrze. W każdej iteracji klastry są łączone z różnymi klastrami, aż do utworzenia jednego klastra.

Algorytm grupowania aglomeracyjnego i hierarchicznego

  1. Określ podobieństwo między osobnikami i wszystkimi innymi skupieniami. (Znajdź macierz bliskości).
  2. Rozważ każdy punkt danych jako indywidualny klaster.
  3. Połącz podobne klastry.
  4. Oblicz ponownie macierz bliskości dla każdego klastra.
  5. Powtarzaj krok 3 i krok 4, aż otrzymasz pojedynczy klaster.

Rozumiemy to pojęcie za pomocą graficznej reprezentacji za pomocą dendrogramu.

Za pomocą danej demonstracji możemy zrozumieć, jak działa rzeczywisty algorytm. W tym przypadku nie wykonano żadnych obliczeń, przy założeniu całkowitej bliskości klastrów.

Załóżmy, że mamy sześć różnych punktów danych P, Q, R, S, T, V.

Klastrowanie hierarchiczne w eksploracji danych

Krok 1:

Rozważ każdy alfabet (P, Q, R, S, T, V) jako indywidualny klaster i znajdź odległość pomiędzy indywidualnym klastrem a wszystkimi innymi klastrami.

.równa się Javie

Krok 2:

Teraz połącz porównywalne klastry w jeden klaster. Załóżmy, że klaster Q i klaster R są do siebie podobne, więc możemy je połączyć w drugim kroku. Wreszcie otrzymujemy klastry [ (P), (QR), (ST), (V)]

js limit czasu

Krok 3:

Tutaj ponownie obliczamy bliskość zgodnie z algorytmem i łączymy dwa najbliższe skupiska [(ST), (V)] razem, tworząc nowe skupienia jako [(P), (QR), (STV)]

Krok 4:

Powtórz ten sam proces. Klastry STV i PQ są porównywalne i połączone razem, tworząc nowy klaster. Teraz mamy [(P), (QQRSTV)].

Krok 5:

Na koniec pozostałe dwa klastry są łączone w jeden klaster [(PQRSTV)]

Dzielące grupowanie hierarchiczne

Dzielące grupowanie hierarchiczne jest dokładnym przeciwieństwem aglomeracyjnego grupowania hierarchicznego. W grupowaniu hierarchicznym dzielącym wszystkie punkty danych są traktowane jako indywidualny klaster, a w każdej iteracji punkty danych, które nie są podobne, są oddzielane od klastra. Oddzielone punkty danych są traktowane jako indywidualny klaster. Ostatecznie pozostaje nam N klastrów.

Klastrowanie hierarchiczne w eksploracji danych

Zalety grupowania hierarchicznego

  • Jest prosty we wdrożeniu i w niektórych przypadkach zapewnia najlepszą wydajność.
  • Jest to łatwe i skutkuje hierarchią, strukturą zawierającą więcej informacji.
  • Nie ma potrzeby wstępnego określania liczby skupień.

Wady grupowania hierarchicznego

  • Rozbija duże skupiska.
  • Trudno jest poradzić sobie z klastrami o różnej wielkości i wypukłymi kształtami.
  • Jest wrażliwy na szum i wartości odstające.
  • Algorytmu nie można nigdy zmienić ani usunąć, jeśli zostało to zrobione wcześniej.