LLE (Lokalnie liniowe osadzanie) to podejście nienadzorowane, mające na celu przekształcenie danych z ich pierwotnej przestrzeni wielowymiarowej w reprezentację o niższych wymiarach, przy jednoczesnym dążeniu do zachowania podstawowych cech geometrycznych podstawowej struktury cech nieliniowych. LLE działa w kilku kluczowych etapach:
- Po pierwsze, konstruuje wykres najbliższych sąsiadów, aby uchwycić te lokalne relacje. Następnie optymalizuje wartości wag dla każdego punktu danych, mając na celu zminimalizowanie błędu rekonstrukcji podczas wyrażania punktu jako liniowej kombinacji jego sąsiadów. Ta macierz wag odzwierciedla siłę połączeń między punktami.
- Następnie LLE oblicza niższą wymiarową reprezentację danych poprzez znalezienie wektory własne macierzy wyprowadzonej z macierzy wag. Te wektory własne reprezentują najbardziej odpowiednie kierunki w zredukowanej przestrzeni. Użytkownicy mogą określić żądaną wymiarowość przestrzeni wyjściowej, a LLE odpowiednio wybiera górne wektory własne.
Jako ilustrację rozważmy a Zbiór danych szwajcarskiej bułki , który jest z natury nieliniowy w swojej wielowymiarowej przestrzeni. W tym przypadku LLE pracuje nad rzutowaniem tej złożonej struktury na płaszczyznę o niższych wymiarach, zachowując jej charakterystyczne właściwości geometryczne przez cały proces transformacji.
Spis treści
- Matematyczna implementacja algorytmu LLE
- Lokalnie liniowy algorytm osadzania
- Parametry w algorytmie LLE
- Implementacja lokalnie liniowego osadzania
- Zalety LLE
- Wady LLE
Matematyczna implementacja algorytmu LLE
Kluczową ideą LLE jest to, że lokalnie, w pobliżu każdego punktu danych, dane leżą w przybliżeniu w podprzestrzeni liniowej. LLE próbuje rozwinąć lub rozwinąć dane, zachowując lokalne relacje liniowe.
Oto matematyczny przegląd algorytmu LLE:
Zminimalizować: 
Z zastrzeżeniem: 
ciąg znaków konwertowany na int w Javie
Gdzie:
- XIreprezentuje i-ty punkt danych.
- wjasą wagami, które minimalizują błąd rekonstrukcji dla punktu danych xIkorzystając z sąsiadów.
Ma na celu znalezienie niskowymiarowej reprezentacji danych przy jednoczesnym zachowaniu lokalnych relacji. Matematyczne wyrażenie LLE obejmuje minimalizację błędu rekonstrukcji każdego punktu danych poprzez wyrażenie go jako sumy ważonej jego k najbliższych sąsiadów ' składki. Optymalizacja ta podlega ograniczeniom zapewniającym, że suma wag dla każdego punktu danych wynosi 1. Lokalnie liniowe osadzanie (LLE) to technika redukcji wymiarowości stosowana w uczeniu maszynowym i analizie danych. Koncentruje się na zachowaniu lokalnych relacji między punktami danych podczas mapowania danych wielowymiarowych na przestrzeń o niższych wymiarach. Tutaj wyjaśnimy algorytm LLE i jego parametry.
Lokalnie liniowy algorytm osadzania
Algorytm LLE można podzielić na kilka etapów:
- Wybór okolicy: Dla każdego punktu danych w przestrzeni wielowymiarowej LLE identyfikuje k-najbliższych sąsiadów. Ten krok jest kluczowy, ponieważ LLE zakłada, że każdy punkt danych może być dobrze przybliżony przez liniową kombinację jego sąsiadów.
- Konstrukcja matrycy wagowej: LLE oblicza zestaw wag dla każdego punktu danych, aby wyrazić go jako kombinację liniową sąsiadów. Wagi te wyznaczane są w taki sposób, aby zminimalizować błąd rekonstrukcji. Do znalezienia tych wag często stosuje się regresję liniową.
- Zachowanie struktury globalnej: Po skonstruowaniu macierzy wag LLE ma na celu znalezienie niskowymiarowej reprezentacji danych, która najlepiej zachowuje lokalne zależności liniowe. Dokonuje tego poprzez poszukiwanie zestawu współrzędnych w przestrzeni o niższych wymiarach dla każdego punktu danych, który minimalizuje funkcję kosztu. Ten funkcja kosztu ocenia, jak dobrze każdy punkt danych może być reprezentowany przez swoich sąsiadów.
- Osadzanie wyjściowe: Po zakończeniu procesu optymalizacji LLE zapewnia ostateczną, niskowymiarową reprezentację danych. Ta reprezentacja oddaje zasadniczą strukturę danych, jednocześnie zmniejszając ich wymiarowość.
Parametry w algorytmie LLE
LLE ma kilka parametrów, które wpływają na jego zachowanie:
- k (liczba sąsiadów): Ten parametr określa, ilu najbliższych sąsiadów jest uwzględnianych przy konstruowaniu macierzy wag. Większe k rejestruje bardziej globalne relacje, ale może wprowadzać szum. Mniejsze k koncentruje się na relacjach lokalnych, ale może być wrażliwe na wartości odstające. Wybór odpowiedniej wartości k jest kluczowy dla powodzenia algorytmu.
- Wymiarowość przestrzeni wyjściowej: Można określić wymiarowość przestrzeni niskowymiarowej, do której będą mapowane dane. Jest to często wybierane w oparciu o wymagania problemu i kompromis między złożonością obliczeniową a zachowaniem informacji.
- Pomiar odległości: LLE opiera się na metryce odległości w celu zdefiniowania bliskości między punktami danych. Typowe opcje obejmują odległość euklidesową, odległość Manhattanu lub niestandardowe funkcje odległości. Wybór metryki odległości może mieć wpływ na wyniki.
- Regularyzacja (opcjonalnie): W niektórych przypadkach do funkcji kosztu dodawane są składniki regularyzacyjne, aby zapobiec nadmiernemu dopasowaniu. Regularyzacja może być przydatna, gdy mamy do czynienia z zaszumionymi danymi lub gdy liczba sąsiadów jest duża.
- Algorytm optymalizacji (opcjonalnie): LLE często wykorzystuje techniki optymalizacji, takie jak Rozkład według wartości osobliwych (SVD) lub metody wektorów własnych w celu znalezienia reprezentacji o niższych wymiarach. Te metody optymalizacji mogą mieć własne parametry, które można regulować.
LLE (lokalnie liniowe osadzanie) stanowi znaczący postęp w analizie strukturalnej, przewyższający tradycyjne techniki modelowania gęstości, takie jak lokalne PCA lub mieszaniny analizatorów czynnikowych. Ograniczenie modeli gęstości polega na ich niezdolności do spójnego ustalenia zestawu globalnych współrzędnych umożliwiających osadzanie obserwacji w całej rozmaitości strukturalnej. W związku z tym okazują się nieadekwatne do zadań takich jak generowanie niskowymiarowych projekcji pierwotnego zbioru danych. Modele te wyróżniają się jedynie identyfikacją cech liniowych, jak pokazano na poniższym obrazku. Jednak nie udaje im się uchwycić skomplikowanych zakrzywionych wzorów, co jest cechą charakterystyczną LLE.
Zwiększona wydajność obliczeniowa dzięki LLE. LLE oferuje doskonałą wydajność obliczeniową dzięki obsłudze rzadkiej macierzy, przewyższając inne algorytmy.
Implementacja lokalnie liniowego osadzania
Importowanie bibliotek
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Kod zaczyna się od zaimportowania niezbędnych bibliotek, w tym numpy, matplotlib.pyplot , make_swiss_roll ze sklearn.datasets i LocallyLinearEmbedding z sklearn.manifold .
podstawy selenu
Generowanie syntetycznego zestawu danych (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Generuje syntetyczny zbiór danych przypominający bułkę szwajcarską przy użyciu funkcji make_swiss_roll z scikit-learn.
n_samples określa liczbę punktów danych do wygenerowania.
n_neighbors definiuje liczbę sąsiadów używanych w algorytmie LLE.
Stosowanie lokalnego osadzania liniowego (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Instancja algorytmu LLE jest tworzona za pomocą LocallyLinearEmbedding. Parametr n_neighbors określa liczbę sąsiadów, które należy wziąć pod uwagę podczas procesu osadzania.
Algorytm LLE jest następnie dopasowywany do oryginalnych danych X za pomocą dopasowanie_transformacja metoda. Ten krok redukuje zbiór danych do dwóch wymiarów (n_components=2).
inicjator słownika c#
Wizualizacja danych oryginalnych i zredukowanych
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Wyjście:
Lokalnie liniowe osadzanie
Na drugim wykresie cząstkowym zredukowane dane uzyskane z LLE (X_reduced) są wizualizowane w podobny sposób jak dane oryginalne. Kolor punktów danych jest nadal określany przez trzecią cechę oryginalnych danych (X[:, 2]).The plt.tight_layout() Funkcja służy do zapewnienia odpowiednich odstępów pomiędzy wątkami.
Zalety LLE
Metoda redukcji wymiarowości znana jako lokalnie liniowe osadzanie (LLE) ma wiele zalet w przetwarzaniu i wizualizacji danych. Oto główne zalety LLE:
- Zachowanie struktur lokalnych : LLE doskonale radzi sobie z utrzymywaniem lokalnych relacji lub struktur w danych. Z powodzeniem oddaje nieodłączną geometrię rozmaitości nieliniowych, utrzymując odległości parami pomiędzy pobliskimi punktami danych.
- Obsługa nieliniowości : LLE ma zdolność wychwytywania nieliniowych wzorców i struktur w danych, w przeciwieństwie do technik liniowych, takich jak Analiza głównych składowych (PKA). Jest to szczególnie przydatne podczas pracy ze skomplikowanymi, zakrzywionymi lub skręconymi zbiorami danych.
- Redukcja wymiarowości : LLE obniża wymiarowość danych, zachowując jednocześnie ich podstawowe właściwości. Redukcja ta ułatwia prezentację, eksplorację i analizę danych, szczególnie podczas pracy z wielowymiarowymi zbiorami danych.
Wady LLE
- Przekleństwo wymiarowości : LLE może doświadczyć przekleństwo wymiarowości w przypadku stosowania z danymi o wyjątkowo wielowymiarowych wymiarach, podobnie jak wiele innych podejść do redukcji wymiarowości. Liczba sąsiadów wymaganych do uchwycenia lokalnych interakcji rośnie wraz ze wzrostem wymiarowości, co potencjalnie zwiększa koszt obliczeniowy podejścia.
- Wymagania dotyczące pamięci i obliczeń : W przypadku dużych zbiorów danych utworzenie ważonej macierzy sąsiedztwa w ramach LLE może wymagać dużej ilości pamięci. Etap rozkładu wartości własnej może być również obciążający obliczeniowo w przypadku dużych zbiorów danych.
- Dane odstające i zaszumione : LLE jest podatne na anomalie i niestabilne punkty danych. Może to mieć wpływ na jakość osadzania, a lokalne zależności liniowe mogą zostać zniekształcone przez wartości odstające.