logo

Błędy i wariancje w uczeniu maszynowym

Uczenie maszynowe to gałąź sztucznej inteligencji, która umożliwia maszynom przeprowadzanie analizy danych i przewidywanie. Jeśli jednak model uczenia maszynowego nie jest dokładny, może powodować błędy w przewidywaniach, a te błędy przewidywania są zwykle znane jako błąd i wariancja. W uczeniu maszynowym błędy te będą zawsze obecne, ponieważ zawsze istnieje niewielka różnica między przewidywaniami modelu a przewidywaniami rzeczywistymi. Głównym celem analityków ML/data science jest ograniczenie tych błędów w celu uzyskania dokładniejszych wyników. W tym temacie omówimy błąd systematycznego i wariancję, kompromis między odchyleniem a wariancją, niedopasowanie i nadmierne dopasowanie. Ale zanim zaczniemy, najpierw zrozummy, jakie są błędy w uczeniu maszynowym?

Błędy i wariancje w uczeniu maszynowym

Błędy w uczeniu maszynowym?

W uczeniu maszynowym błąd jest miarą tego, jak dokładnie algorytm może przewidywać nieznany wcześniej zbiór danych. Na podstawie tych błędów wybierany jest model uczenia maszynowego, który najlepiej sprawdza się na konkretnym zbiorze danych. Istnieją głównie dwa rodzaje błędów w uczeniu maszynowym, którymi są:

    Redukowalne błędy:Błędy te można zredukować, aby poprawić dokładność modelu. Takie błędy można dalej podzielić na stronniczość i wariancję.
    Błędy i wariancje w uczeniu maszynowym Błędy nieredukowalne:Błędy te zawsze będą obecne w modelu

niezależnie od użytego algorytmu. Przyczyną tych błędów są nieznane zmienne, których wartości nie można zmniejszyć.

Co to jest stronniczość?

Ogólnie rzecz biorąc, model uczenia maszynowego analizuje dane, znajduje w nich wzorce i dokonuje prognoz. Podczas uczenia model uczy się tych wzorców w zestawie danych i stosuje je do testowania danych w celu przewidywania. Podczas dokonywania predykcji pojawia się różnica pomiędzy wartościami predykcji dokonanymi przez model a wartościami rzeczywistymi/wartościami oczekiwanymi , i ta różnica jest nazywana błędami stronniczości lub błędami wynikającymi z uprzedzeń . Można to zdefiniować jako niezdolność algorytmów uczenia maszynowego, takich jak regresja liniowa, do uchwycenia prawdziwej relacji między punktami danych. Każdy algorytm zaczyna się od pewnego obciążenia, ponieważ błąd wynika z założeń modelu, co sprawia, że ​​funkcja celu jest łatwa do nauczenia. Model ma:

metoda Java
    Niskie odchylenie:Model o niskim obciążeniu będzie zawierał mniej założeń dotyczących postaci funkcji celu.Wysokie odchylenie:Model o dużym obciążeniu przyjmuje więcej założeń i nie jest w stanie uchwycić ważnych cech naszego zbioru danych. Model o wysokim obciążeniu również nie może dobrze działać na nowych danych.

Ogólnie rzecz biorąc, algorytm liniowy ma duże obciążenie, ponieważ sprawia, że ​​uczą się szybko. Im prostszy algorytm, tym większe obciążenie może zostać wprowadzone. Podczas gdy algorytm nieliniowy często ma niskie obciążenie.

Kilka przykładów algorytmów uczenia maszynowego o niskim obciążeniu są drzewa decyzyjne, k-najbliższych sąsiadów i maszyny wektorów nośnych . Jednocześnie jest to algorytm o dużym obciążeniu Regresja liniowa, liniowa analiza dyskryminacyjna i regresja logistyczna.

Sposoby ograniczenia wysokiego odchylenia:

Wysokie odchylenie wynika głównie z bardzo prostego modelu. Poniżej znajduje się kilka sposobów na zmniejszenie wysokiego odchylenia:

  • Zwiększ funkcje wejściowe, gdy model jest niedopasowany.
  • Zmniejsz człon regularyzacyjny.
  • Używaj bardziej złożonych modeli, takich jak niektóre funkcje wielomianowe.

Co to jest błąd wariancji?

Wariancja określałaby wielkość zmienności prognozy, gdyby zastosowano różne dane szkoleniowe. W prostych słowach, wariancja mówi, jak bardzo zmienna losowa różni się od jej wartości oczekiwanej. W idealnym przypadku model nie powinien zbytnio różnić się w zależności od zbioru danych uczących, co oznacza, że ​​algorytm powinien dobrze rozumieć ukryte mapowanie pomiędzy zmiennymi wejściowymi i wyjściowymi. Błędy wariancji to jeden z niska lub wysoka wariancja.

Niska wariancja oznacza, że ​​istnieje niewielka zmienność w przewidywaniu funkcji celu wraz ze zmianami w zbiorze danych uczących. W tym samym czasie, Wysoka wariancja pokazuje dużą zmienność w przewidywaniu funkcji celu wraz ze zmianami w zbiorze danych uczących.

Model, który wykazuje dużą wariancję, dużo się uczy i dobrze radzi sobie ze zbiorem danych szkoleniowych, ale nie potrafi dobrze generalizować w przypadku niewidocznego zbioru danych. W rezultacie taki model daje dobre wyniki w przypadku zbioru uczącego, ale wykazuje wysoki poziom błędów w zbiorze testowym.

string.compareto C#

Ponieważ przy dużej wariancji model uczy się zbyt wiele ze zbioru danych, prowadzi to do nadmiernego dopasowania modelu. Model o dużej wariancji ma następujące problemy:

  • Model o dużej wariancji prowadzi do nadmiernego dopasowania.
  • Zwiększ złożoność modelu.

Zwykle algorytmy nieliniowe mają dużą elastyczność w dopasowaniu do modelu, mają dużą wariancję.

Błędy i wariancje w uczeniu maszynowym

Oto niektóre przykłady algorytmów uczenia maszynowego o niskiej wariancji: Regresja liniowa, regresja logistyczna i liniowa analiza dyskryminacyjna . Jednocześnie istnieją algorytmy o dużej wariancji drzewo decyzyjne, maszyna wektorów nośnych i K-najbliżsi sąsiedzi.

Sposoby ograniczenia dużej wariancji:

  • W przypadku nadmiernego dopasowania modelu należy zmniejszyć liczbę parametrów wejściowych lub liczbę parametrów.
  • Nie używaj bardzo złożonego modelu.
  • Zwiększ dane treningowe.
  • Zwiększ termin regularyzacji.

Różne kombinacje odchylenia-wariancji

Istnieją cztery możliwe kombinacje błędu systematycznego i wariancji, które przedstawiono na poniższym diagramie:

Błędy i wariancje w uczeniu maszynowym
    Niskie obciążenie, niska wariancja:
    Połączenie niskiego obciążenia systematycznego i niskiej wariancji pokazuje idealny model uczenia maszynowego. Praktycznie nie jest to jednak możliwe.Niskie obciążenie, duża wariancja:Przy niskim obciążeniu i dużej wariancji przewidywania modelu są średnio niespójne i dokładne. Taki przypadek ma miejsce, gdy model uczy się z dużą liczbą parametrów, co prowadzi do: nadmierne dopasowanie Wysokie odchylenie, niska wariancja:W przypadku dużego obciążenia systematycznego i niskiej wariancji przewidywania są spójne, ale średnio niedokładne. Taki przypadek ma miejsce, gdy model nie uczy się dobrze ze zbiorem danych szkoleniowych lub używa kilku liczb parametru. Prowadzi to do niedopasowanie problemy w modelu.Wysokie odchylenie, duża wariancja:
    Przy dużym odchyleniu i dużej wariancji prognozy są niespójne, a także średnio niedokładne.

Jak rozpoznać wysoką wariancję lub duże odchylenie?

Wysoką wariancję można zidentyfikować, jeśli model ma:

Błędy i wariancje w uczeniu maszynowym
  • Niski błąd uczenia i wysoki błąd testu.

Wysokie odchylenie można zidentyfikować, jeśli model ma:

  • Wysoki błąd uczenia i błąd testu jest prawie podobny do błędu treningu.

Kompromis odchylenia i wariancji

Budując model uczenia maszynowego, bardzo ważne jest, aby zadbać o obciążenie i wariancję, aby uniknąć nadmiernego i niedopasowania modelu. Jeśli model jest bardzo prosty i ma mniejszą liczbę parametrów, może mieć niską wariancję i duże obciążenie. Natomiast jeśli model ma dużą liczbę parametrów, będzie miał dużą wariancję i niskie obciążenie. Dlatego wymagane jest dokonanie równowagi między błędami obciążenia i błędami wariancji, a ta równowaga między błędem obciążenia a błędem wariancji jest znana jako kompromis odchylenia-wariancji.

ciąg Java do tablicy
Błędy i wariancje w uczeniu maszynowym

Do dokładnego przewidywania modelu algorytmy potrzebują małej wariancji i niskiego obciążenia. Nie jest to jednak możliwe, ponieważ błąd i wariancja są ze sobą powiązane:

  • Jeśli zmniejszymy wariancję, zwiększy się odchylenie.
  • Jeśli zmniejszymy odchylenie, zwiększy to wariancję.

Kompromis między odchyleniami a wariancją jest kluczową kwestią w uczeniu się nadzorowanym. W idealnym przypadku potrzebujemy modelu, który dokładnie oddaje prawidłowości w danych szkoleniowych, a jednocześnie dobrze generalizuje na niewidocznym zbiorze danych. Niestety, nie jest możliwe jednoczesne wykonanie tej czynności. Ponieważ algorytm o dużej wariancji może dobrze działać z danymi szkoleniowymi, ale może prowadzić do nadmiernego dopasowania do zaszumionych danych. Natomiast algorytm o dużym obciążeniu generuje znacznie prosty model, który może nawet nie uchwycić ważnych prawidłowości w danych. Musimy więc znaleźć złoty środek pomiędzy obciążeniem a wariancją, aby stworzyć optymalny model.

Stąd Kompromis błędu systematycznego i wariancji polega na znalezieniu idealnego punktu, aby uzyskać równowagę pomiędzy błędami błędu systematycznego i wariancji.