logo

Hiperparametry w uczeniu maszynowym

Hiperparametry w uczeniu maszynowym to parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się. Te hiperparametry służą do usprawnienia uczenia się modelu, a ich wartości są ustalane przed rozpoczęciem procesu uczenia się modelu.

Hiperparametry w uczeniu maszynowym

W tym temacie omówimy jedną z najważniejszych koncepcji uczenia maszynowego, tj. Hiperparametry, ich przykłady, dostrajanie hiperparametrów, kategorie hiperparametrów, czym różni się hiperparametr od parametru w uczeniu maszynowym? Ale zanim zaczniemy, najpierw zrozummy hiperparametr.

Co to są hiperparametry?

W uczeniu maszynowym/głębokim uczeniu model jest reprezentowany przez jego parametry. Natomiast proces uczenia obejmuje wybór najlepszych/optymalnych hiperparametrów, które są wykorzystywane przez algorytmy uczące się w celu zapewnienia najlepszego wyniku. Czym więc są te hiperparametry? Odpowiedź to, ' Hiperparametry definiuje się jako parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się.'

Tutaj przedrostek „hiper” sugeruje, że parametry są parametrami najwyższego poziomu używanymi do kontrolowania procesu uczenia się. Wartość hiperparametru jest wybierana i ustawiana przez inżyniera uczenia maszynowego przed rozpoczęciem uczenia modelu przez algorytm uczenia. Są one zatem zewnętrzne w stosunku do modelu i ich wartości nie można zmienić w procesie uczenia .

minipasek narzędzi Excel

Kilka przykładów hiperparametrów w uczeniu maszynowym

  • Algorytm k w kNN lub K-najbliższego sąsiada
  • Szybkość uczenia się w szkoleniu sieci neuronowej
  • Współczynnik podziału pociągu i testu
  • Rozmiar partii
  • Liczba epok
  • Gałęzie w drzewie decyzyjnym
  • Liczba klastrów w algorytmie grupowania

Różnica między parametrem a hiperparametrem?

Zawsze istnieje duże zamieszanie między parametrami i hiperparametrami lub hiperparametrami modelu. Aby więc wyjaśnić to zamieszanie, zrozummy różnicę między nimi i ich wzajemne powiązania.

Parametry modelu:

Parametry modelu to zmienne konfiguracyjne, które są wewnętrzne w modelu i model uczy się ich samodzielnie. Na przykład , W Wagi lub współczynniki zmiennych niezależnych w modelu regresji liniowej . Lub Wagi lub współczynniki zmiennych niezależnych w SVM, waga i obciążenia sieci neuronowej, środek ciężkości klastrów w klastrowaniu. Oto niektóre kluczowe punkty dotyczące parametrów modelu:

  • Są one wykorzystywane przez model do dokonywania prognoz.
  • Model uczy się ich na podstawie samych danych
  • Zwykle nie są one ustawiane ręcznie.
  • Stanowią one część modelu i klucz do algorytmu uczenia maszynowego.

Hiperparametry modelu:

Hiperparametry to parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się. Oto niektóre kluczowe punkty dotyczące parametrów modelu:

  • Są one zwykle definiowane ręcznie przez inżyniera uczenia maszynowego.
  • Nie można znać dokładnej najlepszej wartości hiperparametrów dla danego problemu. Najlepszą wartość można określić na podstawie praktycznej reguły lub metodą prób i błędów.
  • Oto niektóre przykłady hiperparametrów szybkość uczenia się uczenia sieci neuronowej, K w algorytmie KNN,

Kategorie hiperparametrów

Ogólnie hiperparametry można podzielić na dwie kategorie, które podano poniżej:

    Hiperparametr do optymalizacji Hiperparametr dla określonych modeli

Hiperparametr do optymalizacji

Proces wybierania najlepszych hiperparametrów do użycia nazywany jest dostrajaniem hiperparametrów, a proces dostrajania jest również znany jako optymalizacja hiperparametrów. Parametry optymalizacyjne służą do optymalizacji modelu.

Hiperparametry w uczeniu maszynowym

Poniżej podano niektóre z popularnych parametrów optymalizacyjnych:

    Szybkość uczenia się:Szybkość uczenia się to hiperparametr w algorytmach optymalizacyjnych, który kontroluje, jak bardzo model musi się zmienić w odpowiedzi na szacowany błąd za każdym razem, gdy aktualizowane są wagi modelu. Jest to jeden z kluczowych parametrów podczas budowy sieci neuronowej, a także determinuje częstotliwość sprawdzania krzyżowego z parametrami modelu. Wybór zoptymalizowanej szybkości uczenia się jest trudnym zadaniem, ponieważ jeśli szybkość uczenia się jest bardzo niska, może to spowolnić proces uczenia się. Z drugiej strony, jeśli szybkość uczenia się jest zbyt duża, model może nie zostać odpowiednio zoptymalizowany.

Uwaga: Szybkość uczenia się jest kluczowym hiperparametrem przy optymalizacji modelu, więc jeśli wymagane jest dostrojenie tylko jednego hiperparametru, sugeruje się dostrojenie szybkości uczenia się.

    Rozmiar partii:Aby zwiększyć szybkość procesu uczenia się, zbiór uczący dzieli się na różne podzbiory, zwane partiami. Liczba epok: Epokę można zdefiniować jako pełny cykl uczenia modelu uczenia maszynowego. Epoka reprezentuje iteracyjny proces uczenia się. Liczba epok różni się w zależności od modelu, a różne modele są tworzone z więcej niż jedną epoką. Aby określić odpowiednią liczbę epok, uwzględnia się błąd walidacji. Liczba epok jest zwiększana, aż do zmniejszenia błędu walidacji. Jeżeli w kolejnych epokach nie następuje poprawa błędu redukcji, oznacza to, że należy zaprzestać zwiększania liczby epok.

Hiperparametr dla określonych modeli

Hiperparametry biorące udział w strukturze modelu nazywane są hiperparametrami dla określonych modeli. Poniżej podano:

    Liczba ukrytych jednostek:Jednostki ukryte są częścią sieci neuronowych i odnoszą się do komponentów składających się na warstwy procesorów pomiędzy jednostkami wejściowymi i wyjściowymi w sieci neuronowej.

Ważne jest określenie hiperparametru liczby jednostek ukrytych dla sieci neuronowej. Powinien mieścić się pomiędzy rozmiarem warstwy wejściowej a rozmiarem warstwy wyjściowej. Mówiąc dokładniej, liczba ukrytych jednostek powinna wynosić 2/3 rozmiaru warstwy wejściowej plus rozmiar warstwy wyjściowej.

W przypadku funkcji złożonych konieczne jest określenie liczby jednostek ukrytych, ale nie powinno to przekraczać modelu.

    Liczba warstw:Sieć neuronowa składa się z pionowo ułożonych elementów, zwanych warstwami. Są głównie warstwy wejściowe, warstwy ukryte i warstwy wyjściowe . Trójwarstwowa sieć neuronowa zapewnia lepszą wydajność niż sieć dwuwarstwowa. W przypadku konwolucyjnej sieci neuronowej większa liczba warstw tworzy lepszy model.

Wniosek

Hiperparametry to parametry, które są jawnie zdefiniowane w celu kontrolowania procesu uczenia się przed zastosowaniem algorytmu uczenia maszynowego do zestawu danych. Służą one do określenia zdolności uczenia się i złożoności modelu. Niektóre hiperparametry służą do optymalizacji modeli, takie jak wielkość partii, szybkość uczenia się itp., a niektóre są specyficzne dla modeli, np. Liczba ukrytych warstw itp.