Hiperparametry w uczeniu maszynowym to parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się. Te hiperparametry służą do usprawnienia uczenia się modelu, a ich wartości są ustalane przed rozpoczęciem procesu uczenia się modelu.
W tym temacie omówimy jedną z najważniejszych koncepcji uczenia maszynowego, tj. Hiperparametry, ich przykłady, dostrajanie hiperparametrów, kategorie hiperparametrów, czym różni się hiperparametr od parametru w uczeniu maszynowym? Ale zanim zaczniemy, najpierw zrozummy hiperparametr.
Co to są hiperparametry?
W uczeniu maszynowym/głębokim uczeniu model jest reprezentowany przez jego parametry. Natomiast proces uczenia obejmuje wybór najlepszych/optymalnych hiperparametrów, które są wykorzystywane przez algorytmy uczące się w celu zapewnienia najlepszego wyniku. Czym więc są te hiperparametry? Odpowiedź to, ' Hiperparametry definiuje się jako parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się.'
Tutaj przedrostek „hiper” sugeruje, że parametry są parametrami najwyższego poziomu używanymi do kontrolowania procesu uczenia się. Wartość hiperparametru jest wybierana i ustawiana przez inżyniera uczenia maszynowego przed rozpoczęciem uczenia modelu przez algorytm uczenia. Są one zatem zewnętrzne w stosunku do modelu i ich wartości nie można zmienić w procesie uczenia .
minipasek narzędzi Excel
Kilka przykładów hiperparametrów w uczeniu maszynowym
- Algorytm k w kNN lub K-najbliższego sąsiada
- Szybkość uczenia się w szkoleniu sieci neuronowej
- Współczynnik podziału pociągu i testu
- Rozmiar partii
- Liczba epok
- Gałęzie w drzewie decyzyjnym
- Liczba klastrów w algorytmie grupowania
Różnica między parametrem a hiperparametrem?
Zawsze istnieje duże zamieszanie między parametrami i hiperparametrami lub hiperparametrami modelu. Aby więc wyjaśnić to zamieszanie, zrozummy różnicę między nimi i ich wzajemne powiązania.
Parametry modelu:
Parametry modelu to zmienne konfiguracyjne, które są wewnętrzne w modelu i model uczy się ich samodzielnie. Na przykład , W Wagi lub współczynniki zmiennych niezależnych w modelu regresji liniowej . Lub Wagi lub współczynniki zmiennych niezależnych w SVM, waga i obciążenia sieci neuronowej, środek ciężkości klastrów w klastrowaniu. Oto niektóre kluczowe punkty dotyczące parametrów modelu:
- Są one wykorzystywane przez model do dokonywania prognoz.
- Model uczy się ich na podstawie samych danych
- Zwykle nie są one ustawiane ręcznie.
- Stanowią one część modelu i klucz do algorytmu uczenia maszynowego.
Hiperparametry modelu:
Hiperparametry to parametry wyraźnie zdefiniowane przez użytkownika w celu kontrolowania procesu uczenia się. Oto niektóre kluczowe punkty dotyczące parametrów modelu:
- Są one zwykle definiowane ręcznie przez inżyniera uczenia maszynowego.
- Nie można znać dokładnej najlepszej wartości hiperparametrów dla danego problemu. Najlepszą wartość można określić na podstawie praktycznej reguły lub metodą prób i błędów.
- Oto niektóre przykłady hiperparametrów szybkość uczenia się uczenia sieci neuronowej, K w algorytmie KNN,
Kategorie hiperparametrów
Ogólnie hiperparametry można podzielić na dwie kategorie, które podano poniżej:
Hiperparametr do optymalizacji
Proces wybierania najlepszych hiperparametrów do użycia nazywany jest dostrajaniem hiperparametrów, a proces dostrajania jest również znany jako optymalizacja hiperparametrów. Parametry optymalizacyjne służą do optymalizacji modelu.
Poniżej podano niektóre z popularnych parametrów optymalizacyjnych:
Uwaga: Szybkość uczenia się jest kluczowym hiperparametrem przy optymalizacji modelu, więc jeśli wymagane jest dostrojenie tylko jednego hiperparametru, sugeruje się dostrojenie szybkości uczenia się.
Hiperparametr dla określonych modeli
Hiperparametry biorące udział w strukturze modelu nazywane są hiperparametrami dla określonych modeli. Poniżej podano:
Ważne jest określenie hiperparametru liczby jednostek ukrytych dla sieci neuronowej. Powinien mieścić się pomiędzy rozmiarem warstwy wejściowej a rozmiarem warstwy wyjściowej. Mówiąc dokładniej, liczba ukrytych jednostek powinna wynosić 2/3 rozmiaru warstwy wejściowej plus rozmiar warstwy wyjściowej.
W przypadku funkcji złożonych konieczne jest określenie liczby jednostek ukrytych, ale nie powinno to przekraczać modelu.
Wniosek
Hiperparametry to parametry, które są jawnie zdefiniowane w celu kontrolowania procesu uczenia się przed zastosowaniem algorytmu uczenia maszynowego do zestawu danych. Służą one do określenia zdolności uczenia się i złożoności modelu. Niektóre hiperparametry służą do optymalizacji modeli, takie jak wielkość partii, szybkość uczenia się itp., a niektóre są specyficzne dla modeli, np. Liczba ukrytych warstw itp.