Wstęp
Uczenie maszynowe zreformowało sposób, w jaki przetwarzamy i badamy dane, a algorytmy drzew decyzyjnych są znanym sposobem podejmowania decyzji w przypadku zadań klasyfikacji i regresji. Indeks Giniego, inaczej nazywany zanieczyszczeniem Giniego lub współczynnikiem Giniego, jest znaczącą miarą zanieczyszczeń wykorzystywaną w algorytmach drzew decyzyjnych. W tym artykule szczegółowo przeanalizujemy ideę Indeksu Giniego, jego wzór numeryczny i zastosowania w uczeniu maszynowym. W podobny sposób porównamy Indeks Giniego i inne miary zanieczyszczeń, porozmawiamy o jego ograniczeniach i zaletach oraz przeanalizujemy kontekstowe analizy jego rzeczywistych zastosowań. Nareszcie przedstawimy tutaj przyszłe kierunki badań.
Co to jest Indeks Giniego?
Indeks Giniego to proporcja zanieczyszczeń lub nierówności w ustawieniach statystycznych i monetarnych. W uczeniu maszynowym wykorzystuje się go jako miarę zanieczyszczeń w algorytmach drzew decyzyjnych w zadaniach klasyfikacyjnych. Indeks Giniego mierzy prawdopodobieństwo, że przypadkowo wybrany test zostanie błędnie sklasyfikowany przez algorytm drzewa decyzyjnego, a jego wartość zmienia się od 0 (idealnie czysty) do 1 (idealnie nieczysty).
Formuła indeksu Giniego
Indeks Giniego to proporcja zanieczyszczeń lub nierówności w obiegu, regularnie wykorzystywana jako miara zanieczyszczeń w algorytmach drzew decyzyjnych. Jeśli chodzi o drzewa decyzyjne, indeks Giniego służy do określenia najlepszej cechy do podziału danych w każdym węźle drzewa.
Wzór na Indeks Giniego jest następujący:
gdzie pi jest prawdopodobieństwem, że rzecz zajmie miejsce w określonej klasie.
Na przykład powinniśmy rozważyć kwestię klasyfikacji binarnej z dwiema klasami An i B. Zakładając, że prawdopodobieństwo klasy An wynosi p, a prawdopodobieństwo klasy B wynosi (1-p), wówczas Indeks Giniego można obliczyć jako :
Wartość indeksu Giniego waha się od 0,0 do 0,5 dla problemów klasyfikacji binarnej, gdzie 0,0 oznacza węzeł doskonale czysty (wszystkie przykłady mają miejsce w podobnej klasie), a 0,5 oznacza węzeł doskonale zanieczyszczony (testy są równo rozłożone pomiędzy dwiema klasami) ).
Wykorzystanie indeksu Giniego w problemach klasyfikacyjnych
Indeks Giniego jest powszechnie stosowany jako miara zanieczyszczeń w algorytmach drzew decyzyjnych w przypadku problemów klasyfikacyjnych. W drzewach decyzyjnych każdy węzeł odnosi się do elementu, a celem jest podzielenie danych na podzbiory, które są zasadniczo tak czyste, jak można się spodziewać. Miara zanieczyszczeń (taka jak indeks Giniego) jest wykorzystywana do określenia najlepszego podziału w każdym węźle.
Aby to zilustrować, powinniśmy rozważyć przykład drzewa decyzyjnego dla problemu klasyfikacji binarnej. Drzewo składa się z dwóch elementów: wieku i dochodu, a jego celem jest przewidzenie, czy dana osoba prawdopodobnie zamierza kupić dany przedmiot. Drzewo jest zbudowane przy użyciu indeksu Giniego jako miary zanieczyszczenia.
W węźle głównym obliczany jest Indeks Giniego na podstawie prawdopodobieństwa zajęcia przez przykłady miejsca w klasie 0 lub klasie 1. Węzeł jest dzielony ze względu na składową, która powoduje największy spadek Indeksu Giniego. Cykl ten jest powtarzany rekurencyjnie dla każdego podzbioru, aż do osiągnięcia miary zatrzymującej.
Drzewa decyzyjne
Drzewo decyzyjne to dobrze znany algorytm uczenia maszynowego wykorzystywany zarówno do zadań klasyfikacji, jak i regresji. Model działa poprzez rekurencyjne dzielenie zbioru danych na skromniejsze podzbiory w świetle wartości najważniejszych informacji, określonych w celu ograniczenia zanieczyszczeń kolejnych podzbiorów.
W każdym węźle drzewa decyzja jest podejmowana na podstawie wartości jednego z najważniejszych informacji, a ostatecznym celem jest to, aby kolejne podzbiory były w zasadzie tak czyste, jak można by naprawdę oczekiwać. Czystość podzbioru jest regularnie szacowana za pomocą miary zanieczyszczenia, na przykład indeksu Giniego lub entropii.
Algorytm drzewa decyzyjnego można wykorzystać zarówno do zadań klasyfikacji binarnej, wieloklasowej, jak i zadań regresyjnych. W zadaniach klasyfikacji binarnej drzewo decyzyjne dzieli zbiór danych na dwa podzbiory w świetle wartości cechy binarnej, np. tak lub nie. W zadaniach klasyfikacji wieloklasowej drzewo decyzyjne dzieli zbiór danych na liczne podzbiory w świetle wartości prostej cechy, takiej jak czerwony, zielony lub niebieski.
Indeks Giniego a inne miary zanieczyszczeń
Oprócz indeksu Giniego istnieją inne miary zanieczyszczeń, które są zwykle wykorzystywane w algorytmach drzew decyzyjnych, na przykład entropia i przyrost informacji.
Entropia:
W uczeniu maszynowym entropia to proporcja nieprawidłowości lub podatności w zbiorze danych. Jest powszechnie stosowany jako miara zanieczyszczeń w algorytmach drzew decyzyjnych, obok indeksu Giniego.
W algorytmach drzew decyzyjnych entropia służy do wybierania najlepszego komponentu do podziału danych w każdym węźle drzewa. Celem jest znalezienie pierwiastka powodującego największy spadek entropii, co odnosi się do składnika dostarczającego najwięcej informacji na temat problemu klasyfikacji.
Chociaż entropia i indeks Giniego są zwykle wykorzystywane jako miary zanieczyszczeń w algorytmach drzew decyzyjnych, mają one różne właściwości. Entropia jest bardziej delikatna dla obiegu nazw klas i ogólnie zapewnia bardziej dostosowane drzewa, podczas gdy Indeks Giniego jest mniej drażliwy w przypadku zawłaszczania ocen klas i ogólnie tworzy bardziej ograniczone drzewa z mniejszą liczbą podziałów. Decyzja dotycząca miary zanieczyszczenia opiera się na konkretnym problemie i atrybutach danych.
Zysk informacji:
Zysk informacji to działanie wykorzystywane do oceny charakteru podziału podczas budowania drzewa decyzyjnego. Celem drzewa decyzyjnego jest podzielenie danych na podzbiory, które są w zasadzie tak jednorodne, jak to tylko możliwe, jak w przypadku zmiennej obiektywnej, tak aby kolejne drzewo można było wykorzystać do określenia dokładnych oczekiwań co do nowych danych. Zysk informacji mierzy spadek entropii lub zanieczyszczeń osiągnięty przez podział. Cecha o największym zysku informacyjnym jest wybierana jako najlepsza cecha do podziału w każdym węźle drzewa decyzyjnego.
Zysk informacji jest zwykle stosowaną miarą oceny charakteru podziałów w drzewach decyzyjnych, ale nie na tym należy się skupiać. Można również zastosować różne miary, na przykład wskaźnik Giniego lub współczynnik błędnych klasyfikacji. Decyzja o podstawie podziału opiera się na głównym problemie i atrybutach wykorzystywanego zbioru danych.
Przykład indeksu Giniego
Powinniśmy rozważyć kwestię klasyfikacji binarnej, w której mamy zbiór danych składający się z 10 przykładów z dwiema klasami: „Pozytywną” i „Negatywną”. Z 10 przykładów 6 ma miejsce w klasie „Positive”, a 4 mają miejsce w klasie „Negatywna”.
Aby obliczyć indeks Giniego zbioru danych, początkowo obliczamy prawdopodobieństwo każdej klasy:
p_1 = 6/10 = 0,6 (dodatni)
p_2 = 4/10 = 0,4 (ujemny)
Następnie w tym momencie korzystamy ze wzoru na indeks Giniego, aby obliczyć zanieczyszczenie zbioru danych:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Zatem indeks Giniego zbioru danych wynosi 0,48.
Załóżmy teraz, że musimy podzielić zbiór danych na element „X”, który ma dwie potencjalne wartości: „A” i „B”. Ze względu na komponent dzielimy zbiór danych na dwa podzbiory:
Podzbiór 1 (X = A): 4 pozytywne, 1 negatywne
Podzbiór 2 (X = B): 2 dodatnie, 3 ujemne
Aby obliczyć spadek Indeksu Giniego dla tego podziału, początkowo obliczamy Indeks Giniego każdego podzbioru:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Następnie korzystamy ze wzoru na przyrost informacji, aby obliczyć spadek Indeksu Giniego:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Zatem zysk informacji (tj. zmniejszenie indeksu Giniego) w przypadku podziału zbioru danych na wyróżnienie „X” wynosi 0,08.
W tej sytuacji, jeśli obliczymy zysk informacyjny dla wszystkich elementów i wybierzemy ten, który ma najbardziej znaczący zysk informacyjny, komponent ten zostanie wybrany jako najlepszy komponent do podziału w węźle głównym drzewa decyzyjnego.
Zalety:
Indeks Giniego jest szeroko stosowaną miarą służącą do oceny charakteru podziałów w drzewach decyzyjnych i ma kilka przewag nad różnymi miarami, na przykład entropią lub współczynnikiem błędnej klasyfikacji. Oto część głównych zalet stosowania indeksu Giniego:
potrójna zima
Wydajne obliczeniowo: Indeks Giniego jest mniej złożoną i szybszą obliczeniowo miarą w porównaniu z innymi miarami, na przykład entropią, która polega na obliczaniu logarytmów.
Intuicyjna interpretacja: Indeks Giniego jest prosty i interpretowany. Mierzy prawdopodobieństwo, że przypadkowo wybrany przykład ze zbioru zostanie błędnie sklasyfikowany w przypadku, gdy został on przypadkowo oznaczony zgodnie z przekazem klasowym w zestawie.
Dobre do klasyfikacji binarnej: Indeks Giniego jest szczególnie przydatny w przypadku problemów klasyfikacji binarnej, gdzie zmienna obiektywna ma tylko dwie klasy. W takich przypadkach wiadomo, że wskaźnik Giniego jest bardziej stabilny niż inne miary.
Odporny na brak równowagi klasowej: Indeks Giniego jest mniej wrażliwy na nierównowagę klas w porównaniu z różnymi miarami, na przykład precyzją lub współczynnikiem błędnych klasyfikacji. Dzieje się tak na tej podstawie, że indeks Giniego zależy od ogólnego zakresu przykładów w każdej klasie, a nie od całkowitych liczb.
Mniej podatne na nadmierne dopasowanie: Indeks Giniego generalnie tworzy skromniejsze drzewa decyzyjne w porównaniu z różnymi miarami, co czyni go mniej podatnym na nadmierne dopasowanie. Dzieje się tak na tej podstawie, że indeks Giniego będzie ogólnie faworyzował cechy, które tworzą skromniejsze partie danych, co zmniejsza ryzyko nadmiernego dopasowania.
Niedogodności:
Chociaż indeks Giniego ma kilka zalet jako miara podziału drzew decyzyjnych, ma również kilka wad. Oto część głównych wad stosowania indeksu Giniego:
Skłonność do funkcji z wieloma kategoriami: Indeks Giniego będzie generalnie skłaniał się ku cechom o wielu kategoriach lub wartościach, ponieważ może powodować więcej podziałów i porcji danych. Może to spowodować nadmierne dopasowanie i bardziej skomplikowane drzewo decyzyjne.
Niedobre dla zmiennych ciągłych: Indeks Giniego nie jest odpowiedni dla zmiennych ciągłych, ponieważ wymaga dyskretyzacji zmiennej na kategorie lub pojemniki, co może spowodować utratę informacji i zmniejszenie dokładności.
Ignoruje interakcje funkcji: Indeks Giniego uwzględnia jedynie indywidualną siłę proroczą każdej cechy i ignoruje interakcje pomiędzy cechami. Może to powodować słabe podziały i mniej dokładne prognozy.
Nie jest to rozwiązanie idealne dla niektórych zbiorów danych: czasami indeks Giniego może nie być idealną miarą oceny charakteru podziałów w drzewie decyzyjnym. Na przykład w przypadku, gdy zmienna obiektywna jest wyjątkowo nachylona lub niezrównoważona, bardziej odpowiednie mogą być inne miary, na przykład przyrost informacji lub proporcja wzmocnienia.
Podatny na stronniczość w przypadku brakujących wartości: Indeks Giniego może być obciążony w obecności brakujących wartości, ponieważ generalnie będzie skłaniał się ku cechom z mniejszą liczbą brakujących wartości, niezależnie od tego, czy nie dostarczają one najwięcej informacji.
Zastosowania indeksu Giniego w świecie rzeczywistym
Indeks Giniego był wykorzystywany w różnych zastosowaniach uczenia maszynowego, na przykład w lokalizacji wyłudzeń, punktacji kredytowej i podziale klientów. Na przykład przy wykrywaniu wyłudzeń indeks Giniego można wykorzystać do rozróżnienia projektów w danych wymiany i rozpoznania dziwacznego sposobu zachowania. W ocenie zdolności kredytowej Indeks Giniego można wykorzystać do przewidywania prawdopodobieństwa niewykonania zobowiązania na podstawie zmiennych takich jak dochód, stosunek niespłaconego zadłużenia do wynagrodzenia domowego oraz historia spłaty pożyczki. W dziale klientów Indeks Giniego można wykorzystać do grupowania klientów ze względu na ich zachowanie i skłonności.
Przyszłe badania
Pomimo jego nieograniczonego zastosowania w algorytmach drzew decyzyjnych, nadal istnieje stopień badań nad Indeksem Giniego. Jednym z obszarów badań jest rozwój nowych miar zanieczyszczeń, które mogą wyeliminować ograniczenia Indeksu Giniego, takie jak jego skłonność do czynników o wielu poziomach. Kolejnym obszarem badań jest usprawnianie algorytmów drzew decyzyjnych z wykorzystaniem Indeksu Giniego, na przykład wykorzystanie technik outfitowych do pracy nad precyzją drzew decyzyjnych.
Wniosek
Indeks Giniego jest znaczącą miarą zanieczyszczeń wykorzystywaną w algorytmach drzew decyzyjnych do zadań klasyfikacyjnych. Mierzy prawdopodobieństwo, że losowo wybrany test zostanie błędnie sklasyfikowany przez algorytm drzewa decyzyjnego, a jego wartość zmienia się od 0 (idealnie czysty) do 1 (idealnie nieczysty). Indeks Giniego jest prosty i skuteczny, wydajny obliczeniowo i skuteczny w przypadku wyjątków. Wykorzystywano go w różnych zastosowaniach uczenia maszynowego, na przykład w wykrywaniu fałszywych informacji, punktacji kredytowej i podziale klientów. Chociaż Indeks Giniego ma kilka ograniczeń, nadal istnieje potrzeba badań nad jego udoskonaleniem i udoskonaleniem nowych miar zanieczyszczeń.