W ostatnich latach głębokie uczenie zmieniło pole widzenia komputerowego, umożliwiając komputerom postrzeganie i odczytywanie informacji wizualnych na niezwykłym poziomie. Kluczowy wpływ na tę zmianę miały zastosowania konwolucyjnych sieci neuronowych (CNN), a na czele znalazło się kilka przełomowych projektów. Dwie najbardziej wpływowe struktury CNN to AlexNet i GoogleNet (InceptionNet). Obydwa modele łącznie przyczyniły się do postępu w zadaniach klasyfikacji obrazów, jednak kontrastują pod względem struktury i zasad projektowania. W tym artykule przyjrzymy się zasadniczym różnicom pomiędzy AlexNet i GoogleNet, badając ich strukturę, decyzje projektowe i wykonanie.
Główne różnice między AlexNet i GoogleNet
Funkcja | AlexNet | GoogleNet (Incepcja V3) |
---|---|---|
Rok wydania / wprowadzenia | 2012 | 2014 |
Liczba warstw w modelu | 8 (5 splotów, 3 FC) | 159 (w tym pomocnicza) |
Architektura | Sekwencyjny | Wiele oddziałów (początek) |
Rozmiar splotu | Większe filtry (11x11, 5x5) | Mniejsze filtry (1x1, 3x3, 5x5) |
Łączenie warstw | Maksymalne łączenie | Maksymalne i średnie łączenie |
Funkcja aktywacji | wznawiać | ReLU i inne odmiany |
Normalizacja odpowiedzi lokalnej (LRN) | Używany | Nieużywany |
Moduły początkowe | Nieużywany | Używany z wieloma wieloma gałęziami |
Wydajność obliczeniowa | Umiarkowany | Wyższy |
Złożoność modelu | Niski | Wysoki |
Dokładność na najwyższym poziomie (ImageNet) | 0,571 | 0,739 |
Co to jest AlexNet?
AlexNet to godna uwagi architektura splotowej sieci neuronowej (CNN) stworzona przez Alexa Krizhevsky'ego, Ilyę Sutskever i Geoffreya Hintona. Został wprowadzony w 2012 r. i poczynił znaczne postępy w konkursie ImageNet Large Scope Visual Recognition Challenge (ILSVRC), zasadniczo pokonując różne metodologie. AlexNet był głównym CNN, który pokazał wykonalność głębokiego uczenia się w przypadku zadań związanych z porządkowaniem obrazów, co oznacza decydujący moment w dziedzinie widzenia komputerowego.
1. Architektura
Wydany w 2012 r. kanał AlexNet był czołową stacją CNN, która zwyciężyła w konkursie ImageNet Large Scope Visual Recognition Challenge (ILSVRC) z krytycznym miejscem na błędy. Składa się z pięciu warstw splotowych, po których następują trzy całkowicie powiązane warstwy. Wykorzystanie aktywacji ReLU (Redressed Direct Unit) i standaryzacja reakcji sąsiedztwa (LRN) przyczyniły się do jego dobrobytu. AlexNet dodatkowo przedstawił pomysł zaangażowania procesorów graficznych w przygotowania, co całkowicie przyspieszyło rozwój doświadczenia.
2. Głębokość sieci:
Dzięki ośmiu warstwom (pięć warstw splotowych i trzy całkowicie powiązane) sieć AlexNet w momencie prezentacji była uważana za głęboką. Niezależnie od tego, w porównaniu z obecnymi projektami, jest ogólnie płytki, co ogranicza jego zdolność do wychwytywania zadziwiających elementów i przykładów w niezwykle złożonych zbiorach danych.
3. Wydajność obliczeniowa:
Chociaż prezentacja AlexNet na temat przygotowania GPU przyspieszyła naukę, była ona nadal kosztowna obliczeniowo ze względu na głębsze, całkowicie powiązane warstwy i ograniczone wykorzystanie równoległości.
4. Nadmierne dopasowanie:
zajebisty język
Ze względu na umiarkowanie płytką konstrukcję i ogromną liczbę granic AlexNet był bardziej podatny na nadmierne dopasowanie, szczególnie w przypadku skromniejszych zbiorów danych. Później wprowadzono strategie takie jak rezygnacja z nauki, mające na celu złagodzenie tego problemu.
5. Szkolenie:
Do szkolenia AlexNet twórcy wykorzystali zbiór danych ImageNet, który zawiera ponad 1 000 000 nazwanych obrazów z 1000 klasyfikacji. Do obliczenia poprawy wykorzystali stochastyczny spadek kąta (SGD) z energią. Podczas szkolenia zastosowano metody poszerzania informacji, takie jak dowolna edycja i odwracanie, aby zwiększyć rozmiar zbioru danych szkoleniowych i dalej rozwijać uogólnianie.
Zażądano systemu szkoleniowego, a wykorzystanie procesorów graficznych przez AlexNet w celu zapewnienia równej obsługi okazało się niezbędne. Szkolenie AlexNet w oparciu o platformę z dwoma procesorami graficznymi wymagało około siedmiu dni, co stanowiło krytyczną poprawę w porównaniu ze zwykłymi czasami szkolenia opartymi na procesorach komputerowych.
6. Wyniki:
W rywalizacji ImageNet 2012 firma AlexNet osiągnęła godne uwagi tempo popełniania błędów w pierwszej piątce wynoszące około 15,3%, w przeważającej mierze pokonując różne metodologie.
Wyniki projektu AlexNet zapoczątkowały powódź zainteresowania głębokim uczeniem się i sieciami CNN, powodując zmianę w koncentracji lokalnego obszaru widzenia komputerowego w kierunku dodatkowych skomplikowanych i głębszych sieci neuronowych.
7. Konfiguracja warstwy splotowej:
Warstwy splotowe w AlexNet są zorganizowane w podstawową kolejność, z okresowymi warstwami maksymalnego łączenia w celu próbkowania w dół. Ta przejrzysta inżynieria była w tamtym momencie doniosła, ale ograniczała zdolność organizacji do wychwytywania złożonych, postępowych elementów.
8. Zmniejszenie wymiarowości:
AlexNet obejmuje maksymalne łączenie warstw w celu próbkowania w dół, zmniejszając komponenty przestrzenne map elementów. Pomaga to w zmniejszeniu wagi obliczeniowej i kontrolowaniu nadmiernego dopasowania.
9. Rozmiar i złożoność modelu:
Chociaż w tamtym momencie AlexNet był postrzegany jako głęboki, w porównaniu z późniejszymi projektami jest nieco skromniejszy i mniej skomplikowany. Ta prostota uczyniła sprawę bardziej oczywistą i wykonalną.
10. Wykorzystanie klasyfikatorów pomocniczych:
Aby rozwiązać problem kątów parowania podczas przygotowania, AlexNet przedstawił pomysł klasyfikatorów pomocniczych. Te dodatkowe klasyfikatory połączono z warstwami umiarkowanymi i podczas propagacji wstecznej nadawały znaki kąta warstwom poprzedzającym.
11. Wpływ na kierunek badań:
Wynik AlexNet oznaczał ogromną zmianę w dziedzinie widzenia komputerów osobistych. Zachęciło to naukowców do zbadania możliwości głębokiego uczenia się na potrzeby różnych zadań związanych z obrazami, co skłoniło do szybkiego udoskonalenia dalej rozwijanych projektów CNN.
wyloguj się z konta Google na Androidzie
Co to jest GoogleNet?
GoogleNet, inaczej nazywany Inception v1, to architektura CNN stworzona przez grupę Google Brain, zwłaszcza przez Christiana Szegedy'ego, Wei Liu i innych. Został wprowadzony w 2014 roku i zdobył nagrodę ILSVRC dzięki udoskonalonej precyzji i produktywności obliczeniowej. Architekturę GoogleNet charakteryzuje głęboka konstrukcja, która składa się z 22 warstw, co czyni ją jedną z pierwszych „wyjątkowo głębokich” sieci CNN.
1. Architektura
rozmiar czcionki, lateks
GoogleNet (Inception v1): zaprezentowany w 2014 r. GoogleNet jest niezbędny dla grupy Inception CNN. Znany jest z głębokiej konstrukcji obejmującej 22 warstwy (moduły początkowe). Najważniejszym rozwinięciem GoogleNet jest moduł początkowy, który uwzględnia równe sploty różnych rozmiarów kanałów w podobnej warstwie. Zmniejszyło to złożoność obliczeniową przy jednoczesnym zachowaniu precyzji, dzięki czemu GoogleNet jest skuteczniejszy niż AlexNet.
2. Głębokość sieci:
Moduły początkowe GoogleNet są uważane za zasadniczo głębszy projekt bez zwiększania kosztów obliczeniowych. Dzięki 22 warstwom GoogleNet był jedną z głównych sieci CNN, która pokazała korzyści płynące z rozszerzonej głębi sieci, co spowodowało dalszy rozwój dokładności i mocy.
3. Wydajność obliczeniowa:
Moduły początkowe w GoogleNet są uważane za bardziej produktywne wykorzystanie zasobów obliczeniowych. Wykorzystując równe sploty w każdym bloku początkowym, GoogleNet zmniejszył liczbę granic i obliczeń, czyniąc go łatwiejszym w przypadku ciągłych aplikacji i przenoszenia na gadżetach wymagających dużych zasobów.
4. Nadmierne dopasowanie:
Głęboka, ale skuteczna konstrukcja GoogleNet zasadniczo ograniczyła nadmierne dopasowanie, umożliwiając mu lepsze działanie na skromniejszych zbiorach danych i usprawniając sytuacje edukacyjne.
5. Szkolenie:
Szkolenie GoogleNet dodatkowo omawia wykorzystanie zbioru danych ImageNet, a procedury zwiększania porównywalnych informacji zostały wykorzystane w celu zwiększenia uogólnienia. Tak czy inaczej, ze względu na głębszą architekturę GoogleNet wymagał podczas szkolenia większej liczby zasobów obliczeniowych niż AlexNet.
Rozwój modułów początkowych umożliwił GoogleNet znalezienie pewnego rodzaju harmonii pomiędzy głębią a efektywnością obliczeniową. Równe sploty wewnątrz każdego bloku początkowego łącznie zmniejszyły liczbę obliczeń i granic, dzięki czemu trening stał się bardziej osiągalny i skuteczny.
6. Wyniki:
GoogleNet osiągnął świetne tempo popełniania błędów w pierwszej piątce, wynoszące około 6,67% w konkursie ImageNet 2014, przewyższając prezentację AlexNet.
Głęboka, ale wydajna architektura GoogleNet wykazała możliwości głębszych sieci neuronowych, jednocześnie dotrzymując kroku osiągalności obliczeniowej, dzięki czemu była bardziej wciągająca w prawdziwych zastosowaniach.
7. Konfiguracja warstwy splotowej:
GoogleNet przedstawił pomysł modułów początkowych, które składają się z wielu równych warstw splotowych o różnej wielkości kanałów. Plan ten umożliwia GoogleNet wychwytywanie najważniejszych wydarzeń w różnej skali i ogólnie wpływa na zdolność organizacji do usuwania znaczących elementów z różnych stopni namysłu.
8. Zmniejszenie wymiarowości:
niezależnie od zwyczajowego łączenia maksymalnych wartości, GoogleNet wykorzystuje metody zmniejszania wymiarowości, takie jak sploty 1x1. Te skromniejsze sploty są mniej eskalowane obliczeniowo i pomagają w zmniejszeniu liczby elementów przy jednoczesnej ochronie podstawowych danych.
9. Rozmiar i złożoność modelu:
Moduły źródłowe GoogleNet zapewniają głębszy projekt z zasadniczo większą liczbą warstw i granic. Ta złożoność, oferując jednocześnie większą precyzję, może również sprawić, że organizacja będzie musiała przeprowadzić więcej testów w celu przygotowania i kalibracji.
Architektura 32-bitowa vs 64-bitowa
10. Wykorzystanie klasyfikatorów pomocniczych:
GoogleNet udoskonalił koncepcję klasyfikatorów asystentów, włączając je do modułów inicjujących. Te asystenty klasyfikatorów przyspieszają przygotowanie głębszych warstw i ulepszają strumień kątowy, zapewniając bardziej stabilne i skuteczne przygotowanie.
11. Wpływ na kierunek badań:
Początkowe moduły GoogleNet prezentowały możliwość efektywnej ekstrakcji komponentów w różnych skalach. Pomysł ten wpłynął na plan powstałych projektów, umożliwiając analitykom skupienie się na zwiększaniu głębi organizacji i produktywności obliczeniowej, przy jednoczesnym dotrzymywaniu kroku precyzji lub dalszemu jej rozwijaniu.
Wniosek
Zarówno AlexNet, jak i GoogleNet trwale wpływają na dziedzinę widzenia komputerowego i głębokiego uczenia się. AlexNet pokazał możliwości sieci CNN w zakresie zadań związanych z rozpoznawaniem obrazu i przygotował je na przyszłe postępy. Z drugiej strony GoogleNet przedstawił ideę modułów pochodzenia, przygotowując je do bardziej efektywnych i głębszych struktur CNN.
Chociaż AlexNet i GoogleNet mają swoje szczególne zalety, od czasu ich prezentacji dziedzina głębokiego uczenia się zasadniczo się rozwinęła. Współczesne projekty, takie jak ResNet, DenseNet i EfficientNet, dodatkowo przesunęły granice dokładności, produktywności i uogólnienia. W miarę jak analitycy kontynuują ulepszanie i rozszerzanie tych podstawowych modeli, losy wizji komputerowej niosą ze sobą znacznie większe zaangażowanie i dodatkowe intrygujące perspektywy.