logo

Algorytm Aprioriego

Algorytm Apriori odnosi się do algorytmu używanego do obliczania reguł asocjacji między obiektami. Oznacza to, jak dwa lub więcej obiektów jest ze sobą powiązanych. Innymi słowy, możemy powiedzieć, że algorytm apriori opiera się na regułach skojarzeń, które analizują, że osoby, które kupiły produkt A, kupiły również produkt B.

Podstawowym celem algorytmu apriori jest utworzenie reguły asocjacji pomiędzy różnymi obiektami. Reguła asocjacji opisuje, w jaki sposób dwa lub więcej obiektów jest ze sobą powiązanych. Algorytm Apriori nazywany jest także częstym eksploracją wzorców. Ogólnie rzecz biorąc, algorytm Apriori działa na bazie danych składającej się z ogromnej liczby transakcji. Przyjrzyjmy się algorytmowi apriori na przykładzie; załóżmy, że idziesz na Wielki Bazar i kupujesz różne produkty. Pomaga klientom w łatwym zakupie produktów i zwiększa wydajność sprzedaży Wielkiego Bazaru. W tym samouczku omówimy algorytm apriori na przykładach.

Wstęp

Bierzemy przykład, aby lepiej zrozumieć tę koncepcję. Zapewne zauważyłeś, że sprzedawca w pizzerii przygotowuje razem pizzę, napój bezalkoholowy i paluszki chlebowe. Oferuje również zniżki swoim klientom, którzy kupują te kombinacje. Czy zastanawiałeś się kiedyś dlaczego to robi? Uważa, że ​​klienci kupujący pizzę kupują także napoje bezalkoholowe i paluszki chlebowe. Jednak tworząc kombinacje, ułatwia to klientom. Jednocześnie zwiększa także swoje wyniki sprzedażowe.

subskrypcja lazurowa

Podobnie udasz się do Wielkiego Bazaru, gdzie znajdziesz ciastka, chipsy i czekoladę w pakiecie. Pokazuje to, że sprzedawca zapewnia klientom wygodę zakupu tych produktów w tym samym miejscu.

Powyższe dwa przykłady są najlepszymi przykładami Reguł Stowarzyszenia w

  • Wsparcie
  • Zaufanie
  • Winda
  • Weźmy przykład, aby zrozumieć tę koncepcję.

    Omówiliśmy już powyżej; potrzebujesz ogromnej bazy danych zawierającej dużą liczbę transakcji. Załóżmy, że masz 4000 transakcji klientów na Wielkim Bazarze. Musisz obliczyć wsparcie, pewność siebie i wzrost dla dwóch produktów i możesz powiedzieć Ciastka i Czekolada. Dzieje się tak dlatego, że klienci często kupują te dwa produkty razem.

    Spośród 4000 transakcji 400 zawiera ciastka, 600 zawiera czekoladę, a te 600 transakcji obejmuje 200 obejmujących ciastka i czekoladki. Korzystając z tych danych, dowiemy się, jakie jest wsparcie, pewność siebie i siła nośna.

    Wsparcie

    Wsparcie odnosi się do domyślnej popularności dowolnego produktu. Wsparcie znajdziesz jako iloraz podziału liczby transakcji składających się na ten produkt przez całkowitą liczbę transakcji. Stąd otrzymujemy

    Wsparcie (Ciasteczka) = (Transakcje dotyczące ciastek) / (Transakcje ogółem)

    = 400/4000 = 10 procent.

    Zaufanie

    Zaufanie odnosi się do możliwości, że klienci kupili jednocześnie ciastka i czekoladki. Aby uzyskać pewność, należy zatem podzielić liczbę transakcji obejmujących zarówno ciastka, jak i czekoladki przez całkowitą liczbę transakcji.

    Stąd,

    Zaufanie = (Transakcje dotyczące zarówno ciastek, jak i czekolady) / (Łącznie transakcje dotyczące ciastek)

    = 200/400

    = 50 procent.

    Oznacza to, że 50 procent klientów kupujących ciastka kupowało także czekoladki.

    Winda

    Rozważ powyższy przykład; winda oznacza wzrost wskaźnika sprzedaży czekoladek w przypadku sprzedaży ciastek. Poniżej podano matematyczne równania siły nośnej.

    Wzrost = (Zaufanie (Ciasteczka - Czekoladki)/ (Wsparcie (Ciasteczka)

    = 50/10 = 5

    Oznacza to, że prawdopodobieństwo, że ludzie kupią razem ciastka i czekoladki, jest pięciokrotnie większe niż w przypadku zakupu samych ciastek. Jeśli wartość wzrostu jest niższa od jedności, oznacza to, że jest mało prawdopodobne, aby ludzie kupili oba produkty razem. Im większa wartość, tym lepsza kombinacja.

    Jak działa algorytm Apriori w eksploracji danych?

    Algorytm ten zrozumiemy na przykładzie

    Rozważmy scenariusz Wielkiego Bazaru, w którym zestaw produktów to P = {ryż, rośliny strączkowe, olej, mleko, jabłko}. Baza zawiera sześć transakcji, gdzie 1 oznacza obecność produktu, a 0 oznacza brak produktu.

    Identyfikator transakcji Ryż Puls Mleko olejowe Jabłko
    t1 1 1 1 0 0
    t2 0 1 1 1 0
    t3 0 0 0 1 1
    t4 1 1 0 1 0
    t5 1 1 1 0 1
    t6 1 1 1 1 1

    Algorytm Apriori przyjmuje podane założenia

    zmień nazwę katalogu w systemie Linux
    • Wszystkie podzbiory częstego zbioru elementów muszą być częste.
    • Podzbiory rzadkiego zestawu elementów muszą być rzadkie.
    • Napraw próg poziomu wsparcia. W naszym przypadku ustaliliśmy to na 50 procent.

    Krok 1

    Zrób tabelę częstości wszystkich produktów pojawiających się we wszystkich transakcjach. Teraz skróć tabelę częstotliwości, aby dodać tylko te produkty, których próg wsparcia wynosi ponad 50 procent. Znajdujemy podaną tabelę częstości.

    Produkt Częstotliwość (liczba transakcji)
    Ryż (R) 4
    Impuls (P) 5
    Olej (O) 4
    Mleko (M) 4

    W powyższej tabeli wskazano produkty najczęściej kupowane przez klientów.

    Krok 2

    Twórz pary produktów takie jak RP, RO, RM, PO, PM, OM. Otrzymasz podaną tabelę częstotliwości.

    Zestaw przedmiotów Częstotliwość (liczba transakcji)
    RP 4
    RO 3
    RM 2
    PO 4
    PO POŁUDNIU 3
    O 2

    Krok 3

    Wdrażając ten sam próg wsparcia na poziomie 50 proc. i uwzględniamy produkty, które stanowią ponad 50 proc. W naszym przypadku jest to więcej niż 3

    W ten sposób otrzymujemy RP, RO, PO i PM

    Krok 4

    Teraz poszukaj zestawu trzech produktów, które klienci kupują razem. Otrzymujemy podaną kombinację.

    1. RP i RO dają RPO
    2. PO i premier dają POM

    Krok 5

    Oblicz częstotliwość dwóch zbiorów elementów, a otrzymasz podaną tabelę częstości.

    vba
    Zestaw przedmiotów Częstotliwość (liczba transakcji)
    RPO 4
    POM 3

    Jeśli zastosujesz założenie progowe, możesz dowiedzieć się, że zestaw trzech produktów klientów to RPO.

    Rozważaliśmy łatwy przykład do omówienia algorytmu apriori w eksploracji danych. W rzeczywistości można znaleźć tysiące takich kombinacji.

    Jak poprawić efektywność Algorytmu Apriori?

    Istnieją różne metody sprawdzania wydajności algorytmu Apriori

    Liczenie zestawów elementów w oparciu o skrót

    W przypadku liczenia zestawów elementów w oparciu o hash należy wykluczyć zestaw k-elementów, którego równoważna liczba segmentów mieszania jest mniejsza niż próg, jest to rzadki zestaw elementów.

    Redukcja transakcji

    W przypadku redukcji transakcji transakcja nie obejmująca żadnego częstego zestawu pozycji X staje się niewartościowa w kolejnych skanach.

    Algorytm Apriori w eksploracji danych

    Omówiliśmy już przykład algorytmu apriori związanego z częstym generowaniem zestawu pozycji. Algorytm Apriori ma wiele zastosowań w eksploracji danych.

    Podstawowe wymagania dotyczące znajdowania reguł asocjacji w eksploracji danych podano poniżej.

    Użyj brutalnej siły

    Przeanalizuj wszystkie reguły i znajdź poziomy wsparcia i zaufania dla poszczególnych reguł. Następnie wyeliminuj wartości mniejsze niż progowe poziomy wsparcia i ufności.

    numpy sumowanie

    Podejścia dwuetapowe

    Podejście dwuetapowe jest lepszą opcją znalezienia reguł skojarzeń niż metoda Brute Force.

    Krok 1

    W tym artykule omówiliśmy już, jak utworzyć tabelę częstości i obliczyć zbiory elementów mające większą wartość wsparcia niż wsparcie progowe.

    Krok 2

    Aby utworzyć reguły asocjacji, musisz użyć binarnej partycji częstych zestawów elementów. Musisz wybrać te, które mają najwyższy poziom pewności.

    W powyższym przykładzie widać, że częstym zestawem elementów była kombinacja RPO. Teraz poznajemy wszystkie zasady korzystania z RPO.

    RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

    Jak widać, istnieje sześć różnych kombinacji. Dlatego jeśli masz n elementów, będzie 2N- 2 zasady stowarzyszenia kandydatów.

    Zalety algorytmu Apriori

    • Służy do obliczania dużych zestawów elementów.
    • Proste do zrozumienia i zastosowania.

    Wady algorytmów Apriori

    • Algorytm Apriori jest kosztowną metodą znalezienia wsparcia, ponieważ obliczenia muszą przejść przez całą bazę danych.
    • Czasami potrzebna jest ogromna liczba reguł kandydujących, co staje się kosztowniejsze obliczeniowo.