logo

Test chi-kwadrat w R

The test chi-kwadrat niezależności ocenia, czy istnieje związek pomiędzy kategoriami dwóch zmiennych. Zasadniczo istnieją dwa typy zmiennych losowych, które dostarczają dwóch rodzajów danych: numerycznych i kategorycznych. W Język programowania R Statystyka chi-kwadrat służy do badania, czy rozkłady zmiennych kategorycznych różnią się od siebie. Test chi-kwadrat jest również przydatny przy porównywaniu wyników lub liczby odpowiedzi kategorycznych pomiędzy dwiema (lub większą liczbą) niezależnych grup.

W języku programowania R funkcją używaną do wykonywania testu chi-kwadrat jest chisq.test()> .



Składnia:

chisq.test(dane)

javascript najbliżej

Parametry:



dane : dane to tabela zawierająca wartości liczbowe zmiennych w tabeli.

Dane z ankiety pobierzemy w formacie MASS> bibliotekę, która reprezentuje dane z ankiety przeprowadzonej wśród studentów.

R






# load the MASS package> library>(MASS)> print>(>str>(survey))>

>

>

para Java

Wyjście:

'data.frame': 237 obs. of 12 variables:  $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ...  $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ...  $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ...  $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ...  $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ...  $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ...  $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ...  $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ...  $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ...  $ Height: num 173 178 NA 160 165 ...  $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ...  $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>

Powyższy wynik pokazuje, że zbiór danych zawiera wiele zmiennych czynnikowych, które można uznać za zmienne kategoryczne. W naszym modelu rozważymy zmienne Ćwicz I Palić Kolumna Dym rejestruje nawyki palenia uczniów, natomiast kolumna Exer rejestruje ich poziom ćwiczeń. Naszym celem jest sprawdzenie hipotezy, czy nawyk palenia tytoniu przez uczniów jest niezależny od poziomu wysiłku fizycznego, na poziomie istotności 0,05.

R




# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)>

>

>

Wyjście:

 Freq None Some  Heavy 7 1 3  Never 87 18 84  Occas 12 3 4  Regul 9 1 7>

I na koniec stosujemy chisq.test()> funkcję do tabeli kontyngencji stu_data.

R




tworzenie list w Javie
# applying chisq.test() function> print>(>chisq.test>(stu_data))>

>

>

Wyjście:

 Pearson's Chi-squared test  data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>

Ponieważ wartość p 0,4828 jest większa niż 0,05, dochodzimy do wniosku, że nawyk palenia jest niezależny od poziomu wysiłku fizycznego ucznia, w związku z czym istnieje słaba korelacja między obiema zmiennymi lub nie ma jej wcale. Pełny kod R podano poniżej.

Podsumowując, można powiedzieć, że bardzo łatwo jest wykonać test Chi-kwadrat za pomocą R. Można to zadanie wykonać za pomocą chisq.test()> funkcja w R.

Wizualizuj dane testu chi-kwadrat

R


if-else Java



# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))>

>

>

Wyjście:

gh

Test chi-kwadrat w R

W tym kodzie używamyMASS>bibliotekę do przeprowadzenia testu Chi-Square na zbiorze danych z „ankiety”, koncentrując się na związku między nawykami palenia a poziomem ćwiczeń.

Tworzy tabelę kontyngencji, przeprowadza test statystyczny i wizualizuje dane za pomocą wykresu słupkowego. Legenda jest dodawana osobno w lewym górnym rogu, rozróżniając różne nawyki palenia za pomocą różnych kolorów.

Celem kodeksu jest zbadanie i przedstawienie powiązań pomiędzy zachowaniami związanymi z paleniem a praktykami fizycznymi w ramach zbioru danych.