그만큼 카이제곱 검정 독립성은 두 변수의 범주 사이에 연관성이 있는지 여부를 평가합니다. 기본적으로 두 가지 유형의 확률 변수가 있으며 숫자형과 범주형이라는 두 가지 유형의 데이터를 생성합니다. ~ 안에 R 프로그래밍 언어 카이제곱 통계는 범주형 변수의 분포가 서로 다른지 여부를 조사하는 데 사용됩니다. 카이제곱 검정은 두 개(또는 그 이상)의 독립적인 그룹 간의 범주형 응답의 집계 또는 개수를 비교할 때에도 유용합니다.
R 프로그래밍 언어에서 카이제곱 테스트를 수행하는 데 사용되는 함수는 다음과 같습니다. chisq.test()> .
통사론:
chisq.test(데이터)
매개변수:
데이터 : 데이터는 테이블에 있는 변수의 개수 값을 포함하는 테이블입니다.
우리는 설문 조사 데이터를 MASS> 학생들을 대상으로 실시한 설문조사의 데이터를 나타내는 도서관입니다.
아르 자형
마이리버켓
# load the MASS package> library>(MASS)> print>(>str>(survey))> |
>
문자열의 값
>
산출:
'data.frame': 237 obs. of 12 variables: $ Sex : Factor w/ 2 levels 'Female','Male': 1 2 2 2 2 1 2 1 2 2 ... $ Wr.Hnd: num 18.5 19.5 18 18.8 20 18 17.7 17 20 18.5 ... $ NW.Hnd: num 18 20.5 13.3 18.9 20 17.7 17.7 17.3 19.5 18.5 ... $ W.Hnd : Factor w/ 2 levels 'Left','Right': 2 1 2 2 2 2 2 2 2 2 ... $ Fold : Factor w/ 3 levels 'L on R','Neither',..: 3 3 1 3 2 1 1 3 3 3 ... $ Pulse : int 92 104 87 NA 35 64 83 74 72 90 ... $ Clap : Factor w/ 3 levels 'Left','Neither',..: 1 1 2 2 3 3 3 3 3 3 ... $ Exer : Factor w/ 3 levels 'Freq','None',..: 3 2 2 2 3 3 1 1 3 3 ... $ Smoke : Factor w/ 4 levels 'Heavy','Never',..: 2 4 3 2 2 2 2 2 2 2 ... $ Height: num 173 178 NA 160 165 ... $ M.I : Factor w/ 2 levels 'Imperial','Metric': 2 1 NA 2 2 1 1 2 2 2 ... $ Age : num 18.2 17.6 16.9 20.3 23.7 ... NULL>
위 결과는 데이터 세트에 범주형 변수로 간주될 수 있는 많은 요인 변수가 있음을 보여줍니다. 우리 모델에서는 변수를 고려할 것입니다. 엑서 그리고 연기 .Smoke 열은 학생들의 흡연 습관을 기록하고 Exer 열은 운동 수준을 기록합니다. 우리의 목표는 학생들의 흡연 습관이 운동 수준과 독립적인지 여부를 0.05 유의 수준에서 가설을 테스트하는 것입니다.
아르 자형
# Create a data frame from the main data set.> stu_data =>data.frame>(survey$Smoke,survey$Exer)> # Create a contingency table with the needed variables.> stu_data =>table>(survey$Smoke,survey$Exer)> > print>(stu_data)> |
>
Bash의 하위 문자열
>
산출:
Freq None Some Heavy 7 1 3 Never 87 18 84 Occas 12 3 4 Regul 9 1 7>
그리고 마지막으로 우리는 chisq.test()> 비상 테이블 stu_data에 대한 함수입니다.
아르 자형
# applying chisq.test() function> print>(>chisq.test>(stu_data))> |
>
정적 자바
>
산출:
Pearson's Chi-squared test data: stu_data X-squared = 5.4885, df = 6, p-value = 0.4828>
p-값 0.4828이 .05보다 크므로 흡연 습관은 학생의 운동 수준과 무관하므로 두 변수 사이에는 상관 관계가 약하거나 전혀 없다는 결론을 내립니다. 전체 R 코드는 다음과 같습니다.
따라서 요약하면 R을 사용하여 카이제곱 테스트를 수행하는 것은 매우 쉽다고 말할 수 있습니다. 이 작업은 다음을 사용하여 수행할 수 있습니다. chisq.test()> R의 함수
카이제곱 검정 데이터 시각화
아르 자형
# Load required library> library>(MASS)> # Print structure of the survey dataset> print>(>str>(survey))> # Create a data frame for smoking and exercise columns> stu_data <->data.frame>(survey$Smoke, survey$Exer)> stu_data <->table>(survey$Smoke, survey$Exer)> # Print the table> print>(stu_data)> # Perform the Chi-Square Test> chi_result <->chisq.test>(stu_data)> print>(chi_result)> # Visualize the data with a bar plot> barplot>(stu_data, beside =>TRUE>, col =>c>(>'lightblue'>,>'lightgreen'>),> >main =>'Smoking Habits vs Exercise Levels'>,> >xlab =>'Exercise Level'>, ylab =>'Number of Students'>)> # Add legend separately> legend>(>'center'>, legend =>rownames>(stu_data), fill =>c>(>'lightblue'>,>'lightgreen'>))> |
>
bash에서 if와 else
>
산출:

R의 카이제곱 테스트
이 코드에서는MASS>흡연 습관과 운동 수준 사이의 관계에 초점을 맞춘 '설문조사' 데이터세트에 대한 카이제곱 검정을 수행하는 도서관입니다.
분할표를 작성하고 통계 검정을 수행하며 막대 그래프를 사용하여 데이터를 시각화합니다. 범례는 왼쪽 상단에 별도로 추가되어 다양한 흡연 습관을 뚜렷한 색상으로 구분합니다.
이 코드는 데이터 세트 내에서 흡연 행동과 운동 관행 간의 연관성을 탐색하고 전달하는 것을 목표로 합니다.