본문 바로가기

카테고리 없음

3과목 4장 정리

ㅇ 집락추출법, 층화추출법

ㅇ 연속형 확률변수 -> 실수전체구간
ㅇ 표본오차 -> 노원구에서 국민의 힘 지지
    비표본오차-> 걍 설문누락

ㅇ표본편의 -> 학교정책을 선생들에게 문의 (표본이 편향적) --> 확률화로 제거

ㅇ 명목척도 - 숫자, 순서척도 - 순서 , 구간척도 - 구간, 비율척도 - 비율 0의 절대의미 유





귀무가설 -> 남녀 평균키는 같다 (말도 안되는 가설 / p-value 일어날 확률 작을 수록 맞는 말

지수분포, 기하분포, 이항분포 예시 들어줘
지수분포: 지하철 to 지하철 시간 간격
기하분포: 동전 던지기에서 처음 앞면이 나올 때까지의 시행 횟수
  동전을 계속 던질 때 처음 앞면(성공)이 나올 때까지 던진 횟수는 기하분포
이항분포: 농구선수가 자유투 5번 중 성공하는 횟수
  자유투 성공률이 70%인 선수가 5번 던져서 몇 번 성공하는지의 확률 분포도 이항분포

**정리:**  
- **지수분포**: 사건과 사건 사이의 시간(예: 대기 시간, 고장 간격)
- **기하분포**: 처음 성공이 나올 때까지의 시행 횟수(예: 동전 던지기, 제품 검사)
- **이항분포**: 정해진 횟수 내에서 성공 횟수(예: 동전 던지기, 불량품 개수, 시험 합격자 수)

히스토그램은 표본이 많을수록 막대높이가 높아짐

10|
  5|
  0|-------------------  몸무게
      50-60 60-70 70~


데이터프레임 분석 내용 정리
데이터프레임을 분석할 때 흔히 나오는 주요 통계 지표(t, df, p-value, 95 percent confidence interval, mean of x)에 대해 각각의 의미와 해석 방법을 정리하면 다음과 같습니다.

| 용어                        | 의미 및 해석                                                                                 |
|-----------------------------|---------------------------------------------------------------------------------------------|
| t                           | 두 집단 평균 차이의 표준오차 대비 크기, t-분포를 따름                                      |
| df (자유도)                 | 자유롭게 변할 수 있는 값의 수, 분포와 임계값 결정에 영향                                    |
| p-value                     | 귀무가설이 참일 때 관측 결과가 우연히 나타날 확률, 작을수록 유의미한 차이                  |
| 95% confidence interval     | 모집단 평균이 포함될 95% 확률의 구간, 신뢰도와 정확도 판단에 사용                          |
| mean of x                   | 변수 x의 표본 평균, 데이터의 중심 경향                                                      |
| alternative hypothesis| 대립가설

---
이 다섯 가지 지표는 데이터프레임의 통계 분석 결과를 해석하고, 집단 간 차이의 유의성 및 신뢰도를 판단하는 데 핵심적으로 사용됩니다.



모분산의 추론




파레토그림
예를 들어, 한 달간 고객 불만 유형을 조사했더니 아래와 같은 결과가 나왔다고 가정합니다.
불만 유형    발생 건수
배송 지연       50
제품 불량       30
응대 불친절  10
기타            10
파레토그림에서는 ‘배송 지연’이 전체 불만의 절반을 차지함을 한눈에 볼 수 있고, 누적 백분율 꺾은선 그래프를 통해 상위 2~3개 항목이 전체 불만의 대부분을 차지함을 확인할 수 있습니다.


모수적 방법 v 비모수적 방법



이상값을 판단하는 하한선, 상한선으로 옳은 것
하한선, 상한선 --==>> (Q1-1.5*(Q3-Q1), Q3+1.5*(Q3-Q1))

스피어만 상관계수

 

피어슨 상관계수