ㅇ 집락추출법, 층화추출법
ㅇ 연속형 확률변수 -> 실수전체구간
ㅇ 표본오차 -> 노원구에서 국민의 힘 지지
비표본오차-> 걍 설문누락
ㅇ표본편의 -> 학교정책을 선생들에게 문의 (표본이 편향적) --> 확률화로 제거
ㅇ 명목척도 - 숫자, 순서척도 - 순서 , 구간척도 - 구간, 비율척도 - 비율 0의 절대의미 유
귀무가설 -> 남녀 평균키는 같다 (말도 안되는 가설 / p-value 일어날 확률 작을 수록 맞는 말
지수분포, 기하분포, 이항분포 예시 들어줘
지수분포: 지하철 to 지하철 시간 간격
기하분포: 동전 던지기에서 처음 앞면이 나올 때까지의 시행 횟수
동전을 계속 던질 때 처음 앞면(성공)이 나올 때까지 던진 횟수는 기하분포
이항분포: 농구선수가 자유투 5번 중 성공하는 횟수
자유투 성공률이 70%인 선수가 5번 던져서 몇 번 성공하는지의 확률 분포도 이항분포
**정리:**
- **지수분포**: 사건과 사건 사이의 시간(예: 대기 시간, 고장 간격)
- **기하분포**: 처음 성공이 나올 때까지의 시행 횟수(예: 동전 던지기, 제품 검사)
- **이항분포**: 정해진 횟수 내에서 성공 횟수(예: 동전 던지기, 불량품 개수, 시험 합격자 수)
히스토그램은 표본이 많을수록 막대높이가 높아짐
수
10|
5|
0|------------------- 몸무게
50-60 60-70 70~
데이터프레임 분석 내용 정리
데이터프레임을 분석할 때 흔히 나오는 주요 통계 지표(t, df, p-value, 95 percent confidence interval, mean of x)에 대해 각각의 의미와 해석 방법을 정리하면 다음과 같습니다.
| 용어 | 의미 및 해석 |
|-----------------------------|---------------------------------------------------------------------------------------------|
| t | 두 집단 평균 차이의 표준오차 대비 크기, t-분포를 따름 |
| df (자유도) | 자유롭게 변할 수 있는 값의 수, 분포와 임계값 결정에 영향 |
| p-value | 귀무가설이 참일 때 관측 결과가 우연히 나타날 확률, 작을수록 유의미한 차이 |
| 95% confidence interval | 모집단 평균이 포함될 95% 확률의 구간, 신뢰도와 정확도 판단에 사용 |
| mean of x | 변수 x의 표본 평균, 데이터의 중심 경향 |
| alternative hypothesis| 대립가설
---
이 다섯 가지 지표는 데이터프레임의 통계 분석 결과를 해석하고, 집단 간 차이의 유의성 및 신뢰도를 판단하는 데 핵심적으로 사용됩니다.
모분산의 추론
파레토그림
예를 들어, 한 달간 고객 불만 유형을 조사했더니 아래와 같은 결과가 나왔다고 가정합니다.
불만 유형 발생 건수
배송 지연 50
제품 불량 30
응대 불친절 10
기타 10
파레토그림에서는 ‘배송 지연’이 전체 불만의 절반을 차지함을 한눈에 볼 수 있고, 누적 백분율 꺾은선 그래프를 통해 상위 2~3개 항목이 전체 불만의 대부분을 차지함을 확인할 수 있습니다.
모수적 방법 v 비모수적 방법
이상값을 판단하는 하한선, 상한선으로 옳은 것
하한선, 상한선 --==>> (Q1-1.5*(Q3-Q1), Q3+1.5*(Q3-Q1))
스피어만 상관계수
피어슨 상관계수