확률분포란?
확률분포는 어떤 사건이 일어날 가능성을 숫자로 나타낸 거라고 생각하면 돼요. 예를 들어, 주사위를 던질 때 나올 수 있는 숫자는 1부터 6까지인데, 각각의 숫자가 나올 확률은 모두 같아요. 그래서 각각의 숫자가 나올 확률은 16\frac{1}{6}이에요. 이걸 확률분포로 나타내면, 각 숫자(1, 2, 3, 4, 5, 6)에 대해 확률이 16\frac{1}{6}인 걸 표나 그래프로 표현할 수 있어요.
확률분포는 이렇게 모든 가능한 결과와 그에 해당하는 확률을 나타낸 표나 그래프라고 할 수 있어요. 더 쉽게 말하면, 어떤 결과가 나올 가능성이 각각 얼마나 되는지 정리한 거예요.
이산확률분포와 연속확률분포는 확률을 다루는 방식에서 차이가 있어요. 간단히 말해서, 이산확률분포는 셀 수 있는 개별적인 결과(예: 주사위의 눈)일 때, 연속확률분포는 셀 수 없이 이어지는 결과(예: 몸무게, 키)일 때 사용하는 거예요.
- 이산확률분포
이산확률분포는 결과가 명확하게 구분되는 경우에 사용해요. 예를 들어, 동전을 던졌을 때 앞면이 나오거나 뒷면이 나오는 경우처럼 결과가 분리되어 있죠. 주사위를 던질 때도 마찬가지로 1부터 6까지의 숫자가 딱딱 떨어져 있죠. 이런 식으로 가능한 결과가 각각의 확률과 함께 정리된 게 이산확률분포예요.확률질량함수(PMF) - 연속확률분포
연속확률분포는 결과가 연속적이고 무한히 세분화될 수 있는 경우에 사용해요. 예를 들어, 사람의 키나 몸무게를 측정할 때 딱 정확히 170cm나 65kg 같은 값을 가지지 않고, 170.1cm, 170.01cm처럼 아주 세밀하게 나눌 수 있죠. 이 경우 특정한 값이 나올 확률을 따지는 대신, 특정 구간에 들어갈 확률을 보는 거예요. 연속확률분포를 나타낼 때는 주로 그래프를 사용하며, 확률 밀도 함수(PDF)라고 불리는 곡선이 있어요.
이산확률분포
-. 이항분포
-. 초기하분포
-. 포아송 분포
연속확률분포
-. 정규분포
-. t분포
-. 카이제곱 분포
-. F분포
-. 지수분포
1. 균등분포 (Uniform Distribution)
균등분포는 모든 결과가 나올 확률이 같은 경우에 사용해요. 주사위를 던질 때, 1부터 6까지의 눈이 나올 확률이 모두 같죠? 이게 바로 균등분포예요. 주사위에서 각 숫자가 나올 확률은 모두 16\frac{1}{6}로 균등하게 분포된 거예요.
2. 이항분포 (Binomial Distribution)
이항분포는 성공과 실패로 나뉘는 실험을 여러 번 반복할 때 사용해요. 예를 들어, 동전을 10번 던져서 앞면이 몇 번 나올지를 알고 싶을 때가 이항분포의 대표적인 예예요.
- 여기서 성공은 앞면이 나오는 것, 실패는 뒷면이 나오는 것으로 가정할 수 있죠.
- 동전을 던질 때마다 앞면이 나올 확률은 0.5인데, 이걸 여러 번 반복했을 때 특정 횟수만큼 앞면이 나올 확률을 계산할 수 있어요.
3. 초기하분포 (Hypergeometric Distribution)
초기하분포는 전체 집단에서 몇 개를 뽑았을 때 특정 항목이 뽑힐 확률을 계산할 때 써요. 이건 보통 전체 집단에서 뽑은 것을 다시 넣지 않고 반복할 때 유용해요. 예를 들어, 10개의 검은 공과 5개의 흰 공이 담긴 주머니에서 3개의 공을 뽑을 때, 흰 공이 1개 나올 확률을 구할 때 초기하분포를 사용해요.
- 이때 뽑은 공을 다시 넣지 않기 때문에 전체 공의 비율이 조금씩 바뀌는 게 이항분포와 달라요.
4. 포아송분포 (Poisson Distribution) - 빈도측정, 횟수
포아송분포는 특정 시간이나 공간에서 어떤 사건이 몇 번 발생할지를 예측할 때 쓰여요. 예를 들어, 1시간 동안 어떤 웹사이트에 몇 명이 방문할지 예측하거나, 1년 동안 발생하는 특정 사고의 횟수를 계산할 때 사용할 수 있어요.
- 포아송분포는 사건이 드물게 발생하지만 반복적으로 일어나는 경우에 적합해요.
정규분포
지수분포 - 빈도측정, 시간 간격
지수분포는 **이 사건이 발생하는 간격(시간이나 거리)**을 다룰 때 사용해요. 예를 들어, 콜센터에서 전화가 걸려오는 시간 간격을 알고 싶다면 지수분포를 사용해요.
- 지수분포는 사건이 발생할 때까지 걸리는 시간, 즉 두 사건 사이의 시간 간격에 초점을 맞춰요.
중심극한정리
아주 간단히 말해서, 어떤 분포에서 값을 여러 번 샘플링하면 그 평균들이 점점 정규분포에 가까워진다는 원리에요.
예를 들어볼게요. 어떤 공장에서 종이의 두께를 측정한다고 해봐요. 처음엔 그 두께가 약간씩 차이가 있어서, 예를 들어 균등하게 퍼져 있다거나 이상하게 분포되어 있을 수 있어요. 그런데 그 두께를 수백 번, 수천 번 측정하고 그 평균을 구하면, 그 평균값들의 분포가 점점 종 모양의 정규분포(가운데가 높고 양쪽으로 점점 낮아지는 모양)에 가까워져요.
즉, 원래의 데이터가 어떤 모양이든 상관없이, 충분히 큰 샘플 수가 쌓이면 평균들의 분포는 정규분포에 수렴한다는 게 중심극한정리예요. 그래서 중심극한정리는 확률과 통계에서 중요한데, 이 덕분에 우리가 복잡한 분포에서도 평균값을 통해 예측을 할 수 있게 돼요.
'지식 > 생산관리' 카테고리의 다른 글
귀무가설과 대립가설 기억하는 꼼수 (0) | 2024.11.05 |
---|---|
노션 PDF 내보내는 법 (0) | 2023.10.26 |
한글파일, 워드로 변경하는 방법 (0) | 2023.10.24 |
HWP에서 Docx로 변경하는 방법 (0) | 2023.10.17 |
[생산성 툴] Google Keep (0) | 2023.09.15 |