본문 바로가기
지식/생산관리

확률분포

by 철학괴물 2024. 11. 5.
반응형

확률분포란?

확률분포는 어떤 사건이 일어날 가능성을 숫자로 나타낸 거라고 생각하면 돼요. 예를 들어, 주사위를 던질 때 나올 수 있는 숫자는 1부터 6까지인데, 각각의 숫자가 나올 확률은 모두 같아요. 그래서 각각의 숫자가 나올 확률은 16\frac{1}{6}이에요. 이걸 확률분포로 나타내면, 각 숫자(1, 2, 3, 4, 5, 6)에 대해 확률이 16\frac{1}{6}인 걸 표나 그래프로 표현할 수 있어요.

확률분포는 이렇게 모든 가능한 결과와 그에 해당하는 확률을 나타낸 표나 그래프라고 할 수 있어요. 더 쉽게 말하면, 어떤 결과가 나올 가능성이 각각 얼마나 되는지 정리한 거예요.

 

이산확률분포와 연속확률분포는 확률을 다루는 방식에서 차이가 있어요. 간단히 말해서, 이산확률분포는 셀 수 있는 개별적인 결과(예: 주사위의 눈)일 때, 연속확률분포는 셀 수 없이 이어지는 결과(예: 몸무게, 키)일 때 사용하는 거예요.

  1. 이산확률분포
    이산확률분포는 결과가 명확하게 구분되는 경우에 사용해요. 예를 들어, 동전을 던졌을 때 앞면이 나오거나 뒷면이 나오는 경우처럼 결과가 분리되어 있죠. 주사위를 던질 때도 마찬가지로 1부터 6까지의 숫자가 딱딱 떨어져 있죠. 이런 식으로 가능한 결과가 각각의 확률과 함께 정리된 게 이산확률분포예요.확률질량함수(PMF)
  2. 연속확률분포
    연속확률분포는 결과가 연속적이고 무한히 세분화될 수 있는 경우에 사용해요. 예를 들어, 사람의 키나 몸무게를 측정할 때 딱 정확히 170cm나 65kg 같은 값을 가지지 않고, 170.1cm, 170.01cm처럼 아주 세밀하게 나눌 수 있죠. 이 경우 특정한 값이 나올 확률을 따지는 대신, 특정 구간에 들어갈 확률을 보는 거예요. 연속확률분포를 나타낼 때는 주로 그래프를 사용하며, 확률 밀도 함수(PDF)라고 불리는 곡선이 있어요.

이산확률분포

-. 이항분포

-. 초기하분포

-. 포아송 분포

 

연속확률분포

-. 정규분포

-. t분포

-. 카이제곱 분포

-. F분포

-. 지수분포

 

1. 균등분포 (Uniform Distribution)

균등분포는 모든 결과가 나올 확률이 같은 경우에 사용해요. 주사위를 던질 때, 1부터 6까지의 눈이 나올 확률이 모두 같죠? 이게 바로 균등분포예요. 주사위에서 각 숫자가 나올 확률은 모두 16\frac{1}{6}로 균등하게 분포된 거예요.

2. 이항분포 (Binomial Distribution)

이항분포는 성공과 실패로 나뉘는 실험을 여러 번 반복할 때 사용해요. 예를 들어, 동전을 10번 던져서 앞면이 몇 번 나올지를 알고 싶을 때가 이항분포의 대표적인 예예요.

  • 여기서 성공은 앞면이 나오는 것, 실패는 뒷면이 나오는 것으로 가정할 수 있죠.
  • 동전을 던질 때마다 앞면이 나올 확률은 0.5인데, 이걸 여러 번 반복했을 때 특정 횟수만큼 앞면이 나올 확률을 계산할 수 있어요.

3. 초기하분포 (Hypergeometric Distribution)

초기하분포는 전체 집단에서 몇 개를 뽑았을 때 특정 항목이 뽑힐 확률을 계산할 때 써요. 이건 보통 전체 집단에서 뽑은 것을 다시 넣지 않고 반복할 때 유용해요. 예를 들어, 10개의 검은 공과 5개의 흰 공이 담긴 주머니에서 3개의 공을 뽑을 때, 흰 공이 1개 나올 확률을 구할 때 초기하분포를 사용해요.

  • 이때 뽑은 공을 다시 넣지 않기 때문에 전체 공의 비율이 조금씩 바뀌는 게 이항분포와 달라요.

4. 포아송분포 (Poisson Distribution) - 빈도측정, 횟수

포아송분포는 특정 시간이나 공간에서 어떤 사건이 몇 번 발생할지를 예측할 때 쓰여요. 예를 들어, 1시간 동안 어떤 웹사이트에 몇 명이 방문할지 예측하거나, 1년 동안 발생하는 특정 사고의 횟수를 계산할 때 사용할 수 있어요.

  • 포아송분포는 사건이 드물게 발생하지만 반복적으로 일어나는 경우에 적합해요.

정규분포 

 

 

 

지수분포 - 빈도측정, 시간 간격

 

지수분포는 **이 사건이 발생하는 간격(시간이나 거리)**을 다룰 때 사용해요. 예를 들어, 콜센터에서 전화가 걸려오는 시간 간격을 알고 싶다면 지수분포를 사용해요.

  • 지수분포는 사건이 발생할 때까지 걸리는 시간, 즉 두 사건 사이의 시간 간격에 초점을 맞춰요.

 

중심극한정리

아주 간단히 말해서, 어떤 분포에서 값을 여러 번 샘플링하면 그 평균들이 점점 정규분포에 가까워진다는 원리에요.

예를 들어볼게요. 어떤 공장에서 종이의 두께를 측정한다고 해봐요. 처음엔 그 두께가 약간씩 차이가 있어서, 예를 들어 균등하게 퍼져 있다거나 이상하게 분포되어 있을 수 있어요. 그런데 그 두께를 수백 번, 수천 번 측정하고 그 평균을 구하면, 그 평균값들의 분포가 점점 종 모양의 정규분포(가운데가 높고 양쪽으로 점점 낮아지는 모양)에 가까워져요.

즉, 원래의 데이터가 어떤 모양이든 상관없이, 충분히 큰 샘플 수가 쌓이면 평균들의 분포는 정규분포에 수렴한다는 게 중심극한정리예요. 그래서 중심극한정리는 확률과 통계에서 중요한데, 이 덕분에 우리가 복잡한 분포에서도 평균값을 통해 예측을 할 수 있게 돼요.

반응형