Software Hyena::

확률변수와 확률모형 본문

수학/통계

확률변수와 확률모형

bluehyena 2023. 1. 18. 16:06
반응형

Question 확률 모형과 확률 변수는 무엇일까요?

확률변수 (random variable)란?


변수란 특정 조건에 따라 변하는 값을 의미한다. 확률변수는 확률에 따라 변하는 값을 의미한다.

확률변수의 다양한 정의
- 확률변수의 정의는 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수이다.
- 확률변수는 일반적으로 X로 표기하며 확률로 표기하기 위한 event를 정의하는 것이다.
- 확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미한다.

이 때 확률변수의 값을 셀 수 있는지 없는지에 따라 이산확률변수, 연속확률변수로 나눈다.

이산확률변수란, 확률변수가 취할 수 있는 모든 값들이 하나씩 셀 수 있는 경우이다. 
주사위나 동전의 앞뒷면과 같은 것들이 이산확률변수에 해당한다.

연속확률변수란, 확률변수가 연속적인값 즉 셀 수 없는 경우이다. 
어느 학교에서 랜덤하게 선택된 남학생의 키 같은 경우가 연속확률 변수에 해당한다.
언뜻 생각하기에 키도 셀수 있다고 생각되지만, 정밀히 측정하면 162.3452423⋯과 같이 연속적인 형태의 값이다.

확률변수는 일반적으로 대문자 X로 나타낸다. 확률변수 X의 구체적인 값에 대해서는 
보통 소문자를 사용해서, 예를 들어 X가 p의 확률로 x의 값을 가진다는 것은 
P(X=x)=p 등의 확률함수로 표현할 수 있다.

예시를 들어 설명하면

동전을 던질 때 앞면을 H, 뒷면을 T 라고 할 경우 동전을 두번 던졌을 때의 표본 공간은 다음과 같다.

S = {HH, HT, TH, TT}

이렇게 표현하기보다 수리적으로 다루기 쉽게 하기 위해 숫자로 표현한다.
즉, 앞면 출현 횟수가 중요할 경우 H 발생을 1로 정의하면 

HH = 2
HT = 1
TH = 1
TT = 0

의 확률변수로 정의가 된다. 


확률모형 (probabilistic model)이란?


확률모형이란 데이터와 확률간의 관계 즉, 확률변수를 이용하여 데이터 분포를 수학적으로 정의하는 방법을 말한다.
이 때 수학적인 수식을 확률분포함수(probability distribution function), 식을 결정짓는 값을 모수(parameter)라고 한다.

확률모형에 정확한 모수를 사용한다면 우리가 가지고 있는 데이터와 똑같은 분포의 데이터를 만들어낼 수 있다. 
이 때 중요한 것은 동일한 데이터를 만들어내는것이 아니라 동일한 데이터 분포를 만들어낸다는 것이다.

일반적으로 이 모수를 정확하게 알 수 없어서 임의의 확률 모형을 가정하고 적어도 그 모형에 데이터를 가장 잘 설명하는 파라미터를 찾는 모수 추정을 사용하여 실제 데이터의 분포를 최대한 잘 근사하는 모형을 찾는다.

가우시안 정규분포가 하나의 확률 모형의 예시이다.

추가적인 예시 :
확률질량함수(PMF, Probability Mass Function) - 이산형 확률 모형
확률밀도함수(PDF, Probability Density Function) - 연속형 확률 모형
누적분포함수(CDF, Cumulative Distribution Function)


ref
https://velog.io/@du-du-zi/%ED%86%B5%EA%B3%84-%EC%9A%A9%EC%96%B4-%EC%A0%95%EB%A6%AC-%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98%EB%9E%80
https://datacookbook.kr/60
https://variety82p.tistory.com/entry/%ED%99%95%EB%A5%A0%EB%B3%80%EC%88%98%EC%99%80-%ED%99%95%EB%A5%A0%EB%AA%A8%ED%98%95?category=996031
https://gaussian37.github.io/ml-concept-probability_model/

반응형

'수학 > 통계' 카테고리의 다른 글

공분산과 상관계수  (0) 2023.02.01
조건부 확률  (0) 2023.01.29
여러가지 분포들  (0) 2023.01.26
누적 분포 함수와 확률 밀도 함수는 무엇일까요?  (0) 2023.01.22
샘플링과 리샘플링  (0) 2023.01.13
Comments