일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Deeplearning
- AA test
- Anti Cheat
- 자료구조
- BFS
- cs231n
- Queue
- Machine learning
- 스택
- 통계
- 중앙갑
- 알고리즘
- classification
- 7569번
- Game Data Analysis
- ML
- c++
- DP
- 큐
- Stack
- 딥러닝
- Python
- 정렬
- 백준
- anomaly detection
- 그리디
- 구현
- datascience
- p-value
- Journal Review
- Today
- Total
목록수학/통계 (13)
Software Hyena::
Question : 평균(Mean)과 중앙값(Median) 중에 어떤 케이스에서 뭐를 써야 할까요? 1. 평균 일반적으로 데이터의 모든 값의 총합을 개수로 나눈 산술 평균(arithmetic mean)을 의미한다. 그냥 평균이라고도 불린다. 2. 중앙값 중앙값 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다. 값이 짝수개일 때에는 중앙값이 유일하지 않고 두 개가 될 수도 있다. 이 경우 그 두 값의 평균을 취한다. 예를 들어 1, 10, 90, 200 네 수의 중앙값은 10과 90의 평균인 50이 된다. Answer : 일반적으로는 평균을 사용하지만 데이터의..
Question : 중심극한 정리는 왜 유용한걸까요? 확률론과 통계학에서 중심 극한 정리(central limit theorem, CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 평균 u, 분산 sigma^2인 모집단에서 크기가 n인 선택가능한 모든 표본을 뽑으면 모집단의 확률분포 모양과는 상관없이 표본평균 표집의 확률분포는 표본의 크기(n)를 증가시킬수록 정규분포에 접근한다. 즉, 모집단의 모평균을 중심으로 정규분포를 이룬다. 중심극한정리가 왜 유용하고 중요할까? 통계학에서 중요한 부분 중 하나가 모집단의 특성(모수)를 추정하는 것인데 각각의 표본은 모집단의 특성을 나타내기에는 부족하다. 하지만 (표본들의 더하여 그 개수만큼 ..

Question : R square 의 의미는 무엇일까요? 회귀분석의 성능 평가 척도 중 하나로, 결정력이라고도 한다. - R-square는 독립변수가 종속변수를 얼마나 잘 설명하는 지를 나타낸다. - R-square는 0과 1 사이 값을 가진다. - MSE, RMSE, MAE의 경우 작을수록 좋지만 R-square 는 클수록 좋다. - 1에 가까울수록 독립변수가 종속변수를 잘 설명할 수 있다. R-squared은 다음과 같은 수식을 통해 계산한다. - SST (Total Sum of Squares): 총제곱합 = (관측값 - 평균)의 제곱합 - SSE (Explained Sum of Squares): 회귀제곱합 = (예측값 - 평균)의 제곱합, 설명된 분산 - SSR (Residual Sum of Sq..
Question : A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요? A/B Test란 기존의 서비스 A 와 새로운 서비스 B를 통계적인 방법으로 비교하여 새로운 서비스가 효과가 있는지 검정하는 방법이다. A/B 테스트를 통해 인과관계를 찾아내려면, 두 집단을 나눌때 random으로 나누기 참가한 두 집단에 속하는 표본들이 random 추출을 통해 샘플링 되어야 한다. 이외에 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 AA test, p-value가 있다. AA test는 A와 B를 비교하기 전에 분산된 트래픽에 모두 A안을 보여주고, 동일한 Variation이 관측되는지 확인하는 방법 p-val..
Question : p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요? p-value의 한계점은 다음과 같다. 1. 관측치가 많을수록 p값이 작아진다. -> 관측치가 많으면 p-value가 유의하게 나올 가능성이 커진다. 즉, p-value가 통계적 유의성을 따지기 위한 올바른 척도가 될 수 없다. 2. 유의한 p-value값과 통계 방법론을 제시한다. -> 유의하지 않은 변수를 제거하여 유의한 변수만을 활용하는 눈속임이 가능하다. 통계적 방법론을 조작할 가능성도 존재한다. 관측치가 p-value 를 이용하여도 적당할 만큼의 수이고 유의한 변수만을 활용하는 등의 눈속임을 하지 않는다면 유용하게 사용할 수 있다고 생각한다. - ref https://ni..
Question : p-value를 고객에게는 뭐라고 설명하는 게 이해하기 편할까요? p-value 의 사전적정의는 다음과 같다. 통계적 가설 검정에서 유의 확률(significance probability, asymptotic significance) 또는 p-값(p-value, probability value)은 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.실험 의 유의확률은 실험 의 표본공간에서 정의되는 확률변수로서, 0~1 사이의 값을 가진다. p-값(p-value)은 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 '같거나 더 극단적인' 통계치가 관측될 확률이다. 여기서 말하는 확률은 '빈도주의' (frequentist) 확률이다. 정의를 보았..

Question 신뢰 구간의 정의는 무엇인가요? 통계학에서 신뢰 구간(confidence interval)은 모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법이다. 모수를 하나의 값으로 추정하기 보다는 구간으로 추정하는 것이 좀 더 좋은 방법이다. 모수를 추정하기 위하여 만든 구간을신뢰구간 이라고 하며 신뢰구간은 점추정치에 적당한 값을 빼고 더하여 만든다. 평균이 μ, 표준편차가 σ가 0 정규분포의 모집단에서 표본 n개를 뽑아 모평균을 추정할떄 표본 n개의 표본 평균 X_bar 의 분포는 N(μ,σ/√n)이므로 다음 등식이 성립한다. 단, 여기서 z_(α/2)는 Z가 표준정규분포를 따르는 확률변수일 때 다음 식을 만족하는 값이다. 따라서 다음 구간이 모평균 μ를 포함할 확률은 1−α 이다. α가 ..

Question. 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요 공분산 (Covariance) 공분산이란 2개의 확률변수의 상관관계의 정도를 나타내는 값이다. 공분산의 값이 양수라면, 두 확률변수는 양의 선형 관계가 있고, 공분산의 값이 음수라면 두 확률변수는 음의 선형관계가 있다. 또, 공분산은 아래와 같은 성질을 가진다. 같은 확률변수에 대한 공분산은 확률변수의 분산과 같으며, Cov(X,Y) = Cov(Y,X)로 동일하다. 또한, Cov(aX, bY)의 경우 ab Cov(X, Y)와 같다. 피어슨 상관계수에 사용되는 표본 공분산은 다음과 같다. 상관계수 (Correlation Coefficient) 상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관관계의 정도를 수치적으로..

Question 조건부 확률은 무엇일까요? 확률론에서 조건부 확률conditional probability)은 주어진 사건이 일어났을 때 다른 한 사건이 일어날 확률을 말한다. 원래의 확률 함수를 P라고 할 때 사건 A가 일어났다는 조건에서 사건 B가 일어날 조건부 확률은 P(B|A)로 표기한다. 예제 50명이 수강하는 과목 A 에서 안경을 쓴 학생의 비율이 70%, 3학년 학생의 비율이 35%, 안경을 쓴 3학년의 학생비율은 20%이다. 한 학생을 임이로 불렀을 때 그 학생이 안경을 쓴 학생이라면, 3학년일 확률 P(A|B)를 구해보자 3학년 학생을 A, 안경을 쓴 학생을 B라고하면 P(A|B) = P(AB)/P(B) = 0.35 / 0.7 전체 학년에서 안경을 쓴 학생이 0.7, 해당되는 교집합 (..

Question 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요. 베르누이 분포 - 먼저 베르누이 시행(Bernoulli Trial)이라는 것은 성공과 실패 두가지 결과만이 존재하는 시행으로서, 각 시행은 서로 독립 인 것을 말한다. - 성공률이 p인 실험에서 성공이면 X = 1, 실패이면 X = 0이라 할 때 위 식을 만족하는 확률변수 X가 따르는 확률분포를 의미하며, 이항분포의 특수한 사례에 속한다. 이항 분포 - 성공률이 p인 베르누이 시행을 n번 반복시행할 때 성공횟수를 나타내는 확률변수 K의 분포를 ..