일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 큐
- p-value
- Game Data Analysis
- DP
- 백준
- Python
- 알고리즘
- AA test
- anomaly detection
- Deeplearning
- 구현
- 스택
- classification
- 딥러닝
- 정렬
- 중앙갑
- Stack
- Machine learning
- c++
- 그리디
- 7569번
- ML
- Queue
- BFS
- datascience
- cs231n
- 통계
- Anti Cheat
- Journal Review
- 자료구조
- Today
- Total
Software Hyena::
샘플링과 리샘플링 본문
Question
샘플링과 리샘플링에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
샘플링이란?
샘플링(sampling)은 어떤 자료에서 일부 값을 추출하는 것을 의미한다. 통계학에서의 샘플링은 모집단에서 표본을 추출하는 일을 말한다. 관심 대상의 모집단에 관한 정보를 얻기 위한 의도로 개별적 관측을 선택하는 통계적수행, 가설검증의 일부이다. 이 샘플링 기법에는 단순무작위추출, 층화추출, 계통추출등의 방법이 있다.
+ 머신러닝이나 딥러닝에서 데이터 샘플링은 데이터를 정리하여 최적의 입력데이터로 만드는 과정을 말하며 데이터 샘플링을 통해 더욱 빠르고 성능이 좋은 모델을 효과적으로 학습시킬 수 있다.
리샘플링이란?
샘플링된 데이터를 다시 샘플링하는 것을 리샘플링(Resampling) 이라고 한다. 모집단의 분포 형태를 알 수 없을때 유용하며 리샘플링을 통해 샘플링된 데이터의 부분 집합을 반복적으로 뽑으며 샘플링된 데이터를 한번만 학습시키는 것보다 추가적인 정보나 패턴을 모델에 학습시킬 수 있다. 모델을 학습시키는데에 사용하는 리샘플링 기법으로는
- K-Fold Cross Validation
K-Fold Cross Validation(교차검증) 쉽게 이해하기
K-Fold Cross Validation (교차검증)은 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나이다. 그렇다면 교차검증을 사용하는 이유 및 방법을 알아보자. Cross Validation 사용하는 이유 머
modern-manual.tistory.com
- Bootstrap
Bootstrap sampling (Bootstrapping, 부트스트랩 샘플링) 쉽게 이해하기
Bootstrap (부트스트랩)은 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나이다. 다른 resampling 방법인 K-Fold Cross Validation은 다음 글에서 자세히 확인할 수 있다. K-Fold Cross Validation (
modern-manual.tistory.com
두가지가 대표적이다.
샘플링과 리샘플링 모두 머신러닝과 통계분야에서 흔히 접하는 신뢰구간, standard error, 오버피팅, 분산 등과 밀접한 관련이 있다.
Answer
샘플링은 모집단에서 하나의 표본을 추출하는 것을 말하고 리샘플링은 이 샘플링 과정을 여러번 반복하는 것을 말한다. 샘플(=표본)은 모집단을 닮은 하나의 집단이지만 모집단 그 자체일 수 는 없다. 따라서, 표본에는 반드시 모집단의 원래 패턴에서 놓친부분이나 noise가 존재할 수 밖에 없다. 리샘플링 기법은 표본을 추출하면서 원래 데이터 셋을 복원하므로 모집단의 분포 형태를 알 수 없을때 유용한데, 샘플을 다시 샘플의 부분집합으로 반복적으로 뽑음으로서 통계량의 변동성을 확인할 수 있다. 때문에 모집단의 분포에 대한 어떠한 가정도 필요 없이 표본만으로 추론이 가능하다는 장점을 가진다.
ref
'수학 > 통계' 카테고리의 다른 글
공분산과 상관계수 (0) | 2023.02.01 |
---|---|
조건부 확률 (0) | 2023.01.29 |
여러가지 분포들 (0) | 2023.01.26 |
누적 분포 함수와 확률 밀도 함수는 무엇일까요? (0) | 2023.01.22 |
확률변수와 확률모형 (0) | 2023.01.18 |