Data Science/통계학

이 글에서는 이산형 확률 분포(이항 분포, 포아송 분포)와 연속형 확률 분포(정규분포, 표준정규분포)에 대해 빠르게 알아보는 글이다. 공식에 대한 유도나 증명 과정은 생략한다. 이산형 확률 분포 이산형 확률 분포(discrete probability distribution)는 이산형 확률 변수(discrete random variable)에 대한 확률 분포를 의미한다. 여기서 이산형(discrete)이란 대소 비교의 의미가 있는, 셀 수 있는 정수 자료형을 의미한다. 예를 들면 자녀 수, 사고 횟수, 제품의 개수 등이 이산형 확률 변수에 속한다. 이산형 변수 \( X \)의 모든 실현 가능한 실현치 \( x_1, x_2, \cdots \)에 대해 확률 질량(확률) \( f(x_1) = P(X = x_1)..
이 글에서는 확률의 기본 내용에 대해 정리하고, 사전 확률을 이용하여 사후 확률을 계산하는 베이즈 정리(Bayes' rule)에 대해 알아본다. 확률 용어 정리 먼저 확률에서 사용되는 용어에 대해 정리한다. 확률 실험 (random experience) 확률 실험은 실행 이전에 그 결과를 정확하게(100%) 예측할 수 없는 실험을 의미한다. 만약 연구자가 하고자 하는 연구가 확률 실험이 아니라면, 통계학을 적용할 수 없다. 확률 실험은 동일한 조건으로 실험을 반복하더라도 그 실험의 결과가 동일하지 않고 임의의 형태로 나타난다는 특징이 있다. 동전 던지기, 주사위 굴리기 등이 확률 실험에 포함된다. 표본 공간 (sample space) 표본 공간은 확률 실험을 통해 얻어지는 가능한 모든 결과들의 집합을 의..
이 글에서는 기술통계에서 사용되는 대표값과 산포도에 대해 알아보고, 기술통계량을 어떻게 제시하는 것이 좋은지 알아본다. 기술통계량 기술통계량은 자료의 특성을 표현하는 값으로, 대표값과 산포도가 있다. 대표값 대표값(measure of central tendency)은 자료를 잘 표현할 수 있는 수, 이름 그대로 전체 자료를 대표할 수 있는 값을 의미한다. 대표값에는 (산술)평균, 중위수, 최빈치 등이 있는데, 이 중에서 (산술)평균이 가장 많이 사용된다. 각 대표값에 대해 각각 살펴보면 다음과 같다. (산술)평균 (arithmetic mean) 모집단으로부터 추출한 표본(sample)의 관찰치( \( X \) )가 \( x_1, x_2, x_3, \cdots , x_n \)일 때, 이 표본의 평균( \(..
이 글에서는 통계학적 자료에 대해 알아보고, 통계학적 자료를 구성하는 변수들을 측정 수준에 따라 구분하는 방법에 대해 알아본다. 통계학적 자료 통계학적 자료는 위 이미지와 같이 실험, 설문조사 등 다양한 방법을 통해 모아진 데이터(raw data)를 의미하며, (확률)변수(variable)와 관찰치(observation)로 구성되어 있다. 가장 상단에 열(column)의 이름을 나타내는 항목들을 변수라고 하며, 변수 아래로 위치하고 있는 데이터들을 관찰치라고 한다. 관찰치는 크게 숫자형(numeric)과 문자형(character)으로 구분할 수 있다. 숫자형은 사칙연산이 가능한 데이터를 의미한다. 문자형은 남, 여로 표현하는 성별과 같이 문자로 표현된 데이터를 의미하는데, 문자형 관찰치의 경우 숫자로 코..
이 글에서는 통계학에서 기본이 되는 모집단과 표본의 정의에 대해 알아보고, 통계학적 기술과 통계학적 추론에 대해 알아본다. 모집단과 표본 모집단(population)은 조사대상 집단의 모든 원소의 집합(분석의 대상이 되는 모든 관찰치의 집합)을 의미한다. 즉, 연구자가 어떤 정보를 얻기 위해서 선택한 집단 전체 또는 특정 연구 결과가 일반화 되어 지는 전체 집단을 의미하게 된다. 모집단의 특성을 나타내는 값을 모수(parameter)라고 하며, 대표적으로 모평균( \( \mu \) ), 모분산( \( \sigma^2 \) ), 모비율( \( p \) )이 있다. 모수는 절대적인 값으로 절대 변할 수 없는 값이다. 표본(sample)은 모집단의 일부분으로, 조사과정을 통하여 실제로 얻어진 관찰치의 집합을 ..
청월누리
'Data Science/통계학' 카테고리의 글 목록