본문 바로가기
교육이야기

통계학, 모수와 통계랑, 중앙값, 편차, 분산, 산포도

by 베어훈릴스 2023. 2. 24.
반응형

그래프가 있는 노트북
출처 : pxhere

통계학

- 모집단(Population) : 관심이 대상이 되는 모든 데이터의 집합

- 표본(Sample) : 모집단 중 조사 대상으로 채택된 일부 데이터 집합 --> 여론조사, 품질관리

 

모수와 통계랑

- 모수(Parameter) : 모집단의 특성을 수치로 나타낸 것

- 통계랑(Statistic) : 표본의 특성을 수치로 나타낸 것

 

데이터의 이해

많은 데이터를 축적하다 보면, 분포가 발생하게 됩니다. 분포가 발생하는 이유는 그 수치들이 결정된 이면에 어떤 불확실성이 움직이고 있기 때문입니다. 집단에 대한 데이터로 표현되는 고유한 특징이 반복되는 것을 분포의 특성이라고 합니다.

 

 

 

통계의 필요성

보통 사람들이 관찰하는 데이터가 그저 단순한 숫자들의 나열로 밖에 보이지 않습니다. 따라서 데이터 그 자체로부터 무엇인가 그 분포의 특징이나 반복되는 것을 이끌어내기 위한 방법이 필요한데요. 이러한 방법이 바로 통계입니다.

축약은 데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리 정돈해서 의미있는 정보만을 추출하는 것을 의미합니다. 대표적인 축약의 방법으로는 그래프를 만들어서 그 특징을 파악할 수 있게 하거나, 숫자 하나로 특징을 대표하도록 하는 것이 있습니다.

 

통계량이란

통계량이란 데이터의 특징을 하나의 숫자로 요약한 것입니다. 데이터의 어떤 비슷한 특징을 요약하고 싶은가에 따라서 여러 가지 통계량이 활용되고 있습니다.

 

대표적인 통계량 수치

평균값(Average)

데이터는 수치적으로 널리 퍼져있지만, 그 널리 퍼져있는 것 중에서 하나의 수를 모든 데이터를 대표하는 수로 뽑은 것으로 데이터들의 평균값 주변에 주로 분포되어 있습니다.

 

 

중앙값(Median)

평균과 함께 많이 사용되는 대표값으로, 도로의 중앙선처럼 데이터의 중점을 나타내는 것입니다.

 

편차(관찰값-평균값)

각 데이터가 평균값으로부터 어느정도 큰가, 작은가를 나타내는 것입니다. 편차의 특성으로는 모든 데이터의 편차의 합은 0이라는 특징을 가지고 있습니다.

 

분산(VARP)

데이터가 퍼져있는 상태를 평가할 수 있는 통계량입니다.

 

표준편차(STDEVP)

평균값이 데이터의 분포를 대표하는 수치이지만, 표준편차는 그 대푯값을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량입니다.

 

산포도

데이터가 대표값(평균/중앙값)에서 얼마나 멀리 떨어져 있는지를 나타내는 것입니다. 예를 들면, 모든 사람의 체중이 60kg이면 표본에서의 산포도는 전혀 없을 것입니다. 이런 경우 산술적으로 산포도는 0이 되고 히스토그램은 날씬한 모양이 됩니다.

만약 모든 사람의 체중이 다르다면 어떤 형태를 갖춘 분산된 분포를 관찰할 수 있게 됩니다. 그래서 산포가 있는 데이터는 다양한 분포를 반영할 수 있습니다.

반응형

댓글