수학/통계학

[K-MOOC | 통계학] 통계학의 이해Ⅰ, 2주차 정리 - 여인권 교수님, 2019년

입문생 Jay 2022. 8. 5. 19:06

 


   안녕하세요. 입문생 Jay입니다. 오늘은 [통계학의 이해] 2 주차 강의를 정리한 후 의문점, 참고사항, 후기를 남기도록 하겠습니다. 참고로 강의 자료를 정리하면서 개인적으로 알고 있는 내용도 덧붙일 예정이라 틀린 내용이 있다면 댓글 주시면 감사하겠습니다.


 

통계학의 이해 Ⅰ

본 강좌에서는 통계학에서 사용되는 기본 개념과 원리를 이해하고 심화된 통계학을 공부할 수 있는 이론적 기반을 마련할 수 있습니다.

www.kmooc.kr

 

강의제목, 2주차
  • 서론
  • 변수의 종류
  • 자료의 분류
  • 도수분포표
  • 원도표
  • 막대그래프
  • 범주화
  • 점도표
  • 히스토그램
  • 줄기 - 잎 그림
  • 정리
  • 의문점
  • 참고사항
  • 후기

 


 

서론

   2주차도 굉장히 부드럽게 넘어갑니다. 어려운 수학 개념없습니다. 

 


 

변수의 종류

일변량 자료 univariate data : 하나의 변수만 있는 자료

다변량 자료 multivariate date 여러 개의 변수로 이뤄진 자료

 

   통계 분석은 자료의 속성과 분석 목적에 따라 결과가 달라집니다. 따라서 적절히 자료의 속성을 정하고 분류하는 것이 필요하겠죠. 테이블 Table 이 일종의 분류표라고 볼 수 있겠습니다. 테이블을 이루는 전체 자료를 데이터셋 Dataset이라고 합니다. 그리고 테이블 맨 위나 맨 왼쪽에 각 줄의 공통점을 담은 명칭을 지정하게 되는데, 이를 변수 Variable 라고 합니다. 우리가 분석을 원하는 속성을 따로 분류해놓았다고 보면 편하겠습니다.

   이런 Variable은 일변량 자료, 다변량 자료로 분류할 수 있습니다. 특징은 상술돼있습니다.


 

자료의 분류

   이 강의에서 교수님은 자료를 위와 같이 나눴습니다. 범주형 자료는 수치로 나타낼 수 없지만 특정 범위를 나타내는 자료, 예를 들어 혈액형이 있습니다. 순서자료인 주민번호나 스마트폰 번호도 그러겠죠. BMI 지수도 마찬가지입니다.

   수치자료는 크기비교가 가능한 수치자료 정도로 정리됩니다. 교통사고 건 수, 자녀의 수 등이 있죠.

   각 자료가 구분이 엄밀한 건 아니고, 각 자료를 서로 변환하여 종류를 바꿔서 사용할 수도 있으니 자료에 맞게 적절히 변형할 필요가 있다고 하시네요.

 


도수분포표

   도수 frequency : 범주에 속한 관측 개체의 수(=빈도)

   상대도수 relative frequency :  전체 자료 중 해당 범주에 속한 비율 (= 해당범주 관측개체 수 / 전체 관측개체 수, 퍼센테이지로도 나타낼 수 있음)

   도수는 단순히 말하면 우리가 관심을 갖는 개체의 수, 상대도수는 도수가 전체 개체에서 갖는 비율 정도로 보는게 맞을 듯 합니다. 사과 3개, 배 5개, 오이 7개를 샀을 때 배의 도수는  5, 상대도수는 전체 15중 5를 차지하므로 1/3이겠죠. 퍼센티지론 33.3%정도 곘습니다.

 


원도표

   Cleveland란 사람이 20세기에 연구로 사람은 동일한 척도에서 위치, 길이, 각도, 기울기, 면적, 부피, 색상, 밀도 순으로 차이를 인지한다고 밝혔다고 합니다. 이는 곧 그래프를 그릴 때 위의 특징들을 유용하게 쓸 수 있단 뜻이겠죠. 이는 실제로 원도표나 막대그래프 등으로 응용됩니다. 물론 막대그래프가 위치와 길이를 이용하는 그래프이므로 원도표보다 차이를 훨씬 잘 인지할 수 있겠다고 추론할 수 있겠네요.

   어쨌든 원도표는 각 변수의 비율을 원 위의 각도로 나눠서 표시한 겁니다. 전체가 360도니까 각 변수가 원에서 차지할 수 있는 각도는 원의 중심을 기준으로 상대도수 / 360도 겠네요.

   개인적인 얘기지만 원도표는 경향은 잘 보여주는데, 너무 비율이 작거나 한 경우 그래프가 정보를 전달하는 능력은 떨어지는 듯 했습니다. 그리고 이과 논문에서는 잘 보이는 느낌은 아니었습니다. 사회과학 논문은 꽤 보이더군요.


막대그래프

   말하면 입만 아픈 유명한 그래프입니다. 각종 신문에서도 자주 보이고, 물가 상승을 나타내거나 추가적으로 실선 그래프를 추가해서 물가상승율의 기울기를 시각적으로 보여주는 역할도 할 수 있죠.


범주화

   데이터의 특성을 고려하여 계급 class와 경계값(크기)를 정하는 것을 범주화라고 합니다. 계급의 수나 경계값 모두 분석자가 정하지만, 계급마다 동일한 크기의 구간을 갖는 것이 깔끔합니다.

   위 사진은 취업율 도수가 높은 구간을 세밀하게 쪼개고, 도수가 높지 않은 구간은 큰 하나의 계급으로 묶은 것을 볼 수 있습니다.


점도표 dot plot

   관측된 개체를 값에 따라 구간을 두고 나열하는 그래프를 말합니다. 중복된 값이 있는 경우 중복된 만큼 위로 올려서 표현합니다. 위 사진에선 대략 50-70 사이에서 점들이 몰려있음을 확인할 수 있습니다.

 


히스토그램 histogram 

   막대그래프와 잘 혼용되는 용어인데, 엄밀히 히스토그램은 막대그래프와 다릅니다. 막대그래프는 구간이 일정한 반면 히스토그램은 구간이 일정하지 않을 수도 있습니다. 이 말인 즉슨 구간 설정을 어떻게 하냐에 따라 히스토그램 모양이 다를 수도 있음을 의미합니다.

   히스토그램에 나온 전체 사각형의 면적의 합은 1입니다. 그러니 히스토그램 박스의 넓이는 상대도수와 같죠. 이때 계급 구간의 길이(위 이미지에서 x축에서 박스의 길이)를 알면 높이를 구할 수 있습니다. 이를 밀도 density라고 합니다.

   밀도 density = 상대도수 / 계급구간의 길이

   밀도라고 하는 이유는 간단합니다. 상대도수의 구간을 일정한 구간으로 나눴으니(스케일이 일정하니) 전체를 1로 놓으면 특정 개체가 얼마나 촘촘히 모여있는가를 나타내기 때문입니다. 위의 점도표 dot plot랑 비교해보면 좀 쉬우실 거에요.


줄기 - 잎 그림(stem-and-leaf plot)

   자료값을 날 것으로 보존하면서 자료의 분포를 알려주는 그림입니다. 위 사진의 경우 5에서 제일 자료가 많이 분포함을 알 수 있죠. 옆에 (*)표시가 돼있는데, 이건 중간값이라고 알려주는 표지입니다.

   10자리는 줄기에, 10^0자리는 오른쪽 잎에 나열했습니다. 이런 그래프는 생소하고 잘 쓰지도 않는 듯하니 넘기겠습니다. 


정리

   우선 도수, 자료의 분류(학자마다 다르다고는 하지만), 여러 그래프에 대해서 배웠습니다. 상자 그래프 box plot에 대해 나오지 않은 건 아쉽지만 다음 주차에서 다룰 모양입니다.


참고사항
X

 

후기

   다양한 그래프에 대해서 배웠습니다. 흥미롭네요. 도수에 관한 내용은 복습 정도라 상관없지만 히스토그램에 대한 내용은 흥미로웠습니다. 천천히 머리에 담아둬야겠네요. 나머지는 딱히 흥미로운 내용은 없으니 넘기겠습니다.

   이만 총총.


 

※ 이 글은 Windows 11의 Whale browser에서 작성됐습니다.

 

오탈자(誤脫字) 및 비문(非文), 또는 오류가 있는 경우 댓글로 알려주세요.

 

감사합니다.