정규분포 이야기

기초과학/통계학 2010.11.10 17:15 Posted by oscarpark

 

통계학의 목적은 기술 통계는 데이터 요약으로 일목요연하게 파악하도록 하는데 있고, 추론 통계는 수학의 미분학과 마찬가지로 초기 상태를 아는 전제 하에서 다가올 상태 변화를 예측하는데 있다. 좀 더 광의적으로 말하자면, 의사 결정(decision making)을 위한 도구이다.

이 글은 정규분포를 가지고서 처리 할 수 있는 문제들을 중심으로 다룬다.

 

1. 정규분포

연속형 분포 중 대표적인 것이 정규분포로 그림과 같이 평균(μ)을 중심으로 좌우 대칭을 말한다. 정규분포를 그리는 곡선을 오차 곡선 또는 확률 밀도 곡선이라 부른다. 기계가 나사를 깎거나, 학생이 공 멀리 던지기를 하거나 또는 재단사가 옷 치수를 재는 경우 상황에 따라 목표치 또는 평균치와 ‘오차’가 발생하게 되는데, 이 오차 크기가 일반적으로 정규 분포(normal distribution)을 따르기 때문이다. 오차 평균치는 일반적으로 0이 될 수 없고, 평균값(μ)을 중심으로 좌우대칭을 이룬다.

 

figure1. normal distribution

figure 1. 정규 분포 곡선

 

정규분포가 유용한 것은 우리가 정규분포를 따르는 어떤 일에 대한 데이터를 수집하고 이의 평균(μ)과 표준편차(σ)만 알고 있으면 이 분포에 관한 모든 것을 알 수 있기 때문이다.

 

※ 참고
평균을 μ라 쓰는 이유는 영어에서 평균은 mean을 의미하고, m에 해당하는 그리스어 소문자는 μ(mu, 뮤)이기 때문이며, 표준편차를 σ라 쓰는 이유는 영어에서 표준편차는 standard deviation을 의미하고, s에 해당하는 그리스어 소문자는 σ(sigma, 시그마)이기 때문이다.

 

위 그림에서 보여지다시피, 평균으로부터 표준편차만큼의 거리 면적(μ + σ 또는 μ - σ) 은 0.3415(0.683 / 2)이다. 평균으로부터 표준편차 두 배 만큼의 거리(μ + 2σ 또는 μ - 2σ), μ + 2σ까지의 면적은 0.477이다.

 

예를 들어, 한국 20대 남성 표준 키는 173이고, 표준편차는 5.5인데(http://sizekorea.kats.go.kr), 신장은 정규분포를 따르므로 우리는 다음과 같은 분포를 가졌다고 말할 수 있다.

 

table 1. 20대 남성 신장 구간별 백분위 추산 표

구간

신장(cm)

백분율(%)

μ + 3σ 이상 189.5 이상 0.135
μ + 2σ ~ μ + 3σ 184 ~ 189.5 2.145
μ + σ ~ μ + 2σ 178.5 ~ 184 13.59
μ  ~ μ + σ 173 ~ 178.5 34.13
μ – σ ~ μ 167.5 ~ 173 34.13
μ – 2σ ~ μ – σ 162 ~ 167.5 13.59
μ – 3σ ~ μ – 2σ 156.5 ~ 162 2.145
μ – 3σ 이하 162 이하 0.135

 

한동안 그리고 여전히 인터넷을 달구고 있는 키 논쟁을 굳이 상기 시키고 싶지 않지만, 키 178.5 이상 20대 인구는 2010년 현재 20대 인구가 약 700만 명이므로 이의 15% 정도인 100만 명 수준이라는 것을 짐작 할 수 있다.

위 20대 남성 신장 정규 분포로부터 임의의 데이터를 무작위로 뽑았을 때 해당 데이터가 속할 구간의 확률과 같으므로 오차 곡선이란 말 대신 확률 밀도 곡선이라고 부르기도 한다.

 

정규분포에 사용하는 누적분포함수를 구하는 것은 적분을 필요로 하는데 이 적분을 구하기 어렵다.[1] 그래서 아래 그림과 같은 정규분포표를 사용한다. 정규분포표는 몇 가지 형태가 있는데, 아래 그림과 같이 –∞로부터 +∞까지 면적을 모두 표시 한 것이 있고, μ로부터 +∞까지 표시한 경우에는 아래 표로부터 0.5씩 빼면 된다.

 

figure2

figure2. 표준 정규 분포표

 

2. 인도 위 표지판 높이 문제

나는 초중고 시절 인도 위를 걸으며 가장 힘들었던 것 중 하나가 표지판 문제였다. (중학교 입학 시 170cm을 좀 넘었고, 신검 때 180cm였다.) 요즘은 많이 개선됐지만 그 시절 대충 설치한 인도 위 표지판으로 여러 번 머리를 찧었고, 때론 크게 다쳤다.

다음과 같은 문제를 생각해보자.

국회에서 새롭게 표지판 높이를 재정하기를 183cm로 할 경우, 이 표지판 높이로 인해 어려움을 겪을 20대 남성 수는 얼마나 될지 추산해보자. (μ = 173cm, σ = 5.5)

z 값은 다음과 같이 구할 수 있다.

z = |μ – 183| / σ = 10 / 5.5 = 1.81

위 정규분포표로부터 z = 1.81인 값을 찾아보면 0.9649이다. 즉 183cm 이하의 인구 백분율이 96.49% 이므로 어려움을 겪을 인구의 백분율은 100 – 96.49 = 3.51%가 되겠다. 20대 남성 약 700만 명 중 245,700 여명이 불편을 겪게 된다.

그러면, 불편함을 겪을 20대 남성 비율을 0.005 미만으로 낮추기 위해서는 표지판 높이를 얼마로 해야 할까?

0.995의 근사치 값을 가지는 z 값을 위 정규분포표로부터 찾으면 2.58(0.9951)을 선택 할 수 있다.

z = |μ – x| / σ = 2.58이므로, x = μ + 2.58σ = 187.19 cm 이상으로 인도 위 표지판 높이를 지정하면 불편함을 느끼는 20대 남성은 기존 3.51%에서 0.5% 미만으로 낮출 수 있게 된다.

 

3. 성적 처리 문제

위 표지판 문제와 동일한 예를 하나 더 다루도록 하자. 수강인원이 280명인 교양 과목이 있다고 하자. (내가 아무리 보따리 장수라지만 저건 강의료 더블로 준다고 해도 안하고 만다. ㅡ_ㅡ; 참고로 작년엔가 저번 학기엔가 임상 의공학 재수강 포함해서 약 100여명 둘이서 채점하는데 3박 4일 걸렸다. 꼬박…)

문제로 돌아와서 기말 과제까지 채점한 결과 평균 83점. 표준편차 7점이었다.

280명 중 5%인 14명에게 학점 A+를 주기 위해서는 몇 점 이상일까?

※ 참고로 성적 분포는 정규 분포 형태를 지닌다.

위 표준 정규 분포표에서 면적이 0.95 이상이 되는 영역을 찾으면 z 값은 1.65(면적은 0.9505)이다.

z = |μ – x| / σ = 1.65이므로 x = μ + 1.65σ = 83 + (1.65 * 7) = 94.55 이다.

만일 82점을 받은 홍길동이라는 학생이 있다면, 이 친구의 학점은 무엇일까? 단, 학점 배분은 아래와 같다.

 

table 2. 학점 배분 표

학점

백분율(%)

A+

5

A0

5

B+

15

B0

20

C+

20

C0

10

D+

15

D0

5

F0

5

 

82점에 대한 z 값은 0.14로 (z = |μ – x| / σ) 위 표준 정규 분포표에서 면적은 0.5557이다.

F0에서 C+까지 학점의 백분율 총합은 55%이므로, 홍길동의 학점은 B0가 되겠다.

 

4. 나사 수율 문제

정규분포를 가지고서 좀 더 재미있는 문제를 생각해보자.

“인제 볼트&너츠社”는 본 플레이트[2]에 사용할 볼트 제작을 위해 신규 라인을 설립하고 스위스로부터 기계를 도입했다. 이 제품의 길이는 50±1mm가 합격 범위인데, 불량률이 10.6%로 신규 라인 책임자인 도우너는 골머리를 썩히고 있다. 불량률에 대해 좀 더 상세히 조사한 결과, 규격보다 큰, 즉 51mm 초과 볼트가 10.2%, 규격보다 작은, 즉 49mm 미만 볼트가 0.4% 였다. 불량률을 최소화 하기 위해서는 어떻게 해야 하는가? (※ 이 문제는 [3]의 p.p88의 문제를 각색하였다.)

특정한 길이를 목표로 만들어내는 기계에서 발생하는 오차는 일반적으로 정규분포에 의한다고 볼 수 있다. 그러므로 미지의 평균(μ)로부터 51mm까지의 거리를 Z1, 41mm까지의 거리를 Z2라고 하고 51mm 초과 불량률 10.2%와 49mm 미만 불량률 0.4%의 정규분포는 아래와 같다.

 

figure3

figure3. 나사 수율 정규분포

 

불량률을 최소화 하기 위해서는 기계 상태를 조작하여 분포를 작게 하는 방법과 절단하는 위치를 조작하여 절단 위치의 평균을 이동하는 방법을 생각해볼 수 있다. 분포를 작게 하기 위해서는 정밀도를 올려야 하며, 이는 고비용을 요한다. 예를 들어, 800X 광학 현미경과 1500X 광학 현미경 간 가격차이를 생각해봐도 자명하다.

그러므로 최소한의 비용으로 불량률을 줄이는 방법은 기계를 조작하여 절단 평균을 변경하는 것이다. 좌우 대칭의 정규분포에서 합격률(위의 경우 49mm ~ 51mm)을 올리기 위해서는 평균이 있는 위치로 폭의 중심을 이동시키면 그 면적은 가장 커진다. 

※ 참고
위 figure2에서, Z = 0.5 즉 μ+0.5σ 또는 μ-0.5σ 의 면적은 0.1915 (∵ –∞ ~ μ까지의 면적 0.5를 차감)로 μ-0.5σ 에서 μ+0.5σ까지의 거리, 즉 Z = 1에서 면적은 0.383이고, μ에서 μ+σ까지의 거리, 즉 Z = 1에서 면적은 0.3413(∵ –∞ ~ μ까지의 면적 0.5를 차감)이기 때문이다.

그러므로 불량률을 적게 또는 합격률을 높게 하기 위해서는 평균값을 움직여 49mm 미만 불량품과 51mm 초과 불량품의 비율을 같도록 해주면 된다. 그러므로, 기계에서 볼트를 절단하는 부분을 얼마나 움직여야 하는가 문제이다.

위 figure3에서 녹색 영역은 0.5 – 0.102 즉, 0.398이다. Z1의 값이 0.398이 되는 곳을 정규분포에서 찾아보면, 1.27이다. (0.8980 – 0.5) 흰색 영역은 0.496으로 Z2의 값이 0.496이 되는 곳은 2.65이다.

Z1 = 1.27이란 의미는 μ + 1.27σ와 같고, Z2 = 2.65라는 의미는 μ – 2.65σ와 같다는 의미이다.

이 길이가 2mm이므로

μ + 1.27σ – (μ – 2.65σ) = 2mm

σ = (1.27 + 2.65) / 2 = 0.51mm

이다.

폭의 중심을 평균으로 옮긴다는 것은 좌우 너비를 같게 해준다는 것으로 Z1 = Z2가 되도록 한다는 것이다. 그러므로 (Z1 + Z2) / 2 = 1.96으로 figure3에서의 중앙선을 좌측(-)으로 0.69만큼 이동 시키면 된다.(1.96 – 1.27) 이는 표준편차 단위이므로

0.69 × 0.51 ≒ 0.35mm

만큼 평균값을 이동하면 된다.

그러므로 제품 규격의 평균을 0.35mm정도 작게 절단 위치를 조절하면, Z1 = Z2 = 1.96이고 이의 면적은 0.475로 합격률은 95%가 된다. 위 문제에서 불량률이 10.6%였던 것이 5%로 줄어들게 된다.

 

5. 참고 자료

[1] http://www.mathnet.or.kr/mathnet/kms_tex/982256.pdf

[2] http://product-image.tradeindia.com/00043554/b/0/Bone-Plate.jpg

[3] 통계를 알면 인생이 달라진다, 오오무라 히도시, 자음과모음, 2000.06

[4] http://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC

'기초과학 > 통계학' 카테고리의 다른 글

정규분포 이야기  (0) 2010.11.10