จากเรื่องฮิสโตแกรม (Histogram) พื้นที่ของรูปสี่เหลี่ยมผื้นผ้าแต่ละรูปในฮิสโตแกรมแทนความถี่ของแต่ละอันตรภาคชั้น ถ้าเขียนรูปหลายเหลี่ยมของความถี่และปรับรูปหลายเหลี่ยมของความถี่ให้เป็นเส้นโค้งเรียบ จะได้เส้นโค้งความถี่ซึ่งพื้นที่ใต้เส้นโค้งความถี่จะแทนความถี่ของค่าจากการสังเกตทั้งหมด
เส้นโค้งความถี่ที่พบบ่อยมักมีลักษณะเป็นรูประฆังซึ่งเรียกว่า เส้นโค้งปกติ การแจกแจงความถี่ของข้อมูลซึ่งเส้นโค้งที่ได้มีลักษณะเป็นรูประฆัง เรียกว่า การแจกแจงปกติ สมการของเส้นโค้งนี้ขึ้นอยู่กับค่า 2 ค่า คือ ค่าเฉลี่ยเลขคณิตและส่วนเบี่ยงเบนมาตรฐาน ถ้ากำหนดค่าเฉลี่ยเลขคณิตและส่วนเบี่ยงเบนมาตรฐานให้จะสามารถหาสมการของเส้นโค้งปกติได้และเขียนรูปได้ ดังนี้
จากรูปจะเห็นว่า ลักษณะของเส้นโค้งปกติเป็นรูประฆัง ซึ่งเป็นรูปสมมาตรโดยมีเส้นประเป็นแกนสมมาตร จึงเรียกว่า การแจกแจงปกติ
สมบัติของเส้นโค้งปกติ
1) ค่าเฉลี่ยเลขคณิต มัธยฐาน และฐานนิยมจะเท่ากัน และจะอยู่ ณ จุดที่เส้นตรงที่ลากผ่านจุดโด่งสุดชองเส้นโค้งนั้นตั้งฉากกับแกนนอน
2) เส้นโค้งจะมีเส้นตั้งฉากกับแกนนอนที่ลากผ่านค่าเฉลี่ยเลขคณิตเป็นแกนสมมาตร
3) เส้นโค้งจะเข้าใกล้แกนนอน เมื่อต่อปลายเส้นโค้งทั้งสองข้างให้ห่างจากค่าเฉลี่ยเลขคณิตออกไป แต่จะไม่ตัดแกนนอน
4) พื้นที่โต้เส้นโค้งปกติมีค่าเท่ากับ 1 เสมอ
5) พื้นที่ที่อยู่เหนือค่าใดค่าหนึ่งของ \(X\) จะเป็น 0 เสมอ จะได้ว่าพื้นที่ใต้เส้นโค้งปกติซึ่งอยู่ระหว่างค่าของ \(X\) ในช่วงปิด \([x_{1},x_{2}]\) จะเท่ากับพื้นที่ใต้เส้นโค้งปกติซึ่งอยู่ระหว่างค่าของ \(X\) ในช่วงเปิด \((x_{1},x_{2})\)
พื้นที่ใต้เส้นโค้งปกติ
ถ้าทราบสมการเส้นโค้งปกติ จะสามารถหาพื้นที่ใต้เส้นโค้งปกติซึ่งอยู่ระหว่างค่า \(X\) สองค่าใดๆคือ \(x_{1}\) และ \(x_{2}\) ได้ โดยใช้วิธีการของแคลคูลัส
แต่ในทางปฏิบัติ จะหาพื้นที่ใต้เส้นโค้งปกติได้โดยใช้ตารางแสดงพื้นที่ใต้เส้นโค้งปกติ แต่เนื่องจากเป็นไปไม่ได้ที่จะสร้างตารางหลายๆ ตารางมาแสดงพท้นที่ใต้เส้นโค้งปกติซึ่งค่าเฉลี่ยเลขคณิตและส่วนเบี่ยงเบนมาตรฐานต่างกัน ดังนั้น จึงใช้วิธีแปลงค่า \(X\) ให้เป็นคะแนนมาตรฐาน(Z) โดยใช้สูตร \(Z=\frac{X-\mu}{\sigma}\) ซึ่งจะพิสูจน์ได้ว่าสค่าเฉลี่ยเลขคณิตของ \(Z\) คือ \(0\) และส่วนเบี่ยงเบนมาตรฐานของ\(Z\) คือ \(1\)
พื้นที่ใต้เส้นโค้งปกติระหว่าง \(x_{1}\) และ \(x_{2}\) จะเท่ากับพื้นที่ใต้เส้นโค้งปกติระหว่าง \(z_{1}\) และ \(z_{2}\) เมื่อ \(z_{1}=\frac{x_{1}-\mu}{\sigma}\) และ \(z_{2}=\frac{x_{2}-\mu}{\sigma}\)
เส้นโค้งปกติซึ่งได้จากชุดข้อมูลที่มีค่าเฉลี่ยเลขคณิตเป็น 0 และส่วนเบี่ยงเบนมาตรฐานเป็น 1 เรียกว่า เส้นโค้งปกติมาตรฐาน ในการหาพื้นที่ใต้เส้นโค้งปกติมาตรฐานระหว่างคะแนนมาตรฐาน \(0\) ถึง \(Z\) ใดๆ จะใช้ตารางแสดงพื้นที่ใต้เส้นโค้งปกติมาตรฐาน ซึ่งแสดงพื้นที่ใต้เส้นโค้งปกติมาตรฐานระหว่างคะแนนมาตรฐาน \(0\) และค่าอื่นๆ ของ \(Z\) คือ \(0.01,0.02,0.03,\cdots ,3.88,3.89\) เช่น พื้นที่ใต้เส้นโค้งปกติระหว่างคะแนนมาตรฐาน \(0\) และ \(1.25\) ที่อ่านได้จากตารางคือ \(0.3944\)
ตารางพื้นที่ใต้เส้นโค้งปกติมาตรฐานที่ใช้ส่วนใหญ่ ไม่มีค่า \(Z\) ที่เป็นจำนวนลบ แต่สามารถหาพื้นที่ใต้เส้นโค้งปกติมาตรฐานระหว่าง \(Z\) ที่เป็นจำนวนลบและศูนย์ได้ เนื่องจากเส้นที่ตั้งฉากกับแกนนอนที่ลากผ่านคะแนนมาตรฐาน \(0\) เป็นแกนสามาตรของเส้นโค้งปกติ เช่น
พื้นที่ใต้เส้นโค้งปกติมาตรฐานระหว่างคะแนนมาตรฐาน \(-1.25\) และ \(0\) หาได้จากการหาพื้นที่ ใต้เส้นโค้งปกติมาตรฐานระหว่างคะแนนมาตรฐาน \(0\) ถึง \(1.25\) ซึ่งเท่ากับ \(0.3944\) เช่นเดียวกัน
เนื่องจากพื้นที่ใต้เส้นโค้งปกติมาตรฐานเท่ากับ \(1\) ดังนั้นพื้นที่ทางขวามือของคะแนนมาตรฐาน \(0\) กับพื้นที่ทางซ้ายมือของคะแนนมาตรฐาน \(0\) เท่ากันคือ \(0.5\) อาศัยความรู้ดังกล่าวจะหาพื้นที่ใต้เส้นโค้งปกติมาตรฐานทางขวามือหรือซ้ายมือของค่า \(Z\) ใดๆ และพื้นที่ใต้เส้นโค้งปกติมาตรฐานระหว่างค่า \(Z\) สองค่าใดๆ ได้ เช่น
ที่นี้เรามาลองทำแบบฝึกหัดเกี่ยวกับการแจกแจงปกติและเส้นโค้งปกติกันครับ
1. ถ้าข้อมูลชุดหนึ่งมีการแจกแจงปกติโดยมีค่าเฉลี่ยเลขคณิตเป็น 400 หน่วย และส่วนเบี่ยงเบนมาตรฐานเป็น 100 หน่วย อยากทราบว่ามีกี่เปอร์เซ็นต์ของข้อมูลซึ่งมีค่า
1) มากกว่า 538
2) มากว่า 179
3) น้อยกว่า 356
4) ระหว่าง 318 และ 671
วิธีทำ
1) มากกว่า 538
ให้ \(x\) เป็นค่าของข้อมูล และโจทย์กำหนดให้ \(\mu=400\) และ \(\sigma =100\)
จาก \(z=\frac{x-\mu}{\sigma}\)
จะได้ \(z=\frac{538-400}{100}=1.38\)
จากตารางพื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=0\) ถึง \(z=1.38\) คือ \(0.4162\) ดังนั้น พื้นที่ใต้เส้นโค้งปกติเมื่อ \(z>1.38\) คือ \(0.5-0.4162=0.0838\) นั่นคือ มีข้อมูล \(8.38\%\) ของข้อมูลทั้งหมด มีค่ามาก \(538\)
2) มากว่า 179
จะได้ \(z=\frac{179-400}{100}=-2.21\)
จะได้พื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=-2.21\) ถึง \(z=0\) คือ \(0.4864\) ดังนั้น พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(z>-2.21\) คือ \(0.5+0.4864=0.9864\) นั่นคือ มีข้อมูล \(98.64\%\) ของข้อมูลทั้งหมด มีค่ามากกว่า \(179\)
3) น้อยกว่า 356
จะได้ \(z=\frac{356-400}{100}=-0.44\)
จะได้พื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=-0.44\) ถึง \(z=0\) คือ \(0.1700\) ดังนั้น พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(z<-0.44\) คือ \(0.5-0.1700=0.3300\) นั่นคือ มีข้อมูล \(33\%\) ของข้อมูลทั้งหมด มีค่าน้อยกว่า \(356\)
4) ระหว่าง 318 และ 671
จะได้ \(z_{1}=\frac{318-400}{100}=-0.82\)
\(z_{2}=\frac{671-400}{100}=2.71\)
จากตาราง พื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=0\) ถึง \(z=2.71\) คือ \(0.4966\) จะได้พื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=-0.82\) ถึง \(z=0\) คือ \(0.2939\) ดังนั้น พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(-0.82<z<2.71\) คือ \(0.4966+0.2939=0.7905\) นั่นคือ มีข้อมูล \(79.05\%\) ของข้อมูลทั้งหมด มีค่าระหว่าง \(318\) และ \(671\)
2. ในการบรรจุกาแฟชนิดหนึ่งลงขวดให้มีน้ำหนักสุทธิ 115 กรัม ถ้าน้ำหนักของกาแฟที่บรรจุ มีการแจกแจงปกติ และมีน้ำหนักเฉลี่ยเท่ากับ 115.5 กรัม ส่วนเบี่ยงเบนมาตรฐานเท่ากับ 0.3 กรัม อยากทราบว่ามีกี่เปอร์เซ็นต์ที่กาแฟในแต่ละขวดมีน้ำหนัก
1) ระหว่าง 115 กรัม และ 115.5 กรัม
2) ระหว่าง 114.9 กรัม และ 115.5 กรัม
3) มากกว่า 115.5 กรัม
4) น้อยกว่า 115 กรัม
เริ่มทำไปทีละข้อย่อยนะคับ
โดยกำหนดให้ \(x\) เป็นน้ำหนักของกาแฟ โดยกำหนด \(\mu =115.5\) และ \(\sigma =0.3\)
1) ระหว่าง 115 กรัม และ 115.5 กรัม
จาก \(z=\frac{x-\mu}{\sigma}\)
จะได้ \(z_{1}=\frac{115-115.5}{0.3}\approx -1.667\)
\(z_{2}=\frac{115.5-115.5}{0.3}=0\)
ตารางพื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=0\) ถึง \(z=1.66\) คือ \(0.4515\) และ \(z=0\) ถึง \(z=1.67\) คือ \(0.4525\)
จะได้พื้นที่ใต้เส้นโค้งปกติระหว่าง \(z=0\) ถึง \(z=1.667\) คือ
\[0.4515+\left(\frac{0.001\times 0.007}{0.01}\right)=0.4522\]
ดังนั้น พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(-1.667<z<0\) คือ 0.4522
นั่นคือ มีขวดกาแฟ \(45.22\%\) ของขวดกาแฟทั้งหมด ที่กาแฟในแต่ละขวดมีน้ำหนักระหว่าง 115 กรัม และ 115.5 กรัม
2) ระหว่าง 114.9 กรัม และ 115.5 กรัม
จะได้ \(z_{1}=\frac{114.9-115.5}{0.3}=-2\)
\(z_{2}=\frac{115.5-115.5}{0.3}=0\)
จะได้ พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(-2<z<0\) คือ \(0.4772\)
นั่นคือ มีขวดกาแฟ \(47.72\%\) ของกาแฟทั้งหมดที่กาแฟในแต่ละขวดมีน้ำหนักระหว่าง \(114.9\) กรัม และ \(115.5\) กรัม
3) มากกว่า 115.5 กรัม
จะได้ \(z=\frac{115.5-115.5}{0.3}=0\)
ดังนั้น พื้นที่ใต้เส้นโค้งปกติ เมื่อ \(z>0\) คือ \(0.5\)
นั่นคือ มีขวดกาแฟ \(50\%\) ของการแฟทั้งหมดที่กาแฟในแต่ละขวดมีน้ำหนักมากกว่า 115.5 กรัม
4) น้อยกว่า 115 กรัม
จะได้ \(z=\frac{115-115.5}{0.3}\approx -1.667\)
จะได้พื้นที่ใต้เส้นโค้งปกติ ระหว่าง \(z=0\) ถึง \(z=1.667\) คือ \(0.4522\)
ดังนั้น พื้นที่ใต้เส้นโค้งปกติเมื่อ \(z<-1.667\) คือ \(0.5-0.4522=0.0478\)
นั่นคือ มีขวดกาแฟ \(4.78\%\) ขวดกาแฟทั้งหมดที่กาแฟในแต่ละขวดมีน้ำหนักมากกว่า 115 กรัม