केंद्रीय प्रवृत्ति बनाम फैलाव
वर्णनात्मक और अनुमानात्मक आँकड़ों में, कई सूचकांकों का उपयोग इसकी केंद्रीय प्रवृत्ति, फैलाव और तिरछापन के अनुरूप डेटा सेट का वर्णन करने के लिए किया जाता है: तीन सबसे महत्वपूर्ण गुण जो डेटा सेट के वितरण के सापेक्ष आकार को निर्धारित करते हैं।
केंद्रीय प्रवृत्ति क्या है?
केंद्रीय प्रवृत्ति मूल्यों के वितरण के केंद्र को संदर्भित करती है और उसका पता लगाती है। डेटा सेट की केंद्रीय प्रवृत्ति का वर्णन करने के लिए माध्य, मोड और माध्यिका सबसे अधिक उपयोग किए जाने वाले सूचकांक हैं। यदि कोई डेटा सेट सममित है, तो डेटा सेट का माध्य और माध्य दोनों एक दूसरे के साथ मेल खाते हैं।
एक डेटा सेट को देखते हुए, माध्य की गणना सभी डेटा मानों का योग लेकर और फिर इसे डेटा की संख्या से विभाजित करके की जाती है। उदाहरण के लिए, 10 लोगों (किलोग्राम में) का वजन 70, 62, 65, 72, 80, 70, 63, 72, 77 और 79 मापा जाता है। तब दस लोगों का औसत वजन (किलोग्राम में) हो सकता है निम्नानुसार गणना की जाती है। भार का योग 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710 है। माध्य=(योग) / (डेटा की संख्या)=710/10=71 (किलोग्राम में)। यह समझा जाता है कि आउटलेयर (डेटा बिंदु जो सामान्य प्रवृत्ति से विचलित होते हैं) माध्य को प्रभावित करते हैं। इस प्रकार, आउटलेर्स की उपस्थिति में अकेले डेटा सेट के केंद्र के बारे में एक सही तस्वीर नहीं देगा।
माध्यिका डेटा सेट के ठीक बीच में पाया जाने वाला डेटा बिंदु है। माध्यिका की गणना करने का एक तरीका डेटा बिंदुओं को आरोही क्रम में क्रमित करना है, और फिर बीच में डेटा बिंदु का पता लगाना है। उदाहरण के लिए, यदि एक बार ऑर्डर करने पर पिछला डेटा सेट 62, 63, 65, 70, 70, 72, 72, 77, 79, 80 जैसा दिखता है।इसलिए, (70+72)/2=71 बीच में है। इससे यह देखा जाता है कि डेटा सेट में माध्यिका का होना आवश्यक नहीं है। आउटलेर्स की उपस्थिति से माध्यिका प्रभावित नहीं होती है। इसलिए, बाहरी लोगों की उपस्थिति में माध्यिका केंद्रीय प्रवृत्ति के बेहतर माप के रूप में काम करेगी।
डेटा के सेट में मोड सबसे अधिक बार आने वाला मान है। पिछले उदाहरण में, मान 70 और 72 दोनों दो बार आते हैं और इस प्रकार, दोनों मोड हैं। इससे पता चलता है कि, कुछ वितरणों में, एक से अधिक मोडल मान होते हैं। यदि केवल एक मोड है, तो डेटा सेट को एकरूप कहा जाता है, इस मामले में, डेटा सेट द्वि-मोडल है।
फैलाव क्या है?
वितरण केंद्र के बारे में डेटा के प्रसार की मात्रा है। परास और मानक विचलन फैलाव के सबसे अधिक उपयोग किए जाने वाले उपाय हैं।
सीमा केवल उच्चतम मान घटा न्यूनतम मान है। पिछले उदाहरण में, उच्चतम मान 80 है और निम्नतम मान 62 है, इसलिए सीमा 80-62=18 है। लेकिन सीमा फैलाव के बारे में पर्याप्त तस्वीर प्रदान नहीं करती है।
मानक विचलन की गणना करने के लिए, पहले माध्य से डेटा मानों के विचलन की गणना की जाती है। विचलनों का मूल वर्ग माध्य मानक विचलन कहलाता है। पिछले उदाहरण में, माध्य से संबंधित विचलन हैं (70 - 71)=-1, (62 - 71)=-9, (65 - 71)=-6, (72 - 71)=1, (80 - 71)=9, (70 - 71)=-1, (63 - 71)=-8, (72 - 71)=1, (77 - 71)=6 और (79 - 71)=8. का योग विचलन का वर्ग है (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 मानक विचलन √(366/10)=6.05 (किलोग्राम में) है। जब तक डेटा सेट बहुत अधिक विषम न हो, इससे यह निष्कर्ष निकाला जा सकता है कि अधिकांश डेटा 71±6.05 के अंतराल में है, और इस विशेष उदाहरण में वास्तव में ऐसा ही है।
केंद्रीय प्रवृत्ति और फैलाव में क्या अंतर है?
• केंद्रीय प्रवृत्ति मूल्यों के वितरण के केंद्र को संदर्भित करती है और उसका पता लगाती है
• फैलाव एक डेटा सेट के केंद्र के बारे में डेटा के प्रसार की मात्रा है।