श्रेणीबद्ध और आंशिक क्लस्टरिंग के बीच अंतर

श्रेणीबद्ध और आंशिक क्लस्टरिंग के बीच अंतर
श्रेणीबद्ध और आंशिक क्लस्टरिंग के बीच अंतर

वीडियो: श्रेणीबद्ध और आंशिक क्लस्टरिंग के बीच अंतर

वीडियो: श्रेणीबद्ध और आंशिक क्लस्टरिंग के बीच अंतर
वीडियो: केंद्रीकृत बनाम वितरित डेटाबेस 2024, जुलाई
Anonim

पदानुक्रमित बनाम आंशिक क्लस्टरिंग

क्लस्टरिंग डेटा का विश्लेषण करने और समान डेटा के समूहों में विभाजित करने के लिए एक मशीन लर्निंग तकनीक है। इन समूहों या समान डेटा के सेट को क्लस्टर के रूप में जाना जाता है। क्लस्टर विश्लेषण क्लस्टरिंग एल्गोरिदम को देखता है जो क्लस्टर को स्वचालित रूप से पहचान सकता है। पदानुक्रमित और आंशिक क्लस्टरिंग एल्गोरिदम के दो ऐसे वर्ग हैं। पदानुक्रमित क्लस्टरिंग एल्गोरिदम डेटा को समूहों के पदानुक्रम में विभाजित करता है। पारिश्रमिक एल्गोरिदम डेटा सेट को परस्पर असंबद्ध विभाजनों में विभाजित करते हैं।

श्रेणीबद्ध क्लस्टरिंग क्या है?

श्रेणीबद्ध क्लस्टरिंग एल्गोरिदम छोटे समूहों को बड़े समूहों में विलय करने या बड़े समूहों को छोटे समूहों में विभाजित करने के चक्र को दोहराते हैं।किसी भी तरह से, यह क्लस्टर के एक पदानुक्रम का निर्माण करता है जिसे डेंडोग्राम कहा जाता है। एग्लोमेरेटिव क्लस्टरिंग रणनीति बड़े समूहों में विलय के निचले-ऊपर के दृष्टिकोण का उपयोग करती है, जबकि विभाजनकारी क्लस्टरिंग रणनीति छोटे लोगों में विभाजित करने के टॉप-डाउन दृष्टिकोण का उपयोग करती है। आमतौर पर, लालची दृष्टिकोण का उपयोग यह तय करने में किया जाता है कि विलय/विभाजन के लिए कौन से बड़े/छोटे समूहों का उपयोग किया जाता है। यूक्लिडियन दूरी, मैनहट्टन दूरी और कोसाइन समानता संख्यात्मक डेटा के लिए समानता के कुछ सबसे अधिक इस्तेमाल किए जाने वाले मीट्रिक हैं। गैर-संख्यात्मक डेटा के लिए, हैमिंग दूरी जैसे मीट्रिक का उपयोग किया जाता है। यह ध्यान रखना महत्वपूर्ण है कि पदानुक्रमित क्लस्टरिंग के लिए वास्तविक अवलोकन (उदाहरण) की आवश्यकता नहीं है, क्योंकि केवल दूरियों का मैट्रिक्स ही पर्याप्त है। डेंडोग्राम समूहों का एक दृश्य प्रतिनिधित्व है, जो पदानुक्रम को बहुत स्पष्ट रूप से प्रदर्शित करता है। जिस स्तर पर डेंडोग्राम काटा जाता है, उसके आधार पर उपयोगकर्ता अलग-अलग क्लस्टरिंग प्राप्त कर सकता है।

पार्टिशनल क्लस्टरिंग क्या है?

आंशिक क्लस्टरिंग एल्गोरिदम विभिन्न विभाजन उत्पन्न करते हैं और फिर किसी मानदंड से उनका मूल्यांकन करते हैं।उन्हें गैर-श्रेणीबद्ध भी कहा जाता है क्योंकि प्रत्येक उदाहरण को परस्पर अनन्य समूहों में से एक में रखा जाता है। चूंकि क्लस्टर का केवल एक सेट एक विशिष्ट विभाजन क्लस्टरिंग एल्गोरिदम का आउटपुट होता है, उपयोगकर्ता को क्लस्टर की वांछित संख्या (आमतौर पर के कहा जाता है) इनपुट करने की आवश्यकता होती है। सबसे अधिक उपयोग किए जाने वाले विभाजनीय क्लस्टरिंग एल्गोरिदम में से एक k- साधन क्लस्टरिंग एल्गोरिदम है। उपयोगकर्ता को शुरू करने से पहले क्लस्टर (के) की संख्या प्रदान करने की आवश्यकता होती है और एल्गोरिदम पहले k विभाजन के केंद्र (या सेंट्रोइड्स) शुरू करता है। संक्षेप में, k- साधन क्लस्टरिंग एल्गोरिथ्म तब वर्तमान केंद्रों के आधार पर सदस्यों को असाइन करता है और वर्तमान सदस्यों के आधार पर केंद्रों का पुन: अनुमान लगाता है। इन दो चरणों को तब तक दोहराया जाता है जब तक कि एक निश्चित इंट्रा-क्लस्टर समानता उद्देश्य फ़ंक्शन और इंटर-क्लस्टर असमानता उद्देश्य फ़ंक्शन को अनुकूलित नहीं किया जाता है। इसलिए, विभाजनात्मक क्लस्टरिंग एल्गोरिदम से गुणवत्ता परिणाम प्राप्त करने में केंद्रों का समझदार आरंभीकरण एक बहुत ही महत्वपूर्ण कारक है।

श्रेणीबद्ध और आंशिक क्लस्टरिंग में क्या अंतर है?

श्रेणीबद्ध और आंशिक क्लस्टरिंग में चलने के समय, धारणाओं, इनपुट मापदंडों और परिणामी समूहों में महत्वपूर्ण अंतर हैं। आमतौर पर, विभाजनीय क्लस्टरिंग पदानुक्रमित क्लस्टरिंग की तुलना में तेज़ है। पदानुक्रमित क्लस्टरिंग के लिए केवल एक समानता माप की आवश्यकता होती है, जबकि विभाजनात्मक क्लस्टरिंग के लिए क्लस्टर की संख्या और प्रारंभिक केंद्रों जैसी मजबूत धारणाओं की आवश्यकता होती है। पदानुक्रमित क्लस्टरिंग के लिए किसी इनपुट पैरामीटर की आवश्यकता नहीं होती है, जबकि विभाजनात्मक क्लस्टरिंग एल्गोरिदम को चलने के लिए क्लस्टर की संख्या की आवश्यकता होती है। पदानुक्रमित क्लस्टरिंग समूहों का अधिक सार्थक और व्यक्तिपरक विभाजन देता है लेकिन विभाजनात्मक क्लस्टरिंग का परिणाम बिल्कुल k क्लस्टर में होता है। श्रेणीबद्ध डेटा के लिए पदानुक्रमित क्लस्टरिंग एल्गोरिदम अधिक उपयुक्त हैं, जब तक कि एक समानता माप को तदनुसार परिभाषित किया जा सकता है।

सिफारिश की: