केडीडी बनाम डाटा माइनिंग
KDD (डेटाबेस में नॉलेज डिस्कवरी) कंप्यूटर विज्ञान का एक क्षेत्र है, जिसमें डिजीटल डेटा के बड़े संग्रह से उपयोगी और पहले की अज्ञात जानकारी (यानी ज्ञान) निकालने में मनुष्यों की मदद करने के लिए उपकरण और सिद्धांत शामिल हैं। KDD में कई चरण होते हैं, और डेटा माइनिंग उनमें से एक है। डेटा माइनिंग डेटा से पैटर्न निकालने के लिए एक विशिष्ट एल्गोरिथम का अनुप्रयोग है। फिर भी, केडीडी और डेटा माइनिंग का परस्पर उपयोग किया जाता है।
केडीडी क्या है?
जैसा कि ऊपर उल्लेख किया गया है, केडीडी कंप्यूटर विज्ञान का एक क्षेत्र है, जो कच्चे डेटा से पहले अज्ञात और दिलचस्प जानकारी के निष्कर्षण से संबंधित है।केडीडी उपयुक्त तरीकों या तकनीकों को विकसित करके डेटा को समझने की कोशिश करने की पूरी प्रक्रिया है। यह प्रक्रिया निम्न-स्तरीय डेटा को अन्य रूपों में मैप करने से संबंधित है जो अधिक कॉम्पैक्ट, सार और उपयोगी हैं। यह छोटी रिपोर्ट बनाकर, डेटा बनाने की प्रक्रिया को मॉडलिंग करके और भविष्य के मामलों की भविष्यवाणी करने वाले भविष्य कहनेवाला मॉडल विकसित करके प्राप्त किया जाता है। डेटा की घातीय वृद्धि के कारण, विशेष रूप से व्यवसाय जैसे क्षेत्रों में, केडीडी डेटा की इस बड़ी संपत्ति को व्यावसायिक खुफिया में बदलने के लिए एक बहुत ही महत्वपूर्ण प्रक्रिया बन गई है, क्योंकि पिछले कुछ दशकों में पैटर्न का मैन्युअल निष्कर्षण असंभव प्रतीत होता है। उदाहरण के लिए, वर्तमान में इसका उपयोग विभिन्न अनुप्रयोगों जैसे सोशल नेटवर्क विश्लेषण, धोखाधड़ी का पता लगाने, विज्ञान, निवेश, विनिर्माण, दूरसंचार, डेटा सफाई, खेल, सूचना पुनर्प्राप्ति और बड़े पैमाने पर विपणन के लिए किया जाता है। केडीडी का उपयोग आमतौर पर सवालों के जवाब देने के लिए किया जाता है जैसे कि मुख्य उत्पाद कौन से हैं जो अगले साल वॉल-मार्ट में उच्च लाभ प्राप्त करने में मदद कर सकते हैं?इस प्रक्रिया में कई चरण होते हैं। यह एप्लिकेशन डोमेन और लक्ष्य की समझ विकसित करने और फिर लक्ष्य डेटासेट बनाने के साथ शुरू होता है। इसके बाद डेटा की सफाई, प्रीप्रोसेसिंग, कमी और प्रक्षेपण होता है। अगला चरण पैटर्न की पहचान करने के लिए डेटा माइनिंग (नीचे समझाया गया) का उपयोग कर रहा है। अंत में, खोजे गए ज्ञान को कल्पना और/या व्याख्या करके समेकित किया जाता है।
डेटा माइनिंग क्या है?
जैसा कि ऊपर उल्लेख किया गया है, डेटा माइनिंग समग्र केडीडी प्रक्रिया के भीतर केवल एक कदम है। एप्लिकेशन के लक्ष्य द्वारा परिभाषित दो प्रमुख डेटा माइनिंग लक्ष्य हैं, और वे हैं सत्यापन या खोज। सत्यापन डेटा के बारे में उपयोगकर्ता की परिकल्पना की पुष्टि कर रहा है, जबकि खोज स्वचालित रूप से दिलचस्प पैटर्न ढूंढ रही है। चार प्रमुख डेटा माइनिंग कार्य हैं: क्लस्टरिंग, वर्गीकरण, रिग्रेशन, और एसोसिएशन (सारांशीकरण)। क्लस्टरिंग असंरचित डेटा से समान समूहों की पहचान कर रहा है। वर्गीकरण सीखने के नियम हैं जिन्हें नए डेटा पर लागू किया जा सकता है।प्रतिगमन मॉडल डेटा में न्यूनतम त्रुटि वाले फ़ंक्शन ढूंढ रहा है। और एसोसिएशन चरों के बीच संबंधों की तलाश में है। फिर, विशिष्ट डेटा माइनिंग एल्गोरिथम का चयन करने की आवश्यकता है। लक्ष्य के आधार पर, विभिन्न एल्गोरिदम जैसे लीनियर रिग्रेशन, लॉजिस्टिक रिग्रेशन, डिसीजन ट्री और Naïve Bayes का चयन किया जा सकता है। फिर एक या अधिक प्रतिनिधित्वात्मक रूपों में रुचि के पैटर्न की खोज की जाती है। अंत में, मॉडल का मूल्यांकन या तो भविष्य कहनेवाला सटीकता या बोधगम्यता का उपयोग करके किया जाता है।
केडीडी और डाटा माइनिंग में क्या अंतर है?
यद्यपि, केडीडी और डेटा माइनिंग दो शब्दों का परस्पर विनिमय के लिए अत्यधिक उपयोग किया जाता है, वे दो संबंधित अभी तक थोड़ी भिन्न अवधारणाओं को संदर्भित करते हैं। केडीडी डेटा से ज्ञान निकालने की समग्र प्रक्रिया है जबकि डेटा माइनिंग केडीडी प्रक्रिया के अंदर एक कदम है, जो डेटा में पैटर्न की पहचान करने से संबंधित है। दूसरे शब्दों में, डेटा माइनिंग केवल केडीडी प्रक्रिया के समग्र लक्ष्य के आधार पर एक विशिष्ट एल्गोरिथम का अनुप्रयोग है।