डेटा माइनिंग बनाम OLAP
डेटा माइनिंग और OLAP दोनों ही सामान्य बिजनेस इंटेलिजेंस (BI) तकनीकों में से दो हैं। व्यावसायिक बुद्धिमत्ता का तात्पर्य व्यावसायिक डेटा से उपयोगी जानकारी की पहचान करने और निकालने के लिए कंप्यूटर-आधारित विधियों से है। डेटा माइनिंग कंप्यूटर विज्ञान का क्षेत्र है, जो डेटा के बड़े सेट से दिलचस्प पैटर्न निकालने से संबंधित है। यह आर्टिफिशियल इंटेलिजेंस, सांख्यिकी और डेटाबेस प्रबंधन से कई तरीकों को जोड़ती है। OLAP (ऑनलाइन विश्लेषणात्मक प्रसंस्करण) जैसा कि नाम से पता चलता है, बहु-आयामी डेटाबेस को क्वेरी करने के तरीकों का एक संकलन है।
डेटा माइनिंग को डेटा में नॉलेज डिस्कवरी (KDD) के रूप में भी जाना जाता है।जैसा कि ऊपर उल्लेख किया गया है, यह कंप्यूटर विज्ञान का एक क्षेत्र है, जो कच्चे डेटा से पहले अज्ञात और दिलचस्प जानकारी के निष्कर्षण से संबंधित है। डेटा की घातीय वृद्धि के कारण, विशेष रूप से व्यवसाय जैसे क्षेत्रों में, डेटा माइनिंग डेटा के इस बड़े धन को व्यावसायिक बुद्धिमत्ता में बदलने के लिए बहुत महत्वपूर्ण उपकरण बन गया है, क्योंकि पिछले कुछ दशकों में पैटर्न का मैन्युअल निष्कर्षण असंभव प्रतीत होता है। उदाहरण के लिए, वर्तमान में इसका उपयोग विभिन्न अनुप्रयोगों जैसे सोशल नेटवर्क विश्लेषण, धोखाधड़ी का पता लगाने और विपणन के लिए किया जाता है। डेटा माइनिंग आमतौर पर निम्नलिखित चार कार्यों से संबंधित है: क्लस्टरिंग, वर्गीकरण, रिग्रेशन और एसोसिएशन। क्लस्टरिंग असंरचित डेटा से समान समूहों की पहचान कर रहा है। वर्गीकरण सीखने के नियम हैं जिन्हें नए डेटा पर लागू किया जा सकता है और इसमें आम तौर पर निम्नलिखित चरण शामिल होंगे: डेटा का प्रीप्रोसेसिंग, मॉडलिंग डिजाइन करना, सीखना/सुविधा चयन और मूल्यांकन/सत्यापन। प्रतिगमन मॉडल डेटा में न्यूनतम त्रुटि वाले फ़ंक्शन ढूंढ रहा है। और एसोसिएशन चरों के बीच संबंधों की तलाश में है।डेटा माइनिंग का उपयोग आमतौर पर सवालों के जवाब देने के लिए किया जाता है जैसे कि मुख्य उत्पाद कौन से हैं जो अगले साल वॉल-मार्ट में उच्च लाभ प्राप्त करने में मदद कर सकते हैं।
OLAP सिस्टम का एक वर्ग है, जो बहु-आयामी प्रश्नों के उत्तर प्रदान करता है। आमतौर पर OLAP का उपयोग मार्केटिंग, बजट, पूर्वानुमान और इसी तरह के अनुप्रयोगों के लिए किया जाता है। यह बिना कहे चला जाता है कि OLAP के लिए उपयोग किए जाने वाले डेटाबेस को त्वरित प्रदर्शन को ध्यान में रखते हुए जटिल और तदर्थ प्रश्नों के लिए कॉन्फ़िगर किया गया है। आमतौर पर एक OLAP के आउटपुट को प्रदर्शित करने के लिए एक मैट्रिक्स का उपयोग किया जाता है। पंक्तियों और स्तंभों का निर्माण क्वेरी के आयामों द्वारा किया जाता है। वे अक्सर सारांश प्राप्त करने के लिए कई तालिकाओं पर एकत्रीकरण के तरीकों का उपयोग करते हैं। उदाहरण के लिए, इसका उपयोग पिछले वर्ष की तुलना में वॉल-मार्ट में इस वर्ष की बिक्री के बारे में पता लगाने के लिए किया जा सकता है? अगली तिमाही में बिक्री पर क्या भविष्यवाणी है? प्रतिशत परिवर्तन को देखकर प्रवृत्ति के बारे में क्या कहा जा सकता है?
हालांकि यह स्पष्ट है कि डेटा माइनिंग और OLAP समान हैं क्योंकि वे खुफिया जानकारी हासिल करने के लिए डेटा पर काम करते हैं, मुख्य अंतर यह है कि वे डेटा पर कैसे काम करते हैं।OLAP उपकरण बहुआयामी डेटा विश्लेषण प्रदान करते हैं और वे डेटा का सारांश प्रदान करते हैं लेकिन इसके विपरीत, डेटा माइनिंग डेटा के सेट में अनुपात, पैटर्न और प्रभावों पर केंद्रित है। यह एकत्रीकरण के साथ एक OLAP सौदा है, जो "अतिरिक्त" के माध्यम से डेटा के संचालन के लिए उबलता है, लेकिन डेटा माइनिंग "विभाजन" से मेल खाती है। अन्य उल्लेखनीय अंतर यह है कि डेटा माइनिंग टूल मॉडल डेटा और कार्रवाई योग्य नियमों को वापस करने के दौरान, OLAP वास्तविक समय में व्यावसायिक आयाम के साथ तुलना और कंट्रास्ट तकनीकों का संचालन करेगा।