डाटा माइनिंग डाटा से पैटर्न निकालने की प्रक्रिया है। चूंकि अधिक डाटा एकत्रित हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,[1] डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है। सामान्य रूप से इसे विस्तृत व्यवहारों की रूपरेखा बनाने में प्रयोग किया जाता है, जैसे विपणन, निगरानी, धोखाधड़ी पहचान और वैज्ञानिक खोज.

एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं। इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है। परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं। किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है। इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का सत्यापन और प्रमाणीकरणहै

डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है। दूसरे भाव से भ्रम की स्थिति से बचने के लिए, डाटा ड्रेजिंग और डाटा स्नूपिंग पद का अक्सर इस्तेमाल किया जाता है। ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है।

पृष्ठभूमिसंपादित करें

मनुष्य सदियों से "हाथों से" डाटा से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है। आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है बाएस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है। चूंकि डाटा सेट, आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है। कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे न्यूरल नेटवर्क, क्लस्टरिंग, जेनेटिक एल्गोरिदम (1950s), डिसीज़न ट्री (1960s) और सपोर्ट वेक्टर मशीन (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है।[2] कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).

व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है। इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण एकरेखस्तता के प्रति संवेदनशील होते हैं। डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं। इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए चॉयस मॉडलिंग सुलझाते हैं। इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, प्रयोगात्मक डिजाइन के निर्माण के दौरान.

डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग (CRISP-DM 1.0) और 2004 जावा डाटा माइनिंग मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं। मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे RapidMiner, Weka, KNIME और R Project, डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं। इन प्रणालियों में अधिकांश, PMML (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)[3], कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक XMLआधारित भाषा है। PMML संस्करण 4.0, 2009 जून में जारी हुआ।[3][4][5]

अनुसंधान और विकाससंपादित करें

मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है।[6]

इस क्षेत्र में प्रमुख व्यावसायिक संगठन है एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़ स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग (SIGKDD).[कृपया उद्धरण जोड़ें] 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,[7] और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक अकादमिक पत्रिका प्रकाशित की है।[8] कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:

  • DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[9]
  • DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
  • ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
  • ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[10]
  • MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
  • SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग

प्रक्रियासंपादित करें

नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था। इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना और परिणामों की व्याख्या करना.[11]

प्री-प्रोसेसिंगसंपादित करें

एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है। चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या डाटा वेयरहाउस है।

निर्धारित लक्ष्य को तब साफ किया जाता है। सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है।

साफ डाटा को फीचर वेक्टर में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है। उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है। ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर (रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है।

फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है।

डाटा माइनिंगसंपादित करें

डाटा माइनिंग में सामान्य रूप से चार वर्गों के कार्य शामिल हैं:[11]

  • वर्गीकरण - पूर्वनिर्धारित समूहों में डाटा को व्यवस्थित करता है। उदाहरण के लिए, एक ईमेल प्रोग्राम एक ईमेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। आम एल्गोरिदम में शामिल हैं डिसीज़न ट्री लर्निंग, निअरेस्ट नेबर, नाइव बाएसियन वर्गीकरण और न्यूरल नेटवर्क .
  • क्लस्टरिंग - वर्गीकरण की तरह है, लेकिन समूह पूर्वनिर्धारित नहीं होते हैं, तो एल्गोरिथ्म समान चीज़ों को समूहों में इकठ्ठा करने की कोशिश करेगा.
  • प्रतिगमन - एक कार्य को खोजने का प्रयास करता है जो कम से कम त्रुटि के साथ डाटा को मॉडल करे. एक आम तरीका जेनेटिक प्रोग्रामिंग का प्रयोग है।
  • एसोसिएशन रुल लर्निंग - चर के बीच संबंधों को खोजता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहकों की खरीददारी की आदतों पर डाटा इकट्ठा कर सकता है। एसोसिएशन रुल लर्निंग के प्रयोग से, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पादों को अक्सर एक साथ ख़रीदा जाता है और इस जानकारी का उपयोग विपणन प्रयोजनों के लिए कर सकता है। इसे कभी-कभी "मार्केट बास्केट अनैलिसिस" कहा जाता है।

परिणाम सत्यापनसंपादित करें

डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं। डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे ओवरफाइटिंग कहा जाता है। इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक परीक्षण सेट का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था। लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है। उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के प्रशिक्षण सेट पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है। एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे ROC कर्व्स.

यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है। यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

उल्लेखनीय उपयोगसंपादित करें

खेलसंपादित करें

1960 के दशक के प्रारंभ से, कुछ मिश्रित खेलों के लिए ऑरैक्कल की उपलब्धता के साथ, जिन्हें टेबलबेसेस (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड डॉट्स-एंड-बॉक्सेस, छोटे बोर्ड हेक्स और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है। यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है। मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में बेरलेकंप और शतरंज एंडगेम्स में जॉन नन इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है।

व्यावसायसंपादित करें

ग्राहक संबंध प्रबंधन अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है।[कृपया उद्धरण जोड़ें] एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है। अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है। डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है। अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. डाटा क्लस्टरिंग का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है।

डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है। कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है। तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है। मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और स्वचालित डाटा माइनिंग की तरफ बढ़ने की जरूरत है।

डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं। प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है। इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.[12]

डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर मार्केट बास्केट अनैलिसिस कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है। यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं। हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है। यह उदाहरण, लेनदेन आधारित डाटा के भीतर साहचर्य नियम की चर्चा करता है। सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, नियम एक डाटाबेस के भीतर भी मौजूद हो सकता है। एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.

मार्केट बास्केट अनैलिसिस का इस्तेमाल अल्फा उपभोक्ता की खरीददारी पैटर्न को पहचानने के लिए किया गया है। अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं और अंत में बाकी समाज के लिए पुष्ट करते हैं। इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं।

डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है। केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है। डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है।

एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग."[13] इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है। इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है। ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है।

विज्ञान और इंजीनियरीसंपादित करें

हाल के वर्षों में, डाटा माइनिंग का प्रयोग व्यापक रूप से विज्ञान और इंजीनियरिंग के क्षेत्र में किया गया है जैसे बायोइन्फोरमेटिक्स, आनुवांशिकी, चिकित्सा, शिक्षा और विद्युत शक्ति इंजीनियरिंग.

मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के DNA अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है। सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे कैंसर के विकास के जोखिम को प्रभावित करते हैं। यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है। डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन के रूप में जाना जाता है।[14]

विद्युत् इंजीनियरिंग में, डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की स्थिति निगरानी के लिए इस्तेमाल किया जाता है। स्थिति निगरानी का प्रयोजन, इन्सुलेशन के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है। डाटा क्लस्टरिंग जैसे सेल्फ-ओर्गनाइजिंग मैप (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है। कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है। जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी। SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है।[15]

डाटा माइनिंग तकनीक को विद्युत् ट्रांसफार्मर पर भंग गैस विश्लेषण (DGA) के लिए लागू किया गया है। विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है। डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं।[15]

विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं[16] और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं।[17]. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, विशेषज्ञता खोज प्रणाली में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग संस्थागत स्मृति में मदद कर सकते हैं।

डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत जैव चिकित्सा डाटा,[18] चिकित्सीय परीक्षण डाटा माइनिंग,[19] SOM के प्रयोग से यातायात विश्लेषण,[20] वगैरह.

प्रतिकूल दवा प्रतिक्रिया निगरानी में उप्साला निगरानी केन्द्र ने, 1998 से 4.6 मीलियन संदिग्ध प्रतिकूल दवा प्रतिक्रिया घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है। हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान[21] के अस्थायी पैटर्न के लिए इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है।[21]

स्थानिक डाटा माइनिंगसंपादित करें

स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है। स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और भौगोलिक सूचना प्रणाली (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं। विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है। IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्व पर जोर देता है।

डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है। हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है। उन संगठनों में से हैं:

  • विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
  • सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
  • पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
  • भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं
चुनौतियांसंपादित करें

भूस्थानिक डाटा भण्डार बहुत विशाल होता है। इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं। एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं।[22] इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है। डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है। भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं।

भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं। मिलर और हान[23] इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:

  • भौगोलिक डाटा भण्डार का विकास और समर्थन - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है। एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.
  • भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं। भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.
  • विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).

निगरानीसंपादित करें

अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं कुल सूचना जागरूकता (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम (CAPPS II) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन (ADVISE)[24] और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज (मैट्रिक्स)[25] इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.[26]

आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".

पैटर्न माइनिंगसंपादित करें

"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद पैटर्न की खोज शामिल है। इस संदर्भ में पैटर्न का अर्थ अक्सर संगत नियम होता है। संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.

आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है।"[27][28][29] पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक संगीत सूचना पुनःप्राप्ति (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं।

विषय आधारित डाटा माइनिंगसंपादित करें

"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है। आतंकवाद से लड़ने के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं।"[28]

गोपनीयता चिंताएं और नैतिकतासंपादित करें

कुछ लोगों का मानना है कि डाटा माइनिंग खुद ही नैतिकता की दृष्टि से तटस्थ है।[30] तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं।[31] विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है।[32][33]

डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं। ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्रित किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.[34] यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है। एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे।

यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:

  • डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
  • डाटा का उपयोग कैसे किया जाएगा,
  • डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
  • डाटा तक पहुंच की सुरक्षा और इसके अतिरिक्त,
  • एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है[34]

कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.[34] हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए।[35][35]

बाजार सर्वेक्षणसंपादित करें

हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं। इन वार्षिक रिपोर्ट में कुछ शामिल हैं:

  • द गार्टनर "मैजिक क्वाड्रन्ट" रिपोर्ट.[36]
  • द रेक्सर एनालिटिक रिपोर्ट.[37]

समूह और संगठनसंपादित करें

  • SIGKDD, ACM स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.

इन्हें भी देखेंसंपादित करें

अनुप्रयोगसंपादित करें

विधियांसंपादित करें

विविधसंपादित करें

डाटा माइनिंग, डाटा के विश्लेषण के बारे में है, डाटा से जानकारी निकालने के बारे में जानकारी के लिए, देखें:

सन्दर्भसंपादित करें

  1. Lyman, Peter; Hal R. Varian (2003). "How Much Information". मूल से 17 मई 2008 को पुरालेखित. अभिगमन तिथि 2008-12-17.
  2. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. OCLC 50055336. आई॰ऍस॰बी॰ऍन॰ 0471228524.
  3. The Data Mining Group (DMG).. Archived 25 फ़रवरी 2011 at the वेबैक मशीन. DMG एक स्वतंत्र, विक्रेता प्रधान समूह है जो डाटा माइनिंग मानक विकसित करता है, जैसे प्रिडीक्टीव मॉडल मार्कअप लेंग्वेज (PMML)
  4. "PMML Project Page". मूल से 16 जनवरी 2010 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  5. एलेक्स गुअज़ेली, माइकल जेलर, वेन-चिंग लिन, ग्राहम विलियम्स. PMML: An Open Standard for Sharing Models Archived 23 नवम्बर 2009 at the वेबैक मशीन. द आर जर्नल Vol 1/1, मई 2009.
  6. साँचा:Cite Journal
  7. Proceedings Archived 30 अप्रैल 2010 at the वेबैक मशीन. अंतर्राष्ट्रीय ज्ञान डिस्कवरी और डाटा माइनिंग, ACM, न्यूयॉर्क के सम्मेलन पर.
  8. SIGKDD Explorations, Archived 29 जुलाई 2010 at the वेबैक मशीन. ACM, न्यूयॉर्क.
  9. इंटरनेशनल डाटा माइनिंग पर सम्मेलन: 5th (2009) Archived 31 अगस्त 2009 at the वेबैक मशीन.; 4th (2008) Archived 3 मार्च 2009 at the वेबैक मशीन.; 3rd (2007) Archived 3 मई 2009 at the वेबैक मशीन.; 2nd (2006 Archived 11 जनवरी 2010 at the वेबैक मशीन.); 1st (2005) Archived 27 जनवरी 2010 at the वेबैक मशीन.
  10. IEEE International Conference on Data Mining: ICDM09 Archived 23 फ़रवरी 2011 at Wikiwix ICDM09, Archived 15 सितंबर 2009 at the वेबैक मशीन. मियामी, FL; ICDM08, Archived 10 अप्रैल 2011 at the वेबैक मशीन. पीसा (इटली); ICDM07, Archived 2 जून 2011 at the वेबैक मशीन. ओमाहा, पूर्वोत्तर, ICDM06, Archived 22 जून 2010 at the वेबैक मशीन. हांगकांग, ICDM05, Archived 20 जुलाई 2011 at the वेबैक मशीन. ह्यूस्टन, TX; ICDM04, Archived 10 अक्टूबर 2010 at the वेबैक मशीन. Brighton (ब्रिटेन); ICDM03, Archived 19 जनवरी 2010 at the वेबैक मशीन. मेलबोर्न, FL; ICDM02, Archived 1 फ़रवरी 2003 at the वेबैक मशीन. माएबाशी सिटी (जापान); ICDM01, Archived 21 जून 2010 at the वेबैक मशीन. सैन जोस, CA.
  11. Fayyad, Usama; Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). मूल (PDF) से 6 नवंबर 2009 को पुरालेखित. अभिगमन तिथि 2008-12-17.
  12. Ellen Monk, Bret Wagner (2006). Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. OCLC 224465825. आई॰ऍस॰बी॰ऍन॰ 0-619-21663-8.
  13. टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) Mining IC Test Data to Optimize VLSI Testing Archived 6 नवम्बर 2009 at the वेबैक मशीन. छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.
  14. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. पृ॰ 18. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.
  15. साँचा:Cite Journal
  16. साँचा:Cite Journal
  17. साँचा:Cite Journal
  18. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New York. पपृ॰ 163–189. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.
  19. ibid पीपी. 31-48.
  20. साँचा:Cite Journal
  21. नोरेन GN, बेट ए, होपस्तदिअस J, स्टार K, एडवर्ड IR. टेम्पोरल पैटर्न डिस्कवरी एंड ट्रेंड्स एंड ट्रांसीएंट इफेक्ट: इट्स एप्लीकेशन टु पेशेंट रिकॉर्ड्स. चौदहवें ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही SIGKDD 2008, पृष्ठ 963-971 लास वेगास NV, 2008.
  22. हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).
  23. मिलर, एच. और हान, जे, (eds.), 2001, भौगोलिक डाटा माइनिंग और ज्ञान डिस्कवरी, (लंदन: टेलर और फ्रांसिस).
  24. सरकार जवाबदेही कार्यालय, डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क गाओ-07-293, वाशिंगटन, डीसी: फरवरी, 2007
  25. Secure Flight Program report Archived 21 अप्रैल 2010 at the वेबैक मशीन. MSNBC.
  26. "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website). 2003. मूल से 25 मार्च 2009 को पुरालेखित. अभिगमन तिथि 2009-03-15.
  27. आर अग्रवाल अन्य., फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग पीपी. 307-328, MIT प्रेस, 1996.
  28. राष्ट्रीय अनुसंधान परिषद, आतंकवादियों के खिलाफ संघर्ष में व्यक्तिगत गोपनीयता की रक्षा: कार्यक्रम के आकलन के लिए एक फ्रेमवर्क वाशिंगटन, DC राष्ट्रीय अकादमियों प्रेस, 2008.
  29. Stephen Haag; एवं अन्य (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. पृ॰ 28. OCLC 63194770. आई॰ऍस॰बी॰ऍन॰ 0-07-095569-7. Explicit use of et al. in: |author= (मदद)
  30. William Seltzer. "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF). मूल से 6 नवंबर 2009 को पुरालेखित (PDF). अभिगमन तिथि 4 जनवरी 2010. Cite journal requires |journal= (मदद)
  31. Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. मूल से 29 अक्तूबर 2007 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  32. K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). SSRN 546782 / OCLC 45263753. मूल से 5 नवंबर 2014 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  33. John Resig, Ankur Teredesai (2004). "A Framework for Mining Instant Messaging Services". In Proceedings of the 2004 SIAM DM Conference. मूल से 23 फ़रवरी 2008 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  34. Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 17 दिसम्बर 2008 at the वेबैक मशीन. NASCIO अनुसंधान ब्रीफ, सितम्बर, 2004
  35. AOL search data identified individuals, Archived 6 जनवरी 2010 at the वेबैक मशीन. सिक्योरिटीफोकस, अगस्त, 2006
  36. गैरेथ हर्शेल (1 जुलाई 2008) Magic Quadrant for Customer Data-Mining Applications Archived 20 अक्टूबर 2009 at the वेबैक मशीन. गार्टनर इंक
  37. कार्ल रेक्सार, पॉल गिअरन और हीदर एलन (2008) 2008 Data Miner Survey Summary Archived 20 दिसम्बर 2009 at the वेबैक मशीन. SPSS डाईरेकशन सम्मेलन, 2008 अक्टूबर और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर

अतिरिक्त पठनसंपादित करें

  • भगत, फिरोज़ पैटर्न रिकोगनिशन इन इंडसट्री एल्सेविअर ISBN 0-08-044538-1
  • काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन अप्रेंटिस हॉल, ISBN 0-13-743980-6
  • डमर, स्टीफन डब्ल्यू, फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट 11 जे. टेक. विधि और सिद्धांत 259 (2006).
  • डमर, स्टीफन डब्ल्यू, कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़ सिविल लिबर्टीज इरोज़न: स्ट्रिपिंग योर राइट्स व्हेन यु डोन्ट इवेन नो इट 75 MISS LJ 583 (2005).
  • फेल्ड्मन, रोनेन और जेम्स संगेर द टेक्स्ट माइनिंग हैंडबुक कैम्ब्रिज यूनिवर्सिटी प्रेस, ISBN 978-0-521-83657-9.
  • गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम क्लुवेर अकादमिक प्रकाशक.
  • हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन स्प्रिंगर, 0387952845 ISBN.
  • होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन (Broché).
  • बिंग लियू (2007). वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा. स्प्रिंगर 3540378812 ISBN.
  • मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क 12 वीं ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (KDD-06).
  • निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, अकैडमिक प्रेस / एल्सेविअर ISBN 978-0-12-374765-5 (2009)
  • पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग, सूचना विज्ञान संदर्भ, ISBN 978-1-59904-162-9.
  • पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7
  • वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस औद्योगिक एंड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp. 7,036-7,048.
  • वैंग, XZ (1999) प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज स्प्रिंगर, लंदन.
  • वाइस और इन्दुर्ख्या पूर्वानुमान डाटा माइनिंग, मॉर्गन कॉफमन
  • विटन, इयान और एइब फ्रैंक (2000) डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन ISBN 1-55860-552-5 (यह भी देखें फ्री वेका सॉफ्टवेयर)

बाह्य संबंधसंपादित करें