आँकड़ा खनन

सांख्यिकी, डेटाबेस सिस्टम या मशीन लर्निंग के चौराहे पर कम्प्यूटेशनल विधियों का उपयोग करके बड़े
(डाटा माइनिंग से अनुप्रेषित)

डाटा माइनिंग डाटा से पैटर्न निकालने की प्रक्रिया है। चूंकि अधिक डाटा एकत्र हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,[1] डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है। सामान्य रूप से इसे विस्तृत व्यवहारों की रूपरेखा बनाने में प्रयोग किया जाता है, जैसे विपणन, निगरानी, धोखाधड़ी पहचान और वैज्ञानिक खोज.

एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं। इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है। परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं। किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है। इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का सत्यापन और प्रमाणीकरणहै

डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है। दूसरे भाव से भ्रम की स्थिति से बचने के लिए, डाटा ड्रेजिंग और डाटा स्नूपिंग पद का अक्सर इस्तेमाल किया जाता है। ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है।

पृष्ठभूमि

संपादित करें

मनुष्य सदियों से "हाथों से" डाटा से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है। आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है बाएस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है। चूंकि डाटा सेट, आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है। कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे न्यूरल नेटवर्क, क्लस्टरिंग, जेनेटिक एल्गोरिदम (1950s), डिसीज़न ट्री (1960s) और सपोर्ट वेक्टर मशीन (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है।[2] कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).

व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है। इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण एकरेखस्तता के प्रति संवेदनशील होते हैं। डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं। इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए चॉयस मॉडलिंग सुलझाते हैं। इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, प्रयोगात्मक डिजाइन के निर्माण के दौरान.

डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग (CRISP-DM 1.0) और 2004 जावा डाटा माइनिंग मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं। मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे RapidMiner, Weka, KNIME और R Project, डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं। इन प्रणालियों में अधिकांश, PMML (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)[3], कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक XMLआधारित भाषा है। PMML संस्करण 4.0, 2009 जून में जारी हुआ।[3][4][5]

अनुसंधान और विकास

संपादित करें

मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है।[6]

इस क्षेत्र में प्रमुख व्यावसायिक संगठन है एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़ स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग (SIGKDD).[उद्धरण चाहिए] 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,[7] और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक अकादमिक पत्रिका प्रकाशित की है।[8] कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:

  • DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[9]
  • DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
  • ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
  • ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;[10]
  • MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
  • SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग

प्रक्रिया

संपादित करें

नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था। इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना और परिणामों की व्याख्या करना.[11]

प्री-प्रोसेसिंग

संपादित करें

एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्र किया जाना चाहिए है। चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या डाटा वेयरहाउस है।

निर्धारित लक्ष्य को तब साफ किया जाता है। सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है।

साफ डाटा को फीचर वेक्टर में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है। उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है। ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर (रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है।

फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है।

डाटा माइनिंग

संपादित करें

डाटा माइनिंग में सामान्य रूप से चार वर्गों के कार्य शामिल हैं:[11]

  • वर्गीकरण - पूर्वनिर्धारित समूहों में डाटा को व्यवस्थित करता है। उदाहरण के लिए, एक ईमेल प्रोग्राम एक ईमेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है। आम एल्गोरिदम में शामिल हैं डिसीज़न ट्री लर्निंग, निअरेस्ट नेबर, नाइव बाएसियन वर्गीकरण और न्यूरल नेटवर्क .
  • क्लस्टरिंग - वर्गीकरण की तरह है, लेकिन समूह पूर्वनिर्धारित नहीं होते हैं, तो एल्गोरिथ्म समान चीज़ों को समूहों में इकट्ठा करने की कोशिश करेगा.
  • प्रतिगमन - एक कार्य को खोजने का प्रयास करता है जो कम से कम त्रुटि के साथ डाटा को मॉडल करे. एक आम तरीका जेनेटिक प्रोग्रामिंग का प्रयोग है।
  • एसोसिएशन रुल लर्निंग - चर के बीच संबंधों को खोजता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहकों की खरीददारी की आदतों पर डाटा इकट्ठा कर सकता है। एसोसिएशन रुल लर्निंग के प्रयोग से, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पादों को अक्सर एक साथ ख़रीदा जाता है और इस जानकारी का उपयोग विपणन प्रयोजनों के लिए कर सकता है। इसे कभी-कभी "मार्केट बास्केट अनैलिसिस" कहा जाता है।

परिणाम सत्यापन

संपादित करें

डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं। डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे ओवरफाइटिंग कहा जाता है। इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक परीक्षण सेट का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था। लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है। उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के प्रशिक्षण सेट पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है। एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे ROC कर्व्स.

यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है। यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

उल्लेखनीय उपयोग

संपादित करें

1960 के दशक के प्रारंभ से, कुछ मिश्रित खेलों के लिए ऑरैक्कल की उपलब्धता के साथ, जिन्हें टेबलबेसेस (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड डॉट्स-एंड-बॉक्सेस, छोटे बोर्ड हेक्स और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है। यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है। मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात् पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में बेरलेकंप और शतरंज एंडगेम्स में जॉन नन इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है।

व्यावसाय

संपादित करें

ग्राहक संबंध प्रबंधन अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है। [उद्धरण चाहिए] एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है। अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है। डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है। अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. डाटा क्लस्टरिंग का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है।

डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है। कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है। तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है। मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और स्वचालित डाटा माइनिंग की तरफ बढ़ने की जरूरत है।

डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं। प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है। इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.[12]

डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर मार्केट बास्केट अनैलिसिस कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है। यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं। हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है। यह उदाहरण, लेनदेन आधारित डाटा के भीतर साहचर्य नियम की चर्चा करता है। सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, नियम एक डाटाबेस के भीतर भी मौजूद हो सकता है। एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.

मार्केट बास्केट अनैलिसिस का इस्तेमाल अल्फा उपभोक्ता की खरीददारी पैटर्न को पहचानने के लिए किया गया है। अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं और अंत में बाकी समाज के लिए पुष्ट करते हैं। इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं।

डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है। केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है। डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है।

एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग."[13] इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है। इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है। ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है।

विज्ञान और इंजीनियरी

संपादित करें

हाल के वर्षों में, डाटा माइनिंग का प्रयोग व्यापक रूप से विज्ञान और इंजीनियरिंग के क्षेत्र में किया गया है जैसे बायोइन्फोरमेटिक्स, आनुवांशिकी, चिकित्सा, शिक्षा और विद्युत शक्ति इंजीनियरिंग.

मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के DNA अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है। सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे कैंसर के विकास के जोखिम को प्रभावित करते हैं। यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है। डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन के रूप में जाना जाता है।[14]

विद्युत् इंजीनियरिंग में, डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की स्थिति निगरानी के लिए इस्तेमाल किया जाता है। स्थिति निगरानी का प्रयोजन, इन्सुलेशन के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है। डाटा क्लस्टरिंग जैसे सेल्फ-ओर्गनाइजिंग मैप (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है। कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है। जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी। SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है।[15]

डाटा माइनिंग तकनीक को विद्युत् ट्रांसफार्मर पर भंग गैस विश्लेषण (DGA) के लिए लागू किया गया है। विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है। डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं।[15]

विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं[16] और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं।[17]. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, विशेषज्ञता खोज प्रणाली में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग संस्थागत स्मृति में मदद कर सकते हैं।

डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत जैव चिकित्सा डाटा,[18] चिकित्सीय परीक्षण डाटा माइनिंग,[19] SOM के प्रयोग से यातायात विश्लेषण,[20] वगैरह.

प्रतिकूल दवा प्रतिक्रिया निगरानी में उप्साला निगरानी केन्द्र ने, 1998 से 4.6 मीलियन संदिग्ध प्रतिकूल दवा प्रतिक्रिया घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है। हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान[21] के अस्थायी पैटर्न के लिए इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है।[21]

स्थानिक डाटा माइनिंग

संपादित करें

स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है। स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और भौगोलिक सूचना प्रणाली (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं। विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है। IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्त्व पर जोर देता है।

डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है। हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है। उन संगठनों में से हैं:

  • विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
  • सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
  • पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
  • भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं
चुनौतियां
संपादित करें

भूस्थानिक डाटा भण्डार बहुत विशाल होता है। इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं। एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं।[22] इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है। डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है। भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं।

भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं। मिलर और हान[23] इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:

  • भौगोलिक डाटा भण्डार का विकास और समर्थन - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है। एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.
  • भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं। भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.
  • विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).

अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं कुल सूचना जागरूकता (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम (CAPPS II) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन (ADVISE)[24] और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज (मैट्रिक्स)[25] इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.[26]

आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".

पैटर्न माइनिंग
संपादित करें

"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद पैटर्न की खोज शामिल है। इस संदर्भ में पैटर्न का अर्थ अक्सर संगत नियम होता है। संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात्, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.

आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है।"[27][28][29] पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक संगीत सूचना पुनःप्राप्ति (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं।

विषय आधारित डाटा माइनिंग
संपादित करें

"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है। आतंकवाद से लड़ने के संदर्भ में, राष्ट्रीय अनुसंधान परिषद निम्नलिखित परिभाषा प्रदान करता है: "विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं।"[28]

गोपनीयता चिंताएं और नैतिकता

संपादित करें

कुछ लोगों का मानना है कि डाटा माइनिंग खुद ही नैतिकता की दृष्टि से तटस्थ है।[30] तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं।[31] विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे कुल सूचना जागरूकता कार्यक्रम या ADVISE में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है।[32][33]

डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं। ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्र किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.[34] यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है। एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे।

यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:

  • डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
  • डाटा का उपयोग कैसे किया जाएगा,
  • डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
  • डाटा तक पहुंच की सुरक्षा और इसके अतिरिक्त,
  • एकत्र डाटा कैसे नवीनीकृत किया जा सकता है[34]

कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.[34] हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए।[35][35]

बाजार सर्वेक्षण

संपादित करें

हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं। इन वार्षिक रिपोर्ट में कुछ शामिल हैं:

  • द गार्टनर "मैजिक क्वाड्रन्ट" रिपोर्ट.[36]
  • द रेक्सर एनालिटिक रिपोर्ट.[37]

समूह और संगठन

संपादित करें
  • SIGKDD, ACM स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.

इन्हें भी देखें

संपादित करें

अनुप्रयोग

संपादित करें

डाटा माइनिंग, डाटा के विश्लेषण के बारे में है, डाटा से जानकारी निकालने के बारे में जानकारी के लिए, देखें:

  1. Lyman, Peter; Hal R. Varian (2003). "How Much Information". मूल से 17 मई 2008 को पुरालेखित. अभिगमन तिथि 2008-12-17.
  2. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. OCLC 50055336. आई॰ऍस॰बी॰ऍन॰ 0471228524.
  3. The Data Mining Group (DMG).. Archived 2011-02-25 at the वेबैक मशीन DMG एक स्वतंत्र, विक्रेता प्रधान समूह है जो डाटा माइनिंग मानक विकसित करता है, जैसे प्रिडीक्टीव मॉडल मार्कअप लेंग्वेज (PMML)
  4. "PMML Project Page". मूल से 16 जनवरी 2010 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  5. एलेक्स गुअज़ेली, माइकल जेलर, वेन-चिंग लिन, ग्राहम विलियम्स. PMML: An Open Standard for Sharing Models Archived 2009-11-23 at the वेबैक मशीन द आर जर्नल Vol 1/1, मई 2009.
  6. साँचा:Cite Journal
  7. Proceedings Archived 2010-04-30 at the वेबैक मशीन अंतर्राष्ट्रीय ज्ञान डिस्कवरी और डाटा माइनिंग, ACM, न्यूयॉर्क के सम्मेलन पर.
  8. SIGKDD Explorations, Archived 2010-07-29 at the वेबैक मशीन ACM, न्यूयॉर्क.
  9. इंटरनेशनल डाटा माइनिंग पर सम्मेलन: 5th (2009) Archived 2009-08-31 at the वेबैक मशीन; 4th (2008) Archived 2009-03-03 at the वेबैक मशीन; 3rd (2007) Archived 2009-05-03 at the वेबैक मशीन; 2nd (2006 Archived 2010-01-11 at the वेबैक मशीन); 1st (2005) Archived 2010-01-27 at the वेबैक मशीन
  10. IEEE International Conference on Data Mining: ICDM09 Archived (दिनांक अनुपस्थित) at विकिविक्स ICDM09, Archived 2009-09-15 at the वेबैक मशीन मियामी, FL; ICDM08, Archived 2011-04-10 at the वेबैक मशीन पीसा (इटली); ICDM07, Archived 2011-06-02 at the वेबैक मशीन ओमाहा, पूर्वोत्तर, ICDM06, Archived 2010-06-22 at the वेबैक मशीन हांगकांग, ICDM05, Archived 2011-07-20 at the वेबैक मशीन ह्यूस्टन, TX; ICDM04, Archived 2010-10-10 at the वेबैक मशीन Brighton (ब्रिटेन); ICDM03, Archived 2010-01-19 at the वेबैक मशीन मेलबोर्न, FL; ICDM02, Archived 2003-02-01 at the वेबैक मशीन माएबाशी सिटी (जापान); ICDM01, Archived 2010-06-21 at the वेबैक मशीन सैन जोस, CA.
  11. Fayyad, Usama; Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). मूल (PDF) से 6 नवंबर 2009 को पुरालेखित. अभिगमन तिथि 2008-12-17.
  12. Ellen Monk, Bret Wagner (2006). Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. OCLC 224465825. आई॰ऍस॰बी॰ऍन॰ 0-619-21663-8.
  13. टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) Mining IC Test Data to Optimize VLSI Testing Archived 2009-11-06 at the वेबैक मशीन छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.
  14. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. पृ॰ 18. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.
  15. साँचा:Cite Journal
  16. साँचा:Cite Journal
  17. साँचा:Cite Journal
  18. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New York. पपृ॰ 163–189. आई॰ऍस॰बी॰ऍन॰ 978-159904252-7.
  19. ibid पीपी. 31-48.
  20. साँचा:Cite Journal
  21. नोरेन GN, बेट ए, होपस्तदिअस J, स्टार K, एडवर्ड IR. टेम्पोरल पैटर्न डिस्कवरी एंड ट्रेंड्स एंड ट्रांसीएंट इफेक्ट: इट्स एप्लीकेशन टु पेशेंट रिकॉर्ड्स. चौदहवें ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही SIGKDD 2008, पृष्ठ 963-971 लास वेगास NV, 2008.
  22. हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).
  23. मिलर, एच. और हान, जे, (eds.), 2001, भौगोलिक डाटा माइनिंग और ज्ञान डिस्कवरी, (लंदन: टेलर और फ्रांसिस).
  24. सरकार जवाबदेही कार्यालय, डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क गाओ-07-293, वाशिंगटन, डीसी: फरवरी, 2007
  25. Secure Flight Program report Archived 2010-04-21 at the वेबैक मशीन MSNBC.
  26. "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website). 2003. मूल से 25 मार्च 2009 को पुरालेखित. अभिगमन तिथि 2009-03-15.
  27. आर अग्रवाल अन्य., फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग पीपी. 307-328, MIT प्रेस, 1996.
  28. राष्ट्रीय अनुसंधान परिषद, आतंकवादियों के खिलाफ संघर्ष में व्यक्तिगत गोपनीयता की रक्षा: कार्यक्रम के आकलन के लिए एक फ्रेमवर्क वाशिंगटन, DC राष्ट्रीय अकादमियों प्रेस, 2008.
  29. Stephen Haag; एवं अन्य (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. पपृ॰ 28. OCLC 63194770. आई॰ऍस॰बी॰ऍन॰ 0-07-095569-7. Explicit use of et al. in: |author= (मदद)
  30. William Seltzer. "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF). मूल से 6 नवंबर 2009 को पुरालेखित (PDF). अभिगमन तिथि 4 जनवरी 2010. Cite journal requires |journal= (मदद)
  31. Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. मूल से 29 अक्तूबर 2007 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  32. K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). SSRN 546782 / OCLC 45263753. मूल से 5 नवंबर 2014 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  33. John Resig, Ankur Teredesai (2004). "A Framework for Mining Instant Messaging Services". In Proceedings of the 2004 SIAM DM Conference. मूल से 23 फ़रवरी 2008 को पुरालेखित. अभिगमन तिथि 4 जनवरी 2010.
  34. Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the वेबैक मशीन NASCIO अनुसंधान ब्रीफ, सितम्बर, 2004
  35. AOL search data identified individuals, Archived 2010-01-06 at the वेबैक मशीन सिक्योरिटीफोकस, अगस्त, 2006
  36. गैरेथ हर्शेल (1 जुलाई 2008) Magic Quadrant for Customer Data-Mining Applications Archived 2009-10-20 at the वेबैक मशीन गार्टनर इंक
  37. कार्ल रेक्सार, पॉल गिअरन और हीदर एलन (2008) 2008 Data Miner Survey Summary Archived 2009-12-20 at the वेबैक मशीन SPSS डाईरेकशन सम्मेलन, 2008 अक्टूबर और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर

अतिरिक्त पठन

संपादित करें
  • भगत, फिरोज़ पैटर्न रिकोगनिशन इन इंडसट्री एल्सेविअर ISBN 0-08-044538-1
  • काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन अप्रेंटिस हॉल, ISBN 0-13-743980-6
  • डमर, स्टीफन डब्ल्यू, फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट 11 जे. टेक. विधि और सिद्धांत 259 (2006).
  • डमर, स्टीफन डब्ल्यू, कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़ सिविल लिबर्टीज इरोज़न: स्ट्रिपिंग योर राइट्स व्हेन यु डोन्ट इवेन नो इट 75 MISS LJ 583 (2005).
  • फेल्ड्मन, रोनेन और जेम्स संगेर द टेक्स्ट माइनिंग हैंडबुक कैम्ब्रिज यूनिवर्सिटी प्रेस, ISBN 978-0-521-83657-9.
  • गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम क्लुवेर अकादमिक प्रकाशक.
  • हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन स्प्रिंगर, 0387952845 ISBN.
  • होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन (Broché).
  • बिंग लियू (2007). वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा. स्प्रिंगर 3540378812 ISBN.
  • मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क 12 वीं ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (KDD-06).
  • निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, अकैडमिक प्रेस / एल्सेविअर ISBN 978-0-12-374765-5 (2009)
  • पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग, सूचना विज्ञान संदर्भ, ISBN 978-1-59904-162-9.
  • पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7
  • वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस औद्योगिक एंड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp. 7,036-7,048.
  • वैंग, XZ (1999) प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज स्प्रिंगर, लंदन.
  • वाइस और इन्दुर्ख्या पूर्वानुमान डाटा माइनिंग, मॉर्गन कॉफमन
  • विटन, इयान और एइब फ्रैंक (2000) डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन ISBN 1-55860-552-5 (यह भी देखें फ्री वेका सॉफ्टवेयर)

बाह्य संबंध

संपादित करें