"आँकड़ा खनन": अवतरणों में अंतर

छो r2.7.2) (Robot: Adding az:Data Mining
छो Bot: अंगराग परिवर्तन
पंक्ति 2:
{{distinguish|information extraction}}
 
'''डाटा माइनिंग''' डाटा से पैटर्न निकालने की प्रक्रिया है. चूंकि अधिक डाटा एकत्रित हो रहे हैं, जिसमें हर तीन वर्ष में डाटा की राशि दोगुना हो रही है,<ref>{{cite web | last = Lyman | first = Peter | coauthors = Hal R. Varian | title = How Much Information | date = 2003 | url = http://www.sims.berkeley.edu/how-much-info-2003 | accessdate = 2008-12-17}}</ref> डाटा माइनिंग इन डाटा को जानकारी में बदलने के लिए तेजी से महत्वपूर्ण उपकरण बनता जा रहा है. सामान्य रूप से इसे विस्तृत [[व्यवहारों की रूपरेखा]] बनाने में प्रयोग किया जाता है, जैसे [[विपणन]], [[निगरानी]], [[धोखाधड़ी]] पहचान और वैज्ञानिक खोज.
 
एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं. इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे पैटर्न उस नमूने में मौजूद नहीं हैं जिसकी "माइनिंग" हो रही है. परिणामों को लेकर अपर्याप्त जानकार "उपभोक्ताओं" में एक प्रवृत्ति है जो "डाटा माइनिंग" के लिए "जादुई क्षमता" देखते हैं, और इस तकनीक को क्रिस्टल बॉल के समान बिलकुल साफ़ देखने के माध्यम के रूप में लेते हैं. किसी भी अन्य उपकरण की तरह, यह उचित कच्ची सामग्री के सहयोजन में ही कार्य करता है: इस मामले में सूचक और प्रतिनिधि डाटा जिसे उपयोगकर्ता द्वारा पहले जमा करना होगा. इसके अलावा, डाटा के एक विशेष सेट में एक खास पैटर्न की खोज जरूरी नहीं कि पैटर्न की उस पूरी आबादी का प्रतिनिधित्व करे जिससे डाटा लिया गया है. इसलिए, इस प्रक्रिया का एक महत्वपूर्ण हिस्सा है डाटा के अन्य नमूनों पर पैटर्न का [[सत्यापन और प्रमाणीकरण]]है.
 
डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है. दूसरे भाव से भ्रम की स्थिति से बचने के लिए, ''[[डाटा ड्रेजिंग]]'' और ''[[डाटा स्नूपिंग]]'' पद का अक्सर इस्तेमाल किया जाता है. ध्यान दें, कि ड्रेजिंग (निकर्षण) और स्नूपिंग को (और कभी-कभी) जब परिकल्पना को विकसित और स्पष्ट किया जा रहा हो तो एक अन्वेषण के उपकरण के रूप में इस्तेमाल किया जा सकता है.
 
== पृष्ठभूमि ==
मनुष्य सदियों से "हाथों से" [[डाटा]] से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया है. आंकड़ों में पैटर्न की पहचान के प्रारंभिक तरीकों में शामिल है [[बाएस प्रमेय]] (1700s) और [[प्रतिगमन विश्लेषण]] (1800s). कंप्यूटर प्रौद्योगिकी का प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने डाटा संग्रहण और भंडारण को बढ़ा दिया है. चूंकि [[डाटा सेट]], आकार और जटिलता में बड़े हो गए हैं, प्रत्यक्ष वास्तविक रूप से आंकड़ों के विश्लेषण को तेजी से अप्रत्यक्ष, स्वचालित डाटा संसाधन के जरिये संवर्धित किया गया है. कंप्यूटर विज्ञान में अन्य खोजों द्वारा इसे और बढ़ावा मिला है, जैसे [[न्यूरल नेटवर्क]], [[क्लस्टरिंग]], जेनेटिक एल्गोरिदम (1950s), [[डिसीज़न ट्री]] (1960s) और [[सपोर्ट वेक्टर मशीन]] (1980s). डाटा माइनिंग, छिपे पैटर्न को उद्घाटित करने के इरादे से डाटा पर इन तरीकों को लागू करने की प्रक्रिया है.<ref>{{cite book |last= Kantardzic |first= Mehmed |title= Data Mining: Concepts, Models, Methods, and Algorithms|year= 2003|publisher= John Wiley & Sons |location= |isbn= 0471228524 |oclc= 50055336}}</ref> कई वर्षों से इसका इस्तेमाल उद्योग, वैज्ञानिकों और सरकारों द्वारा आंकड़ों की मात्रा को छानने के लिए किया जाता रहा है जैसे विमान यात्री यात्रा रिकॉर्ड, जनगणना आंकड़े और बाज़ार अनुसंधान रिपोर्ट को उत्पन्न करने के लिए सुपरमार्केट स्कैनर डाटा. (तथापि, ध्यान दें, कि रिपोर्टिंग को हमेशा डाटा माइनिंग नहीं माना जाता है).
 
व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है. इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण [[एकरेखस्तता]] के प्रति संवेदनशील होते हैं. डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं, और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं. इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए [[चॉयस मॉडलिंग]] सुलझाते हैं. इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, [[प्रयोगात्मक डिजाइन]] के निर्माण के दौरान.
 
डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय [[क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग]] (CRISP-DM 1.0) और 2004 [[जावा डाटा माइनिंग]] मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं. मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे [[RapidMiner]], Weka, KNIME, और [[R Project]], डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं. इन प्रणालियों में अधिकांश, [[PMML]] (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके. PMML, डाटा माइनिंग ग्रुप (DMG)<ref name="DMG">[http://www.dmg.org/ The Data Mining Group (DMG)..] DMG एक स्वतंत्र, विक्रेता प्रधान समूह है जो डाटा माइनिंग मानक विकसित करता है, जैसे प्रिडीक्टीव मॉडल मार्कअप लेंग्वेज [[(PMML)]]</ref>, कई डाटा माइनिंग कंपनियों का एक स्वतंत्र समूह, द्वारा विकसित एक [[XML]]आधारित भाषा है. PMML संस्करण 4.0, 2009 जून में जारी हुआ.<ref name="DMG" /><ref>[http://sourceforge.net/projects/pmml PMML Project Page]</ref><ref>एलेक्स गुअज़ेली, माइकल जेलर, वेन-चिंग लिन, ग्राहम विलियम्स. [http://journal.r-project.org/2009-1/RJournal_2009-1_Guazzelli+et+al.pdf PMML: An Open Standard for Sharing Models] ''द आर जर्नल'' Vol 1/1, मई 2009.</ref>
 
=== अनुसंधान और विकास ===
मानक और इंट्रोपरेबिलिटी की उद्योग प्रेरित मांग के अलावा, व्यावसायिक और शैक्षणिक गतिविधियों ने भी विधियों और मॉडल के विकास और परिशुद्धता के लिए काफी योगदान दिया है; ''इंटरनेशनल जर्नल ऑफ़ इन्फोर्मेशन टेक्नोलाजी एंड डिसीज़न मेकिंग'' के 2008 के अंक में प्रकाशित लेख, एक साहित्य सर्वेक्षण के परिणामों को संक्षिप्त करता है जो इस विकास की पहचान और विश्लेषण करता है.<ref>{{cite Journal| author= Y. Peng, G. Kou, Y. Shi, Z. Chen |title=A Descriptive Framework for the Field of Data Mining and Knowledge Discovery|journal=International Journal of Information Technology and Decision Making, Volume 7, Issue 4 | year =2008 |pages=639 – 682| doi= 10.1142/S0219622008003204| volume= 7}}</ref>
 
इस क्षेत्र में प्रमुख व्यावसायिक संगठन है [[एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़]] स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग ([[SIGKDD]]).{{Citation needed|date=July 2009}} 1989 से उन्होंने एक वार्षिक अंतरराष्ट्रीय सम्मेलन का आयोजन किया है और उसकी कार्यवाही को प्रकाशित किया है,<ref>[http://www.kdd.org/conferences.php Proceedings] अंतर्राष्ट्रीय ज्ञान डिस्कवरी और डाटा माइनिंग, ACM, न्यूयॉर्क के सम्मेलन पर.</ref> और 1999 के बाद से "SIGKDD Explorations" नामक एक अर्धवार्षिक [[अकादमिक पत्रिका]] प्रकाशित की है.<ref>[http://www.kdd.org/explorations/about.php SIGKDD Explorations,] ACM, न्यूयॉर्क.</ref> कंप्यूटर डाटा माइनिंग पर अन्य विज्ञान सम्मेलन में शामिल हैं:
 
* DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;<ref>इंटरनेशनल डाटा माइनिंग पर सम्मेलन: [http://www.dmin--2009.com/ 5th (2009)]; [http://www.dmin-2008.com/ 4th (2008)]; [http://www.dmin-2007.com/ 3rd (2007)]; [http://www.dmin-2006.com/ 2nd (2006]); [http://www.informatik.uni-trier.de/~ley/db/conf/dmin/dmin2005.html 1st (2005)]</ref>
* DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
* ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
* ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;<ref>[http://www.informatik.uni-trier.de/~ley/db/conf/icdm/index.html IEEE International Conference on Data Mining: ICDM09] [http://www.cs.umbc.edu/ICDM09/ ICDM09,] मियामी, FL; [http://icdm08.isti.cnr.it/ ICDM08,] पीसा (इटली); [http://www.ist.unomaha.edu/icdm2007/ ICDM07,] ओमाहा, पूर्वोत्तर, [http://www.comp.hkbu.edu.hk/iwi06/icdm/ ICDM06,] हांगकांग, [http://www.cacs.ull.edu/~icdm05/ ICDM05,] ह्यूस्टन, TX; [http://icdm04.cs.uni-dortmund.de/ ICDM04,] Brighton (ब्रिटेन); [http://www.cs.uvm.edu/~xwu/icdm-03.html ICDM03,] मेलबोर्न, FL; [http://kis.maebashi-it.ac.jp/icdm02/ ICDM02,] माएबाशी सिटी (जापान); [http://www.cs.uvm.edu/~xwu/icdm-01.html ICDM01,] सैन जोस, CA.</ref>
* MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
* SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग
 
== प्रक्रिया ==
पंक्ति 31:
नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था. इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना, और परिणामों की व्याख्या करना.<ref name="Fayyad">{{cite web | last = Fayyad | first = Usama | coauthors = Gregory Piatetsky-Shapiro, and Padhraic Smyth | title = From Data Mining to Knowledge Discovery in Databases | date = 1996 | url = http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf | accessdate = 2008-12-17}}</ref>
 
=== प्री-प्रोसेसिंग ===
एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है. चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट या [[डाटा वेयरहाउस]] है.
 
निर्धारित लक्ष्य को तब साफ किया जाता है. सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है.
 
साफ डाटा को [[फीचर वेक्टर]] में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है. उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है. ऐसा करने से प्रत्येक वेक्टर के लिए डाटा कम होकर 10,000 बिट्स से लोकेशंस के लिए तीन कोड होगा, नाटकीय रूप से माइन किये जाने वाले डाटासेट के आकार को कम करेगा, और इस तरह प्रसंस्करण के कार्य को कम करेगा. चयनित फीचर इस पर निर्भर करेगा कि उद्देश्य क्या है (हैं); जाहिर है, "सही" फीचर(रों) का चुनाव सफल डाटा माइनिंग के लिए आधार है.
 
फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है.
पंक्ति 49:
 
=== परिणाम सत्यापन ===
डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं. डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे [[ओवरफाइटिंग]] कहा जाता है. इस पर काबू पाने के लिए, मूल्यांकन, डाटा के एक [[परीक्षण सेट]] का उपयोग करता है, जिसपर डाटा माइनिंग एल्गोरिथ्म प्रशिक्षित नहीं था. लर्न्ट पैटर्न को इस परीक्षण सेट पर लागू किया जाता है जिसके प्राप्त परिणाम को वांछित परिणाम से तुलना की जाती है. उदाहरण के लिए, एक डाटा माइनिंग एल्गोरिथ्म जो वैध ईमेल को स्पैम से अलग करने की कोशिश कर रहा है वह नमूने ईमेलों के [[प्रशिक्षण सेट]] पर प्रशिक्षित होगा. एक बार प्रशिक्षित होने के बाद, लर्न्ट पैटर्न को ईमेल के परीक्षण सेट पर लागू किया जाएगा जिसपर इसे प्रशिक्षित नहीं किया गया था, इन पैटर्न की सटीकता को, कितने ईमेल को उन्होंने सही ढंग से वर्गीकृत किया है, इस बात से मापा जा सकता है. एल्गोरिथ्म के मूल्यांकन के लिए कई सांख्यिकीय तरीकों का प्रयोग किया जा सकता है जैसे [[ROC कर्व्स]].
 
यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है. यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है.
 
== उल्लेखनीय उपयोग ==
=== खेल ===
1960 के दशक के प्रारंभ से, कुछ [[मिश्रित खेलों]] के लिए [[ऑरैक्कल]] की उपलब्धता के साथ, जिन्हें [[टेबलबेसेस]] (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड [[डॉट्स-एंड-बॉक्सेस]], छोटे बोर्ड हेक्स, और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस, और हेक्स; के साथ डाटा माइनिंग के लिए एक नया क्षेत्र खुल गया है. यह, इन ऑरैक्कल से मानव उपयोगी रणनीति का निष्कर्षण है. मौजूदा पैटर्न पहचान तरीकों के पास सफलतापूर्वक लागू किये जाने के लिए पृथक्करण का आवश्यक उच्च स्तर नहीं. इसके बजाय, अच्छी तरह से डिजाइन की गई समस्याओं के टेबलबेस उत्तर के गहन अध्ययन के संयोजन में, टेबलबेसेस के साथ व्यापक प्रयोग और पूर्व कला के ज्ञान, अर्थात पूर्व टेबलबेस ज्ञान के साथ, का प्रयोग व्यावहारिक पैटर्न उत्पन्न करने के लिए किया जाता है डॉट्स-एंड-बॉक्सेस आदि में [[बेरलेकंप]] और [[शतरंज]] [[एंडगेम्स]] में [[जॉन नन]] इस काम को कर रहे प्रमुख अनुसंधानकर्ताओं के उदाहरण हैं, हालांकि वे टेबलबेस जनन में शामिल नहीं है.
 
=== व्यावसाय ===
[[ग्राहक संबंध प्रबंधन]] अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है. {{Citation needed|date=July 2008}} एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है. अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है. डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों भेज सकता है. अंत में, ऐसे मामलों में जहां बिना किसी प्रस्ताव के कई लोग एक प्रतिक्रिया करेंगे, अपलिफ्ट मॉडलिंग का प्रयोग यह निर्धारित करने के लिए किया जा सकता है कि एक प्रस्ताव देने पर किन लोगों की प्रतिक्रिया में सबसे ज्यादा वृद्धि होगी. [[डाटा क्लस्टरिंग]] का प्रयोग स्वचालित रूप से एक ग्राहक डाटा सेट के भीतर वर्ग या समूह की खोज के लिए किया जा सकता है.
 
डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है. कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग प्रत्येक क्षेत्र और ग्राहक प्रकार के लिए एक अलग मॉडल बना सकता है. तब प्रतिक्रिया देने वाले सभी सभावित लोगों के लिए एक प्रस्ताव भेजने के बजाय, वह केवल उन ग्राहकों को प्रस्ताव भेजना चाहेगा जो संभावित रूप से प्रस्ताव को लेने वाले हों. और अंत में, वह यह भी तय करना चाहेगा कि कौन से ग्राहक एक समय अवधि में लाभदायक होंगे और केवल उन्ही लोगों के लिए प्रस्ताव भेजेगा जिनके लाभदायक होने की संभावना है. मॉडल की इस मात्रा को बनाए रखने के लिए, उन्हें मॉडल संस्करण प्रबंधन और ''स्वचालित डाटा माइनिंग'' की तरफ बढ़ने की जरूरत है.
 
डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं. प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है. इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.<ref name="autogenerated1">{{cite book |author=Ellen Monk, Bret Wagner |title=Concepts in Enterprise Resource Planning, Second Edition |publisher=Thomson Course Technology, Boston, MA |year=2006 |isbn=0-619-21663-8 |oclc=224465825}}</ref>
 
डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर [[मार्केट बास्केट अनैलिसिस]] कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है. यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं. हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है. यह उदाहरण, लेनदेन आधारित डाटा के भीतर [[साहचर्य नियम]] की चर्चा करता है. सभी डाटा लेनदेन आधारित और तार्किक या अयथार्थ नहीं हैं, [[नियम]] एक [[डाटाबेस]] के भीतर भी मौजूद हो सकता है. एक विनिर्माण अनुप्रयोग में, एक अयथार्थ नियम यह कह सकता है कि 73% उत्पाद जिनमें एक विशिष्ट दोष या समस्या है, उनमें अगले छह महीने के भीतर एक द्वितीयक समस्या भी पनपेगी.
 
[[मार्केट बास्केट अनैलिसिस]] का इस्तेमाल [[अल्फा उपभोक्ता]] की खरीददारी पैटर्न को पहचानने के लिए किया गया है. अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं, और अंत में बाकी समाज के लिए पुष्ट करते हैं. इन प्रकार के उपयोगकर्ताओं पर एकत्र आंकड़ों का विश्लेषण कंपनियों को भविष्य की खरीददारी के रुझान की भविष्यवाणी करने और आपूर्ति-मांग की भविष्यवाणी करने में सक्षम करते हैं.
 
डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है. केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है. डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है.
 
एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग." <ref>टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) [http://web.engr.oregonstate.edu/~tgd/publications/kdd2000-dlft.pdf ''Mining IC Test Data to Optimize VLSI Testing'' ] छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.</ref> इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का निर्णय विश्लेषण वर्णित है. इस पत्र में वर्णित प्रयोग डाई फेल्योर पैटर्न के एक संभाव्य मॉडल के निर्माण में, ऐतिहासिक डाई-लेवल डाटा माइनिंग को लागू करने की क्षमता को दर्शाते हैं जो उसके बाद वास्तविक माहौल में यह निर्णय करने में उपयोग किये जाते हैं कि किस डाई को अगली बार परीक्षण करना है और कब टेस्टिंग को रोक देना है. ऐतिहासिक परीक्षण डाटा के साथ प्रयोग के आधार पर, यह दिखाया गया है कि इस प्रणाली में परिपक्व IC उत्पादों पर लाभ बढ़ाने की क्षमता है.
 
=== विज्ञान और इंजीनियरी ===
पंक्ति 77:
मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के [[DNA]] अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है. सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे [[कैंसर]] के विकास के जोखिम को प्रभावित करते हैं. यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है. डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे [[मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन]] के रूप में जाना जाता है.<ref>{{cite book|author=Xingquan Zhu, Ian Davidson|title=Knowledge Discovery and Data Mining: Challenges and Realities|publisher= Hershey, New Your| year =2007 |pages=18|isbn=978-159904252-7}}</ref>
 
विद्युत् इंजीनियरिंग में , डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की [[स्थिति निगरानी]] के लिए इस्तेमाल किया जाता है. स्थिति निगरानी का प्रयोजन, [[इन्सुलेशन]] के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है. [[डाटा क्लस्टरिंग]] जैसे [[सेल्फ-ओर्गनाइजिंग मैप]] (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक (OLTCS) के विश्लेषण पर लागू किया गया है. कंपन निगरानी का प्रयोग कर के, यह देखा जा सकता है कि प्रत्येक टैप परिवर्तन संक्रिया एक संकेत उत्पन्न करती है जिसमें टैप परिवर्तक संपर्क और ड्राइव तंत्र की स्थिति के बारे में जानकारी शामिल होती है. जाहिर है, विभिन्न टैप स्थितियां अलग संकेत पैदा करेंगी. हालांकि बिलकुल समान टैप स्थिति के लिए, सामान्य स्थिति संकेतों के बीच, काफी परिवर्तनशीलता थी. SOM को असामान्य स्थितियों का पता लगाने और असामान्यताओं की प्रकृति का अनुमान लगाने के लिए लागू किया गया है.<ref name="McGrail">{{cite Journal| author=A.J. McGrail, E. Gulski et al.|title=Data Mining Techniques to Asses the Condition of High Voltage Electrical Plant| journal=CIGRE WG 15.11 of Study Committee 15}}</ref>
 
डाटा माइनिंग तकनीक को [[विद्युत् ट्रांसफार्मर]] पर [[भंग गैस विश्लेषण]] (DGA) के लिए लागू किया गया है. विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है. डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं.<ref name="McGrail" />
 
विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं <ref>{{cite Journal| author=R. Baker|title=Is Gaming the System State-or-Trait? Educational Data Mining Through the Multi-Contextual Application of a Validated Behavioral Model|journal=Workshop on Data Mining for User Modeling 2007}}</ref> और उन कारकों को समझना जो विश्वविद्यालय के छात्र प्रतिधारण को प्रभावित करती हैं.<ref>{{cite Journal| author=J.F. Superby, J-P. Vandamme, N. Meskens |title=Determination of factors influencing the achievement of the first-year university students using data mining methods|journal=Workshop on Educational Data Mining 2006}}</ref>. डाटा माइनिंग के सामाजिक अनुप्रयोग का एक ऐसा ही उदाहरण है, [[विशेषज्ञता खोज प्रणाली]] में इसका उपयोग, जिसके तहत मानव विशेषज्ञता के विवर्णक निकाले जाते हैं, सामान्य किये जाते हैं, और वर्गीकृत किये जाते हैं ताकि विशेषज्ञों की खोज को सुविधाजनक बनाया जा सके, विशेष रूप से वैज्ञानिक और तकनीकी क्षेत्रों में. इस तरह से, डाटा माइनिंग [[संस्थागत स्मृति]] में मदद कर सकते हैं.
 
डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत [[जैव चिकित्सा]] डाटा,<ref name="Zhu">{{cite book|author=Xingquan Zhu, Ian Davidson|title=Knowledge Discovery and Data Mining: Challenges and Realities|publisher= Hershey, New York| year =2007 |pages=163–189|isbn=978-159904252-7}}</ref> चिकित्सीय परीक्षण डाटा माइनिंग,<ref>ibid पीपी. 31-48.</ref> SOM के प्रयोग से [[यातायात विश्लेषण]],<ref>{{cite Journal| author=Yudong Chen, Yi Zhang, Jianming Hu, Xiang Li |title=Traffic Data Analysis Using Kernel PCA and Self-Organizing Map|journal=Intelligent Vehicles Symposium, 2006 IEEE}}</ref> वगैरह.
 
प्रतिकूल दवा प्रतिक्रिया निगरानी में [[उप्साला निगरानी केन्द्र]] ने, 1998 से 4.6 मीलियन संदिग्ध [[प्रतिकूल दवा प्रतिक्रिया]] घटनाओं के WHO के वैश्विक डाटाबेस में उभरते सुरक्षित दवा मुद्दों पर नियमित रूप से डाटा माइनिंग तरीकों के प्रयोग से पैटर्न की रिपोर्टिंग की है. हाल ही में, ऐसे ही दवाओं के नुस्खे सम्बंधित चिकित्सा निदान<ref name="ReferenceA">नोरेन GN, बेट ए, होपस्तदिअस J, स्टार K, एडवर्ड IR. टेम्पोरल पैटर्न डिस्कवरी एंड ट्रेंड्स एंड ट्रांसीएंट इफेक्ट: इट्स एप्लीकेशन टु पेशेंट रिकॉर्ड्स. ''चौदहवें ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही SIGKDD 2008,'' पृष्ठ 963-971 लास वेगास NV, 2008.</ref> के अस्थायी पैटर्न के लिए [[इलेक्ट्रॉनिक स्वास्थ्य रिकार्ड]] के विशाल संग्रह को माइन करने के लिए समान प्रक्रिया विकसित की गई है.<ref name="ReferenceA"/>
 
=== स्थानिक डाटा माइनिंग ===
स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है. स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और [[भौगोलिक सूचना प्रणाली]] (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं. विशेष रूप से, सबसे समकालीन GIS में बहुत बुनियादी स्थानिक विश्लेषण कार्यशीलता है. IT विकास के कारण हुए भौगोलिक दृष्टि से संदर्भित डाटा में भारी विस्फोट, डिजिटल मैपिंग, दूरसंवेदी आंकड़े, और GIS का वैश्विक प्रसार, भौगोलिक विश्लेषण और मॉडलिंग के लिए डाटा संचालित आगमनात्‍मक दृष्टिकोण के विकास के महत्व पर जोर देता है.
 
डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है . हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य महत्वपूर्ण हो गया है, विशेष रूप से विभिन्न सार्वजनिक और निजी क्षेत्र के संगठन जिनके पास विषयगत और भौगोलिक दृष्टि से संदर्भित डाटा सहित विशाल डाटाबेस है, वहां छिपी सूचना की प्रचंड क्षमता का एहसास करना शुरू किया है. उन संगठनों में से हैं:
 
* विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
* सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
* पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
* भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं
 
===== चुनौतियां =====
भूस्थानिक डाटा भण्डार बहुत विशाल होता है. इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं. एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं.<ref>हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF, और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).</ref> इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है. डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है. भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं.
 
भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां हैं. मिलर और हान<ref>मिलर, एच. और हान, जे, (eds.), 2001, भौगोलिक डाटा माइनिंग और ज्ञान डिस्कवरी, (लंदन: टेलर और फ्रांसिस).</ref> इस क्षेत्र में उभरते अनुसंधान विषयों की निम्नलिखित सूची प्रदान करते हैं:
 
* '''भौगोलिक डाटा भण्डार का विकास और समर्थन''' - स्थानिक गुणों को अक्सर मुख्य धारा डाटा भंडारों में सरल अस्थानिक गुणों में सीमित कर दिया जाता है. एक एकीकृत GDW के निर्माण में, स्थानिक और अस्थाई डाटा इंट्रोपरेबिलिटी के मुद्दों को सुलझाने की आवश्यकता होती है, सिमेंटिक, संदर्भित प्रणाली, ज्यामिति, सटीकता और स्थिति में मतभेद सहित.
* '''भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण''' - वर्तमान भौगोलिक ज्ञान खोज (GKD) तकनीक आमतौर पर भौगोलिक वस्तुओं और स्थानिक रिश्तों का बहुत सरल प्रतिवेदनों का उपयोग करती हैं. भौगोलिक डाटा माइनिंग तकनीकों को और अधिक जटिल भौगोलिक वस्तुओं (लाइनें और बहुभुज) और रिश्तों (भौगोलिक स्थान जैसे भू भाग के माध्यम से गैर इयूक्लिडियन दूरी, दिशा, संपर्क और मेल). समय को इन भौगोलिक प्रतिवेदनों और संबंधों में और अधिक पूरी तरह से एकीकृत किया जाना चाहिए.
* '''विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज''' - ऐसी GKD तकनीक को विकसित करना चाहिए जो पारंपरिक रास्टर और वेक्टर मॉडल से परे विभिन्न प्रकार के डाटा को संभाल सके, जिसमें शामिल है काल्पनिक चित्र और भू-संदर्भित मल्टीमीडिया, साथ ही साथ गतिशील डाटा प्रकार (वीडियो धारा, एनिमेशन).
 
=== निगरानी ===
अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं [[कुल सूचना जागरूकता]] (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम ([[CAPPS II]]) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन ([[ADVISE]]) <ref>सरकार जवाबदेही कार्यालय, ''डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क'' गाओ-07-293, वाशिंगटन, डीसी: फरवरी, 2007</ref> और मल्टीस्टेट एंटी-टेरोरिज़म इन्फोर्मेशन एक्सचेंज ([[मैट्रिक्स]]) <ref>[http://www.msnbc.msn.com/id/20604775/ Secure Flight Program report] MSNBC.</ref> इन प्रोग्रामों को, अमेरिकी संविधान के चौथे संशोधन का उल्लंघन करने के विवाद के कारण बंद कर दिया गया, हालांकि उनके तहत गठित कई कार्यक्रमों को विभिन्न संगठनों, या विभिन्न नामों के तहत पैसा मिलना जारी रहा.<ref name="eff-tia-funding">{{cite web|url=http://w2.eff.org/Privacy/TIA/20031003_comments.php|title= Total/Terrorism Information Awareness (TIA): Is It Truly Dead?|date=2003|work=Electronic Frontier Foundation (official website)|accessdate=2009-03-15}}</ref>
 
आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".
 
===== पैटर्न माइनिंग =====
"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद [[पैटर्न]] की खोज शामिल है. इस संदर्भ में ''पैटर्न'' का अर्थ अक्सर [[संगत नियम]] होता है. संगत नियमों के खोज के लिए मूल प्रेरणा, सुपरमार्केट लेनदेन डाटा के विश्लेषण की इच्छा से आई, अर्थात, खरीदे गए उत्पादों के मामले में ग्राहक के व्यवहार की जांच. उदाहरण के लिए, एक संगत नियम "बियर => क्रिस्प्स (80%)" यह कहता है कि पांच ग्राहकों में से जिन चार ने बियर खरीदा उन्होंने क्रिस्प्स भी खरीदा.
 
आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, [[राष्ट्रीय अनुसंधान परिषद]] निम्नलिखित परिभाषा प्रदान करता है: "''पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है."<ref>आर अग्रवाल अन्य., ''फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग'' पीपी. 307-328, MIT प्रेस, 1996.</ref>'' <ref name="NRC2008">राष्ट्रीय अनुसंधान परिषद, ''आतंकवादियों के खिलाफ संघर्ष में व्यक्तिगत गोपनीयता की रक्षा: कार्यक्रम के आकलन के लिए एक फ्रेमवर्क'' वाशिंगटन, DC राष्ट्रीय अकादमियों प्रेस, 2008.</ref><ref name="Haag2006">{{cite book |author=Stephen Haag et al. |title=Management Information Systems for the information age |pages=28 |isbn=0-07-095569-7 |year=2006 |publisher=McGraw-Hill Ryerson |location=Toronto |oclc=63194770}}</ref> पैटर्न माइनिंग में नए क्षेत्र शामिल हैं जैसे एक [[संगीत सूचना पुनःप्राप्ति]] (MIR) जहां अस्थाई और गैर अस्थाई, दोनों डोमेन में देखे जाने वाले पैटर्न शास्त्रीय ज्ञान खोज के लिए तलाश तकनीक में आयात किये जाते हैं.
 
===== विषय आधारित डाटा माइनिंग =====
"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है. आतंकवाद से लड़ने के संदर्भ में, [[राष्ट्रीय अनुसंधान परिषद]] निम्नलिखित परिभाषा प्रदान करता है: "''विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है, और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं."'' <ref name="NRC2008" />
 
पंक्ति 123:
| url=http://www.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf|journal=|date=}}</ref> तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं.<ref>{{cite journal| author=Chip Pitts| title=The End of Illegal Domestic Spying? Don't Count on It| url= http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm|journal=Washington Spectator|date=March 15, 2007}}</ref> विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे [[कुल सूचना जागरूकता]] कार्यक्रम या [[ADVISE]] में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है.<ref>{{cite journal| author=K.A. Taipale| title=Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data |url=http://www.stlr.org/cite.cgi?volume=5&article=2|volume=5|journal=Columbia Science and Technology Law Review|issue=2|date=December 15, 2003 |id = {{SSRN|546782}} / {{OCLC|45263753}} }}</ref><ref>{{cite journal| author=John Resig, Ankur Teredesai|year= 2004| title=A Framework for Mining Instant Messaging Services| url= http://citeseer.ist.psu.edu/resig04framework.html|journal=In Proceedings of the 2004 SIAM DM Conference}}</ref>
 
डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं. ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है जब डाटा एकत्रित किया जाता है, संभवतः विभिन्न स्रोतों से और एक साथ रखा जाता है ताकि विश्लेषण किया जा सके.<ref name="NASCIO">[http://www.nascio.org/publications/documents/NASCIO-dataMining.pdf ''Think Before You Dig: Privacy Implications of Data Mining &amp; Aggregation'' ] NASCIO अनुसंधान ब्रीफ, सितम्बर, 2004</ref> यह स्वतः डाटा माइनिंग नहीं है, लेकिन विश्लेषण के प्रयोजनों के लिए और के पहले डाटा की तैयारी का एक परिणाम है. एक व्यक्ति की गोपनीयता को खतरा तब होने लगता है जब डाटा, एक बार संकलित होने के बाद, डाटा माइन करने वाले को या किसी को भी जिसकी पहुंच नए संकलित डाटा सेट तक है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम बनाती है, विशेष रूप से जब मूलतः डाटा गुमनाम थे.
 
यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:
पंक्ति 129:
* डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
* डाटा का उपयोग कैसे किया जाएगा,
* डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
* डाटा तक पहुंच की सुरक्षा, और इसके अतिरिक्त,
* एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है <ref name="NASCIO" />
कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.<ref name="NASCIO" /> हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए पर्याप्त जानकारी हो सकती है, जैसा तब हुआ, जब अनजाने में AOL द्वारा जारी किए गए खोज इतिहास के एक सेट के आधार पर पत्रकार कई लोगों को ढूंढने में सक्षम हो गए.<ref name="securityfocus.com">[http://www.securityfocus.com/brief/277 ''AOL search data identified individuals,'' ] सिक्योरिटीफोकस, अगस्त, 2006</ref><ref name="securityfocus.com"/>
 
== बाजार सर्वेक्षण ==
हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं, और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं. इन वार्षिक रिपोर्ट में कुछ शामिल हैं:
 
पंक्ति 140:
* द रेक्सर एनालिटिक रिपोर्ट.<ref>कार्ल रेक्सार, पॉल गिअरन, और हीदर एलन (2008) [http://www.rexeranalytics.com/Data-Miner-Survey-Results-2008.html '' 2008 Data Miner Survey Summary'' ] SPSS डाईरेकशन सम्मेलन, 2008 अक्तूबर, और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर</ref>
 
== समूह और संगठन ==
 
* [[SIGKDD]], [[ACM]] स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.
 
== यह भी देखें ==
=== अनुप्रयोग ===
{{columns-list|3|
*[[Surveillance#Data mining & profiling|Surveillance]] / [[Mass surveillance#Data Mining|Mass surveillance]]
पंक्ति 155:
}}
 
=== विधियां ===
{{columns-list|3|
* [[Association rule learning]]
पंक्ति 173:
* [[PMML]]
}}
डाटा माइनिंग, डाटा के ''विश्लेषण'' के बारे में है, डाटा से जानकारी निकालने के बारे में जानकारी के लिए, देखें:
{{columns-list|3|
* [[Information extraction]]
पंक्ति 185:
{{refs|2}}
 
== अतिरिक्त पठन ==
 
* भगत, फिरोज़ ''पैटर्न रिकोगनिशन इन इंडसट्री'' [[एल्सेविअर]] ISBN 0-08-044538-1
* काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) ''डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन'' [[अप्रेंटिस हॉल,]] ISBN 01374398060-13-743980-6
* डमर, स्टीफन डब्ल्यू, ''फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट'' 11 जे. टेक. विधि और सिद्धांत 259 (2006).
* डमर, स्टीफन डब्ल्यू, ''कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़ सिविल लिबर्टीज इरोज़न: स्ट्रिपिंग योर राइट्स व्हेन यु डोन्ट इवेन नो इट'' 75 MISS LJ 583 (2005).
* फेल्ड्मन, रोनेन और जेम्स संगेर ''द टेक्स्ट माइनिंग हैंडबुक'' [[कैम्ब्रिज यूनिवर्सिटी प्रेस,]] ISBN 9780521836579978-0-521-83657-9.
* गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) ''हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम'' [[क्लुवेर अकादमिक प्रकाशक.]]
* हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). ''द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन'' स्प्रिंगर, 0387952845 ISBN.
* होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला ''जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन'' (Broché).
* बिंग लियू (2007). ''वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा.'' [[स्प्रिंगर]] 3540378812 ISBN.
* मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) ''YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क'' 12 वीं ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में (KDD-06).
* निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, [[अकैडमिक प्रेस]] / [[एल्सेविअर]] ISBN 9780123747655978-0-12-374765-5 (2009)
* पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) ''डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग,'' सूचना विज्ञान संदर्भ, ISBN 978-15990416291-59904-162-9.
* पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7
* वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 ''मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस'' औद्योगिक एंड इंजीनियरिंग रसायन विज्ञान अनुसंधान, 43(22), pp.&nbsp;7,036-7,048.
* वैंग, XZ (1999) ''प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज'' स्प्रिंगर, लंदन.
* वाइस और इन्दुर्ख्या ''पूर्वानुमान डाटा माइनिंग,'' [[मॉर्गन कॉफमन]]
* विटन, इयान और एइब फ्रैंक (2000) ''डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन'' ISBN 1-55860-552-5 (यह भी देखें [[फ्री वेका सॉफ्टवेयर]])
 
== बाह्य संबंध ==
* [http://www.sigkdd.org ACM SIGKDD,] डाटा माइनिंग और ज्ञान खोज के लिए व्यावसायिक संघ
* {{dmoz|Computers/Software/Databases/Data_Mining/|Data Mining}}