"आँकड़ा खनन": अवतरणों में अंतर
Content deleted Content added
छो r2.7.2) (Robot: Adding az:Data Mining |
छो Bot: अंगराग परिवर्तन |
||
पंक्ति 2:
{{distinguish|information extraction}}
'''डाटा माइनिंग'''
एक ओर जहां डाटा माइनिंग का प्रयोग डाटा नमूनों में पैटर्न को उजागर करने के लिए किया जा सकता है, यह जानना भी महत्वपूर्ण है कि डाटा के गैर-प्रतिनिधि नमूने का प्रयोग ऐसे परिणाम उत्पन्न कर सकता जो डोमेन के सूचक नहीं हैं. इसी तरह, डाटा माइनिंग उन पैटर्न का पता नहीं लगाएगा जो डोमेन में मौजूद हो सकते हैं, अगर वे
डाटा माइनिंग शब्द का एक संबंधित लेकिन नकारात्मक अर्थ में भी प्रयोग किया गया है, जहां यह बड़ी संख्या के डाटा में स्पष्ट लेकिन जरूरी नहीं प्रतिनिधि पैटर्न की सुविचारित खोज, को इंगित करता है. दूसरे भाव से भ्रम की स्थिति से बचने के लिए, ''[[डाटा ड्रेजिंग]]''
== पृष्ठभूमि ==
मनुष्य सदियों से "हाथों से" [[डाटा]] से पैटर्न निकालता रहा है, लेकिन आधुनिक समय में डाटा की बढ़ती मात्रा ने अधिक स्वचालित तरीकों को जरुरी बना दिया
व्यवहार के निष्कर्षों के संग्रह के विश्लेषण में सहायता, डाटा माइनिंग के उपयोग का एक मुख्य कारण है. इस तरह के डाटा, अज्ञात अंतर्संबंध के कारण [[एकरेखस्तता]] के प्रति संवेदनशील होते हैं. डाटा माइनिंग का एक अपरिहार्य तथ्य यह है कि विश्लेषित किये जा रहे (उप) सेट के आंकड़े पूरे डोमेन के प्रतिनिधि नहीं भी हो सकते हैं, और इसलिए हो सकता है कि इसमें कुछ महत्वपूर्ण संबंधों और व्यवहारों के उदाहरण शामिल ना हों जो डोमेन के अन्य भागों में मौजूद हैं. इस तरह की समस्या को सुलझाने के लिए, विश्लेषण को प्रयोग-आधारित और अन्य तरीकों के प्रयोग से, जैसे मानव जनित डाटा के लिए [[चॉयस मॉडलिंग]] सुलझाते हैं. इन स्थितियों में, अंतर्निहित अंतरसम्बन्ध को या तो नियंत्रित कर सकते हैं, या पूरी तरह हटा देते हैं, [[प्रयोगात्मक डिजाइन]] के निर्माण के दौरान.
डाटा माइनिंग के लिए मानक परिभाषित करने के लिए कुछ प्रयास हुए हैं, उदाहरण के लिए 1999 यूरोपीय [[क्रॉस इंडस्ट्री स्टैनडर्ड प्रोसेस फॉर डाटा माइनिंग]] (CRISP-DM 1.0) और 2004 [[जावा डाटा माइनिंग]] मानक (JDM 1.0). ये विकसित हो रहे मानक हैं; इन मानकों के बाद के संस्करण अभी विकास की प्रक्रिया के अधीन हैं. मानकीकरण के इन प्रयासों से मुक्त, खुले-स्रोत के स्वतंत्र रूप से उपलब्ध सॉफ्टवेयर सिस्टम जैसे [[RapidMiner]], Weka, KNIME, और [[R Project]], डाटा माइनिंग प्रक्रियाओं को परिभाषित करने के लिए एक अनौपचारिक मानक बन गए हैं. इन प्रणालियों में अधिकांश, [[PMML]] (प्रीडिक्टिव मॉडल मार्कअप लेंग्वेज) में मॉडल आयात और निर्यात करने में सक्षम हैं जो डाटा माइनिंग मॉडल को प्रस्तुत करने के लिए एक मानक तरीका प्रदान करता है ताकि इन्हें अलग-अलग सांख्यिकीय अनुप्रयोगों के बीच साझा किया जा सके.
=== अनुसंधान और विकास ===
मानक और इंट्रोपरेबिलिटी की
इस क्षेत्र में प्रमुख व्यावसायिक संगठन है [[एसोसिएशन फॉर कम्प्यूटिंग मशीनरीज़]] स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग ([[SIGKDD]]).{{Citation needed|date=July 2009}}
* DMIN - इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;<ref>इंटरनेशनल डाटा माइनिंग पर सम्मेलन:
* DMKD - रिसर्च इश्यूज ऑन डाटा माइनिंग एंड नॉलेज डिस्कवरी;
* ECML-PKDD - [[यूरोपीयन कॉन्फरेंस ऑन मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ़ नॉलेज डिस्कवरी इन डाटाबेसेस;]]
* ICDM - IEEE इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग;<ref>[http://www.informatik.uni-trier.de/~ley/db/conf/icdm/index.html IEEE International Conference on Data Mining: ICDM09] [http://www.cs.umbc.edu/ICDM09/ ICDM09,] मियामी, FL; [http://icdm08.isti.cnr.it/ ICDM08,] पीसा (इटली); [http://www.ist.unomaha.edu/icdm2007/ ICDM07,] ओमाहा, पूर्वोत्तर, [http://www.comp.hkbu.edu.hk/iwi06/icdm/ ICDM06,] हांगकांग, [http://www.cacs.ull.edu/~icdm05/ ICDM05,] ह्यूस्टन, TX; [http://icdm04.cs.uni-dortmund.de/ ICDM04,] Brighton (ब्रिटेन); [http://www.cs.uvm.edu/~xwu/icdm-03.html ICDM03,] मेलबोर्न, FL; [http://kis.maebashi-it.ac.jp/icdm02/ ICDM02,] माएबाशी सिटी (जापान); [http://www.cs.uvm.edu/~xwu/icdm-01.html ICDM01,] सैन जोस, CA.</ref>
* MLDM - मशीन लर्निंग एंड डाटा माइनिंग इन पैटर्न रिकगनिशन;
* SDM - SIAM इंटरनेशनल कॉन्फरेंस ऑन डाटा माइनिंग
== प्रक्रिया ==
पंक्ति 31:
नॉलेज डिस्कवरी इन डाटाबेसेस (KDD), दिलचस्प, विश्लेषित, उपयोगी और नवीन डाटा को खोजने की प्रक्रिया के वर्णन के लिए, 1989 में ग्रेगरी पियातेट्सकी-शपिरो द्वारा गढ़ा गया नाम था. इस प्रक्रिया में कई बारीकियां हैं, लेकिन मोटे तौर पर इसके चरण हैं कच्चे डाटा को प्रीप्रोसेस करना, डाटा को माइन करना, और परिणामों की व्याख्या करना.<ref name="Fayyad">{{cite web | last = Fayyad | first = Usama | coauthors = Gregory Piatetsky-Shapiro, and Padhraic Smyth | title = From Data Mining to Knowledge Discovery in Databases | date = 1996 | url = http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf | accessdate = 2008-12-17}}</ref>
=== प्री-प्रोसेसिंग
एक बार KDD प्रक्रिया का उद्देश्य ज्ञात होने के बाद, एक लक्ष्य डाटा सेट एकत्रित किया जाना चाहिए है. चूंकि डाटा माइनिंग केवल आंकड़ों में पहले से ही मौजूद पैटर्न को उजागर कर सकता है, लक्ष्य डाटा सेट इतना बड़ा होना चाहिए कि इसमें ये पैटर्न शामिल हों जबकि यह इतना संक्षिप्त हो कि एक स्वीकार्य समय सीमा में इसकी माइनिंग हो सके. आंकड़ों के लिए एक आम स्रोत एक डाटामार्ट
निर्धारित लक्ष्य को तब साफ किया जाता है. सफाई, शोर और लापता डाटा के साथ टिप्पणियों को हटा देती है.
साफ डाटा को [[फीचर वेक्टर]] में परिणत किया जाता है, प्रति प्रेक्षण एक वेक्टर. एक फीचर वेक्टर, कच्चे डाटा प्रेक्षण का एक संक्षिप्त संस्करण है. उदाहरण के लिए, एक चेहरे की श्वेत और श्याम छवि जो 100px गुना 100px है उसमें 10,000 बिट्स कच्चे आंकड़े शामिल होंगे. छवि में आंख और मुंह का पता लगा कर इसे फीचर वेक्टर में बदला जा सकता है.
फीचर वैक्टर को दो सेट में विभाजित किया गया है, "प्रशिक्षण सेट" और "परीक्षण सेट". प्रशिक्षण सेट को डाटा माइनिंग एल्गोरिथ्म को प्रशिक्षित करने के लिए इस्तेमाल किया जाता है, जबकि परीक्षण सेट को किसी भी प्राप्त पेटर्न की सटीकता को सत्यापित करने के लिए किया जाता है.
पंक्ति 49:
=== परिणाम सत्यापन ===
डाटा से ज्ञान की खोज का अंतिम चरण है डाटा माइनिंग एल्गोरिदम द्वारा उत्पन्न पैटर्न को सत्यापित करना जो व्यापक डाटा सेट में होते हैं. डाटा माइनिंग एल्गोरिदम द्वारा पाए गए सभी पैटर्न जरूरी नहीं कि सही हों. डाटा माइनिंग एल्गोरिदम के लिए प्रशिक्षण सेट में पैटर्न का पता लगाना आम है जो सामान्य डाटा सेट में मौजूद नहीं हैं, इसे [[ओवरफाइटिंग]] कहा जाता है.
यदि लर्न्ट पैटर्न वांछित मानकों को पूरा नहीं करते, तो पुनर्मूल्यांकन करना और प्रीप्रोसेसिंग और डाटा माइनिंग को बदलना आवश्यक है. यदि लर्न्ट पैटर्न वांछित मानकों को पूरा करते हैं तो अंतिम प्रक्रिया उन लर्न्ट पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है.
== उल्लेखनीय उपयोग
=== खेल ===
1960 के दशक के प्रारंभ से, कुछ [[मिश्रित खेलों]] के लिए [[ऑरैक्कल]] की उपलब्धता के साथ, जिन्हें [[टेबलबेसेस]] (उदाहरण, 3x3-शतरंज) भी कहा जाता था, किसी भी शुरुआती विन्यास, छोटे बोर्ड [[डॉट्स-एंड-बॉक्सेस]], छोटे बोर्ड हेक्स, और शतरंज में कुछ एंडगेम्स, डॉट्स-एंड-बॉक्सेस, और हेक्स; के साथ
=== व्यावसाय ===
[[ग्राहक संबंध प्रबंधन]] अनुप्रयोगों में, डाटा माइनिंग निचली पंक्ति में काफी योगदान कर सकता है. {{Citation needed|date=July 2008}} एक संभावना या ग्राहक से बेतरतीब ढंग से एक कॉल सेंटर या मेल भेज कर संपर्क करने के बजाए, एक कंपनी अपने प्रयासों को संभावनाओं पर केंद्रित कर सकती है जिनके किसी प्रस्ताव के जवाब देने की एक उच्च संभावना है. अभियान में संसाधनों को अधिकतम इस्तेमाल करने के लिए अधिक परिष्कृत तरीके का प्रयोग किया जा सकता है ताकि यह भविष्यवाणी की जा सके कि एक व्यक्ति द्वारा कौन से चैनल और कौन सी पेशकश के प्रति उत्तर देने की अधिक संभावना है - सारे क्षमतावान उत्पादों में. इसके अतिरिक्त, मेलिंग को स्वचालित करने के लिए परिष्कृत अनुप्रयोगों का प्रयोग किया जा सकता है. डाटा माइनिंग (संभावित संभावना/ग्राहक और चैनल/पेशकश) से एक बार परिणाम निर्धारित हो जाने पर, यह "परिष्कृत अनुप्रयोग" स्वतः ही एक ई-मेल या नियमित मेल, दोनों
डाटा माइनिंग को अपनाने वाले कारोबार एक वापसी या निवेश देख सकते हैं, लेकिन वे यह भी देखते हैं कि भविष्यसूचक मॉडलों की संख्या तेजी से बहुत बड़ी हो सकती है. कौन सा ग्राहक प्रतिक्रिया देगा यह बताने के लिए एक मॉडल के बजाय, एक उद्योग
डाटा माइनिंग मानव संसाधन विभाग के लिए, अपने सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने में भी उपयोगी हो सकते हैं. प्राप्त जानकारी, जैसे बेहद सफल कर्मचारियों द्वारा शिक्षा के लिए प्रयुक्त विश्वविद्याल, HR को तदनुसार भर्ती प्रयासों पर ध्यान केंद्रित करने में मदद कर सकता है. इसके अतिरिक्त, रणनीतिक उद्यम प्रबंधन अनुप्रयोग, एक कंपनी को कॉर्पोरेट स्टार के लक्ष्यों को अनुदित करने में मदद करते हैं, जैसे लाभ और मार्जिन शेयर लक्ष्य, परिचालन निर्णयों के अन्दर, जैसे उत्पादन योजनाएं और कार्यबल स्तर.<ref name="autogenerated1">{{cite book |author=Ellen Monk, Bret Wagner |title=Concepts in Enterprise Resource Planning, Second Edition |publisher=Thomson Course Technology, Boston, MA |year=2006 |isbn=0-619-21663-8 |oclc=224465825}}</ref>
डाटा माइनिंग का एक और उदाहरण, जिसे अक्सर [[मार्केट बास्केट अनैलिसिस]] कहा जाता है, खुदरा बिक्री में इसके उपयोग से संबंधित है. यदि एक कपड़े की दुकान, ग्राहकों की खरीद को दर्ज करती है, एक डाटा माइनिंग प्रणाली उन ग्राहकों को चिह्नित कर सकती है जो कपास की जगह सिल्क शर्ट को अधिक पसंद करते हैं. हालांकि संबंधों के कुछ स्पष्टीकरण मुश्किल हो सकते हैं, इसका लाभ लेना आसान है. यह उदाहरण, लेनदेन आधारित डाटा के भीतर [[साहचर्य नियम]] की चर्चा करता है.
[[मार्केट बास्केट अनैलिसिस]] का इस्तेमाल [[अल्फा उपभोक्ता]] की खरीददारी पैटर्न को पहचानने के लिए किया गया है. अल्फा उपभोक्ता, वे लोग हैं जो एक उत्पाद के पीछे की अवधारणा के साथ जोड़ने में महत्वपूर्ण भूमिका निभाते हैं, फिर उस उत्पाद को अपनाते हैं, और अंत में बाकी
डाटा माइनिंग, सूची विपणन उद्योग में एक अत्यंत प्रभावी उपकरण है. केटालॉगर के पास कई वर्षों का, लाखों ग्राहक पर ग्राहक लेनदेन का एक समृद्ध इतिहास है. डाटा माइनिंग उपकरण, ग्राहकों के बीच पैटर्न की पहचान कर सकते हैं और आगामी मेलिंग अभियान के प्रति प्रतिक्रिया देने वाले सबसे अधिक संभावित ग्राहकों की पहचान करने में मदद कर सकता है.
एक एकीकृत सर्किट उत्पादन लाइन से सम्बंधित, डाटा माइनिंग का एक उदाहरण पत्र में वर्णित है "माइनिंग IC टेस्ट डाटा टु ओप्टीमाइज़ VLSI टेस्टिंग." <ref>टोनी फाउन्टेन, थॉमस डिटरिश और बिल सुदिका (2000) [http://web.engr.oregonstate.edu/~tgd/publications/kdd2000-dlft.pdf ''Mining IC Test Data to Optimize VLSI Testing'' ] छठी ACM SIGKDD ज्ञान डिस्कवरी और डाटा माइनिंग पर अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में. (pp. 18-25). ACM प्रेस.</ref> इस पत्र में डाटा माइनिंग का अनुप्रयोग और डाई-लेवल कार्यात्मक परीक्षण समस्या का
=== विज्ञान और इंजीनियरी ===
पंक्ति 77:
मानव आनुवांशिकी पर अध्ययन के क्षेत्र में महत्वपूर्ण लक्ष्य, मानव के [[DNA]] अनुक्रम और बीमारी के प्रति संवेदनशीलता की परिवर्तनशीलता में वैयक्तिक भिन्नता के बीच सम्बन्ध को चित्रित करना है. सामान्य शब्दावली में, यह पता लगाना कि कैसे एक व्यक्ति के DNA अनुक्रम में परिवर्तन, आम रोगों जैसे [[कैंसर]] के विकास के जोखिम को प्रभावित करते हैं. यह निदान, रोकथाम तथा रोगों के उपचार में सुधार लाने में बहुत मदद करता है. डाटा माइनिंग तकनीक, जिसे इस कार्य के लिए प्रयोग किया जाता है उसे [[मल्टीफैक्टर डाईमेंशनैलिटी रिडक्शन]] के रूप में जाना जाता है.<ref>{{cite book|author=Xingquan Zhu, Ian Davidson|title=Knowledge Discovery and Data Mining: Challenges and Realities|publisher= Hershey, New Your| year =2007 |pages=18|isbn=978-159904252-7}}</ref>
विद्युत् इंजीनियरिंग में , डाटा माइनिंग तकनीक का व्यापक रूप से उच्च वोल्टेज बिजली उपकरणों की [[स्थिति निगरानी]] के लिए इस्तेमाल किया जाता है. स्थिति निगरानी का प्रयोजन, [[इन्सुलेशन]] के उपकरणों की स्वास्थ्य स्थिति पर बहुमूल्य जानकारी प्राप्त करना है. [[डाटा क्लस्टरिंग]] जैसे [[सेल्फ-ओर्गनाइजिंग मैप]] (SOM), को कंपन निगरानी और ट्रांसफॉर्मर के ऑन लोड टैप-परिवर्तक
डाटा माइनिंग तकनीक को [[विद्युत् ट्रांसफार्मर]] पर [[भंग गैस विश्लेषण]] (DGA) के लिए लागू किया गया है. विद्युत् ट्रांसफार्मर के लिए एक निदान के रूप में DGA, कई वर्षों से उपलब्ध है. डाटा माइनिंग तकनीक, जैसे की SOM को, डाटा विश्लेषण और रुझानों को निर्धारित करने के लिए लागू किया जाता है जो डुवल ट्रायंगल जैसी मानक DGA अनुपात तकनीकों को स्पष्ट नहीं हैं.<ref name="McGrail" />
विज्ञान/इंजीनियरिंग के क्षेत्र में डाटा माइनिंग के प्रयोग का एक चौथा क्षेत्र है शैक्षिक अनुसंधान, जहां डाटा माइनिंग का प्रयोग उन प्रमुख कारकों का अध्ययन करने के लिए किया जाता है जो छात्रों को ऐसे व्यवहार के चुनाव के लिए प्रेरित करते हैं जो उनके अध्ययन को घटाती हैं <ref>{{cite Journal| author=R. Baker|title=Is Gaming the System State-or-Trait? Educational Data Mining Through the Multi-Contextual Application of a Validated Behavioral Model|journal=Workshop on Data Mining for User Modeling 2007}}</ref> और उन
डाटा माइनिंग तकनीक के अनुप्रयोग को लागू करने के अन्य उदाहरण हैं डोमेन ओंटोलोजीस द्वारा सरलीकृत [[जैव चिकित्सा]] डाटा,<ref name="Zhu">{{cite book|author=Xingquan Zhu, Ian Davidson|title=Knowledge Discovery and Data Mining: Challenges and Realities|publisher= Hershey, New York| year =2007 |pages=163–189|isbn=978-159904252-7}}</ref> चिकित्सीय परीक्षण डाटा माइनिंग,<ref>ibid पीपी. 31-48.</ref> SOM के प्रयोग से [[यातायात विश्लेषण]],<ref>{{cite Journal| author=Yudong Chen, Yi Zhang, Jianming Hu, Xiang Li |title=Traffic Data Analysis Using Kernel PCA and Self-Organizing Map|journal=Intelligent Vehicles Symposium, 2006 IEEE}}</ref> वगैरह.
प्रतिकूल दवा प्रतिक्रिया निगरानी में [[उप्साला निगरानी केन्द्र]] ने, 1998 से
=== स्थानिक डाटा माइनिंग ===
स्थानिक डाटा माइनिंग, स्थानिक डाटा पर डाटा माइनिंग तकनीक का अनुप्रयोग है. स्थानिक डाटा माइनिंग, डाटा माइनिंग में समान प्रक्रियाओं का पालन करते हैं, जहां इनका अंतिम उद्देश्य होता है भूगोल में पैटर्न पता करना. अब तक, डाटा माइनिंग और [[भौगोलिक सूचना प्रणाली]] (GIS) का, दो अलग प्रौद्योगिकी के रूप में अस्तित्व रहा है, दोनों ही अपनी अलग परंपराओं, तरीकों और विजुअलाइजेशन और डाटा विश्लेषण के प्रति अपने दृष्टिकोण के साथ रहे हैं.
डाटा माइनिंग, जो विशाल डाटाबेस में छिपे पैटर्न के लिए आंशिक रूप से स्वचालित खोज है, व्यावहारिक GIS-आधारित निर्णय प्रक्रिया के लिए अत्यधिक क्षमतावान लाभ प्रदान करता है . हाल ही में, इन दोनों प्रौद्योगिकियों को एकीकृत करने का कार्य
* विश्लेषण या भू-संदर्भित सांख्यिकीय डाटा के प्रसार की आवश्यकता वाले कार्यालय
* सार्वजनिक स्वास्थ्य सेवाएं जिन्हें बीमारी समूहों के स्पष्टीकरण की खोज है
* पर्यावरण एजेंसियां जो जलवायु परिवर्तन पर भूमि प्रयोग की बदलती पद्धति का असर का मूल्यांकन कर रहे हैं
* भू-विपणन कंपनियां जो स्थानिक अवस्थिति के आधार पर ग्राहक विभाजन कर रही हैं
===== चुनौतियां =====
भूस्थानिक डाटा भण्डार बहुत विशाल होता है. इसके अलावा, मौजूदा GIS डाटासेट, अक्सर फीचर और विशेषता घटकों में बंटे होते हैं, जो पारंपरिक रूप से संकर डाटा प्रबंधन प्रणालियों में संग्रहीत होते हैं. एल्गोरिथम आवश्यकताएं, संबंधपरक (विशेषता) डाटा प्रबंधन और टोपोलोजिकल (फीचर) डाटा प्रबंधन के लिए काफी अलग होती हैं.<ref>हेले, आर, 1991, डाटाबेस प्रबंधन प्रणालियां. इन मेग्वर, डी, गुडचाइल्ड, MF, और रिंड, डी, (eds.), भौगोलिक सूचना प्रणाली: सिद्धांत और अनुप्रयोग (लंदन: Longman).</ref> इस से संबंधित है भौगोलिक डाटा प्रारूप की विविधता और रेंज, जो अद्वितीय चुनौतियां भी प्रस्तुत करता है. डिजिटल भौगोलिक डाटा क्रांति, पारंपरिक "वेक्टर" और "रास्टर" स्वरूप के परे एक नए प्रकार के डाटा फोर्मेट को निर्मित कर रही है. भौगोलिक डाटा भंडार में तेज़ी से खराब संरचित डाटा, जैसे कल्पनिक चित्र और भू संदर्भित मल्टी-मीडिया शामिल हो रहें हैं.
भौगोलिक ज्ञान खोज और डाटा माइनिंग में कई महत्वपूर्ण अनुसंधान चुनौतियां
* '''भौगोलिक डाटा भण्डार का विकास और समर्थन'''
* '''भौगोलिक ज्ञान खोज में बेहतर स्थानिक-अस्थाई निरूपण'''
* '''विविध प्रकार के डाटा के उपयोग से भौगोलिक ज्ञान खोज'''
=== निगरानी ===
अमेरिकी सरकार के तहत आतंकवादी कार्यक्रम रोकने के लिए पूर्व की डाटा माइनिंग में शामिल हैं [[कुल सूचना जागरूकता]] (TIA) कार्यक्रम, सुरक्षित उड़ान (पूर्व में कंप्यूटर-एसिसटेड पैसेंजर प्रीस्क्रीनिंग सिस्टम ([[CAPPS II]]) विश्लेषण, प्रसार, विज़ुअलाइज़ेशन, इनसाइट, अर्थ संवर्धन ([[ADVISE]]) <ref>सरकार जवाबदेही कार्यालय, ''डाटा माइनिंग: अर्ली अटेंशन टु प्राइवेसी इन डेवलपिंग अ की DHS प्रोग्राम कुड रिड्यूस रिस्क''
आतंकवाद का मुकाबला करने के सन्दर्भ में दो संभावित डाटा माइनिंग तकनीक हैं "पैटर्न माइनिंग" और "सब्जेक्ट बेस्ड डाटा माइनिंग".
===== पैटर्न माइनिंग =====
"पैटर्न माइनिंग" एक डाटा माइनिंग तकनीक है जिसमें डाटा में पहले से मौजूद [[पैटर्न]] की खोज शामिल है. इस संदर्भ में ''पैटर्न''
आतंकवादी गतिविधि की पहचान के एक उपकरण के रूप में पैटर्न माइनिंग के संदर्भ में, [[राष्ट्रीय अनुसंधान परिषद]] निम्नलिखित परिभाषा प्रदान करता है: "''पैटर्न आधारित डाटा माइनिंग पैटर्न खोजता है (विषम डाटा पैटर्न सहित) जो हो सकता है कि आतंकवादी गतिविधियों से जुड़ा हो - इन पैटर्न को शोर के महासागर में एक छोटा संकेत माना जा सकता है."<ref>आर अग्रवाल अन्य., ''फास्ट डिस्कवरी ऑफ़ असोसीएशन रूल्स इन अडवांसेस इन नॉलेज डिस्कवरी एंड डाटा माइनिंग''
===== विषय आधारित डाटा माइनिंग =====
"विषय आधारित डाटा माइनिंग", एक डाटा माइनिंग तकनीक है जिसमें डाटा में व्यक्तियों के बीच साहचर्य की खोज शामिल है. आतंकवाद से लड़ने के संदर्भ में, [[राष्ट्रीय अनुसंधान परिषद]] निम्नलिखित परिभाषा प्रदान करता है: "''विषय आधारित डाटा माइनिंग शुरुआत करने वाले एक व्यक्ति या अन्य तथ्य का उपयोग करता है जो, अन्य जानकारी पर आधारित, उच्च उपयोगिता वाला माना जाता है, और लक्ष्य, यह निर्धारित करना होता है कि उस शुरुआत करने वाले आंकड़ों से कौन से अन्य व्यक्ति या वित्तीय लेनदेन या आंदोलन, आदि, संबंधित हैं."'' <ref name="NRC2008" />
पंक्ति 123:
| url=http://www.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf|journal=|date=}}</ref> तथापि, जिन तरीकों से डाटा माइनिंग का प्रयोग किया जा सकता है वे गोपनीयता, वैधता और नैतिकता के सवाल उठा सकते हैं.<ref>{{cite journal| author=Chip Pitts| title=The End of Illegal Domestic Spying? Don't Count on It| url= http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm|journal=Washington Spectator|date=March 15, 2007}}</ref> विशेष रूप से, डाटा माइनिंग सरकार या राष्ट्रीय सुरक्षा या कानून प्रवर्तन प्रयोजनों के लिए जैसे [[कुल सूचना जागरूकता]] कार्यक्रम या [[ADVISE]] में, व्यावसायिक डाटा सेट ने गोपनीयता सम्बंधित चिंताओं को बढ़ाया है.<ref>{{cite journal| author=K.A. Taipale| title=Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data |url=http://www.stlr.org/cite.cgi?volume=5&article=2|volume=5|journal=Columbia Science and Technology Law Review|issue=2|date=December 15, 2003 |id = {{SSRN|546782}} / {{OCLC|45263753}} }}</ref><ref>{{cite journal| author=John Resig, Ankur Teredesai|year= 2004| title=A Framework for Mining Instant Messaging Services| url= http://citeseer.ist.psu.edu/resig04framework.html|journal=In Proceedings of the 2004 SIAM DM Conference}}</ref>
डाटा माइनिंग को डाटा रचना की आवश्यकता होती है जो उन जानकारीयों या पैटर्न को उजागर कर सकता है जो गोपनीयता और निजता नियमों से समझौता कर सकते हैं. ऐसी घटना के होने का एक आम तरीका है डाटा एकत्रीकरण के माध्यम से. डाटा एकत्रिकरण तब है
यह अनुशंसा की जाती है कि एक व्यक्ति को, डाटा के एकत्र करने से पहले निम्नलिखित के बारे में अवगत कराना चाहिए:
पंक्ति 129:
* डाटा संग्रह के उद्देश्य और कोई भी डाटा माइनिंग परियोजना,
* डाटा का उपयोग कैसे किया जाएगा,
* डाटा को माइन करने में और उन्हें इस्तेमाल करने में कौन योग्य होगा
* डाटा तक पहुंच की सुरक्षा, और इसके अतिरिक्त,
* एकत्रित डाटा कैसे नवीनीकृत किया जा सकता है <ref name="NASCIO" />
कोई व्यक्ति अतिरिक्त रूप से, डाटा को इतना संशोधित कर सकता है कि वे गुमनाम हो जाएं, ताकि लोगों को आसानी से नहीं पहचाना जा सके.<ref name="NASCIO" /> हालांकि, यहां तक की गैर-चिह्नित डाटा सेट में किसी व्यक्ति की पहचान करने के लिए
== बाजार सर्वेक्षण ==
हर साल कई संगठन, बाजार सर्वेक्षण करते हैं और वर्तमान डाटा माइनिंग बाज़ार आवश्यकताओं की रिपोर्ट प्रस्तुत करते हैं, और उन उपकरणों और विक्रेताओं की तुलना जो उन्हें मुहैय्या करा रहे हैं. इन वार्षिक रिपोर्ट में कुछ शामिल हैं:
पंक्ति 140:
* द रेक्सर एनालिटिक रिपोर्ट.<ref>कार्ल रेक्सार, पॉल गिअरन, और हीदर एलन (2008) [http://www.rexeranalytics.com/Data-Miner-Survey-Results-2008.html '' 2008 Data Miner Survey Summary'' ] SPSS डाईरेकशन सम्मेलन, 2008 अक्तूबर, और Oracle BIWA शिखर सम्मेलन, 2008 नवम्बर</ref>
== समूह और संगठन ==
* [[SIGKDD]], [[ACM]] स्पेशल इंटरेस्ट ग्रुप ऑन नॉलेज डिस्कवरी एंड डाटा माइनिंग.
== यह भी देखें ==
=== अनुप्रयोग ===
{{columns-list|3|
*[[Surveillance#Data mining & profiling|Surveillance]] / [[Mass surveillance#Data Mining|Mass surveillance]]
पंक्ति 155:
}}
=== विधियां ===
{{columns-list|3|
* [[Association rule learning]]
पंक्ति 173:
* [[PMML]]
}}
डाटा माइनिंग, डाटा के ''विश्लेषण''
{{columns-list|3|
* [[Information extraction]]
पंक्ति 185:
{{refs|2}}
== अतिरिक्त पठन
* भगत, फिरोज़ ''पैटर्न रिकोगनिशन इन इंडसट्री''
* काबेना, पीटर, पाब्लो हज्नियन, रॉल्फ स्टाद्लर, जाप वेरहीस और अलेसांद्रो ज़नासी (1997) ''डिस्कवरिंग डाटा माइनिंग: फ्रॉम कोंसेप्त टु इम्प्लीमेंटेशन''
* डमर, स्टीफन डब्ल्यू, ''फाल्स पोसिटिव एंड सिक्योर फ्लाईट युसिंग डाटाविलांस व्हेन व्युड थ्रू द एवर इन्क्रीसिंग लाइक्लीहुड ऑफ़ आईडेनटीटी थेफ्ट''
* डमर, स्टीफन डब्ल्यू, ''कमेन्ट: सिक्योर फ्लाईट एंड डाटाविलांस, अ न्यू टैप ऑफ़
* फेल्ड्मन, रोनेन और जेम्स संगेर ''द टेक्स्ट माइनिंग हैंडबुक''
* गुओ, येक और रॉबर्ट ग्रॉसमैन, संपादक (1999) ''हाई परफोर्मेंस डाटा माइनिंग: स्केलिंग एल्गोरिदम, एप्लीकेशन एंड सिस्टम''
* हस्ती, ट्रेवर, रॉबर्ट टिबशिरानी और जेरोम फ्रीडमन (2001). ''द एलिमेंट्स ऑफ़ स्टेटीस्टीकल लर्निंग: डाटा माइनिंग, इनफरेंस एंड प्रिडिकशन''
* होर्निक, मार्क एफ, एरिक मर्काद और सुनील वेंकेला ''जावा डाटा माइनिंग: स्ट्रेटेजी, स्टेनडर्ड, एंड प्रैक्टिस: अ प्रेक्टिकल गाइड फॉर आर्कीटेक्चर, डिजाइन, एंड इम्प्लीमेनटेशन''
* बिंग लियू (2007). ''वेब डाटा माइनिंग: एक्स्प्लोरिंग हाइपरलिंक्स कोंटेंट्स एंड यूसेज डाटा.''
* मिअरसवा, इंगो, माइकल वुर्स्त, राल्फ क्लिनकेंबर्ग, मार्टिन शोल्ज़ और टीम युलर (2006) ''YALE: रैपिड प्रोटोटाइपिंग फॉर कोम्प्लेक्स डाटा माइनिंग टास्क''
* निस्बेट, रॉबर्ट, जॉन एल्डर, गैरी माइनर, 'सांख्यिकीय विश्लेषण और डाटा माइनिंग अनुप्रयोग की पुस्तिका, [[अकैडमिक प्रेस]] / [[एल्सेविअर]] ISBN
* पोंसलेट, पास्कल, फ्लोरेंट मसेग्लिया और मागुलोन टेसेरे, संपादक (अक्टूबर 2007) ''डाटा माइनिंग पैटर्न: नए तरीके और अनुप्रयोग,''
* पेंग-निंग टैन, माइकल स्टीनबख और विपिन कुमार, डाटा माइनिंग परिचय (2005), ISBN 0-321-32136-7
* वैंग, XZ; मेदसनी, एस; मरहून, एफ, अल बजाज, एच. (2004 ''मल्टीडाइमेन्शनल विजुअलाइजेशन ऑफ़ प्रिंसिपल कोम्पोनेंट स्कोर्स फॉर प्रोसेस हिस्टोरिकल डाटा अनैलिसिस''
* वैंग, XZ (1999) ''प्रक्रिया निगरानी और नियंत्रण के लिए डाटा माइनिंग और ज्ञान की खोज''
* वाइस और इन्दुर्ख्या ''पूर्वानुमान डाटा माइनिंग,''
* विटन, इयान और एइब फ्रैंक (2000) ''डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स विथ जावा इम्प्लीमेनटेशन''
== बाह्य संबंध ==
* [http://www.sigkdd.org ACM SIGKDD,] डाटा माइनिंग और ज्ञान खोज के लिए व्यावसायिक संघ
* {{dmoz|Computers/Software/Databases/Data_Mining/|Data Mining}}
|