सूचना पुनर्प्राप्ति (आईआर) सूचना प्रणाली संसाधनों को प्राप्त करने की गतिविधि है जो उन संसाधनों के संग्रह से एक सूचना की आवश्यकता के लिए प्रासंगिक हैं। खोज पूर्ण-पाठ या अन्य सामग्री-आधारित अनुक्रमण पर आधारित हो सकती हैं। सूचना पुनर्प्राप्ति एक दस्तावेज में जानकारी की खोज करने, स्वयं दस्तावेजों की खोज करने, और डेटा का वर्णन करने वाले मेटाडेटा, और ग्रंथों, छवियों या ध्वनियों के डेटाबेस के लिए खोज करने का विज्ञान है।

सूचना अधिभार कम करने के लिए स्वचालित सूचना पुनर्प्राप्ति प्रणाली का उपयोग किया जाता है। आईआर प्रणाली एक सॉफ्टवेयर प्रणाली है जो पुस्तकों, पत्रिकाओं और अन्य दस्तावेजों तक पहुंच प्रदान करती है; उन दस्तावेज़ों को संग्रहीत और प्रबंधित करता है। वेब खोज इंजन सबसे अधिक दिखाई देने वाले आईआर अनुप्रयोग हैं।

उपयोगकर्ता द्वारा सिस्टम में एक प्रश्न दर्ज करने पर एक सूचना पुनर्प्राप्ति प्रक्रिया शुरू होती है। क्वेरी सूचना की जरूरतों के औपचारिक विवरण हैं। सूचना पुनर्प्राप्ति में एक क्वेरी संग्रह में एक भी वस्तु की विशिष्ट पहचान नहीं करती है। इसके बजाय, कई ऑब्जेक्ट क्वेरी से मेल खा सकते हैं, शायद प्रासंगिकता के विभिन्न डिग्री के साथ।

एक वस्तु एक इकाई है जिसे सामग्री संग्रह या डेटाबेस में जानकारी द्वारा दर्शाया जाता है। उपयोगकर्ता क्वेरी डेटाबेस जानकारी मिलान किया जाता हैं। हालाँकि, डेटाबेस के क्लासिक एसक्यूएल(SQL) प्रश्नों के विपरीत, सूचना पुनर्प्राप्ति में परिणाम लौटे या क्वेरी से मेल नहीं खा सकते हैं, इसलिए परिणाम आमतौर पर रैंक किए जाते हैं। परिणामों की यह रैंकिंग डेटाबेस खोज की तुलना में सूचना पुनर्प्राप्ति खोज का एक महत्वपूर्ण अंतर है। [1]

अनुप्रयोग के आधार पर डेटा ऑब्जेक्ट हो सकते हैं, उदाहरण के लिए, पाठ दस्तावेज़, चित्र,[2] ऑडियो,[3] मन के नक्शे[4] या वीडियो। अक्सर दस्तावेज़ को आईआर सिस्टम में सीधे नहीं रखा या संग्रहीत नहीं किया जाता है, बल्कि दस्तावेज़ सरोगेट्स या मेटाडेटा द्वारा सिस्टम में प्रतिनिधित्व किया जाता है।

अधिकांश IR सिस्टम एक संख्यात्मक स्कोर की गणना करते हैं कि डेटाबेस में प्रत्येक ऑब्जेक्ट क्वेरी से कितनी अच्छी तरह मेल खाता है, और इस मूल्य के अनुसार वस्तुओं को रैंक करता है। शीर्ष रैंकिंग ऑब्जेक्ट तब उपयोगकर्ता को दिखाए जाते हैं। यदि उपयोगकर्ता क्वेरी को परिशोधित करना चाहता है तो यह प्रक्रिया तब पुनरावृत्त हो सकती है। [5]

1945 में वननेवर बुश द्वारा As We May Think लेख में प्रासंगिक जानकारी के लिए खोज करने के लिए कंप्यूटर का उपयोग करने के विचार को लोकप्रिय बनाया गया था।[6] ऐसा प्रतीत होता है कि बुश 1920 के दशक में इमानुएल गोल्डबर्ग द्वारा दायर एक 'स्टैटिस्टिकल मशीन' के लिए प्रेरित हुए थे और 30 के दशक में - जिसने फिल्म पर संग्रहीत दस्तावेजों की खोज की थी। जानकारी के लिए खोज करने वाले कंप्यूटर का पहला विवरण 1948[7] में होल्मस्ट्रॉम द्वारा वर्णित किया गया था, यूनीवैक कंप्यूटर के प्रारंभिक उल्लेख का विवरण देते हुए। 1950 के दशक में स्वचालित सूचना पुनर्प्राप्ति प्रणाली शुरू की गई, 1957 की रोमांटिक कॉमेडी, डेस्क सेट में भी एक को चित्रित किया गया। 1960 के दशक में, कॉर्नेल में जेरार्ड सैलटन द्वारा पहली बड़ी सूचना पुनर्प्राप्ति अनुसंधान समूह का गठन किया गया था। 1970 के दशक तक कई अलग-अलग पुनर्प्राप्ति तकनीकों को क्रैनफील्ड संग्रह जैसे छोटे पाठसंग्रह पर अच्छा प्रदर्शन करने के लिए दिखाया गया था ।

1992 में, नेशनल इंस्टीट्यूट ऑफ स्टैंडर्ड्स एंड टेक्नोलॉजी,NIST के साथ अमेरिकी रक्षा विभाग ने TIPSTER पाठ कार्यक्रम के भाग के रूप में टेक्स्ट रिट्रीवल कॉन्फ्रेंस (TREC) को मंजूरी दी। इसका उद्देश्य बहुत बड़े पाठसंग्रह पर पाठ पुनर्प्राप्ति विधियों के मूल्यांकन के लिए आवश्यक बुनियादी ढांचे की आपूर्ति करके सूचना पुनर्प्राप्ति समुदाय को देखना था।

इसने बड़े कॉर्पोरा के पैमाने पर अनुसंधानों को उत्प्रेरित किया। वेब सर्च इंजनों की शुरूआत ने बहुत बड़े पैमाने पर पुनर्प्राप्ति प्रणाली की आवश्यकता को और अधिक बढ़ावा दिया है।

मॉडल के प्रकार

संपादित करें
 
आईआर-मॉडल का वर्गीकरण


आईआर रणनीतियों द्वारा प्रासंगिक दस्तावेजों को प्रभावी ढंग से प्राप्त करने के लिए, दस्तावेजों को आम तौर पर एक उपयुक्त प्रतिनिधित्व में बदल दिया जाता है। प्रत्येक पुनर्प्राप्ति रणनीति में इसके दस्तावेज़ प्रतिनिधित्व उद्देश्यों के लिए एक विशिष्ट मॉडल शामिल है। दाईं ओर की तस्वीर कुछ सामान्य मॉडल के रिश्ते को दर्शाती है। चित्र में, मॉडल को दो आयामों के अनुसार वर्गीकृत किया गया है: गणितीय आधार और मॉडल के गुण।

पहला आयाम: गणितीय आधार

संपादित करें
  • सेट-थियोरेटिक मॉडल शब्दों या वाक्यांशों के समुच्चय के रूप में दस्तावेजों का प्रतिनिधित्व करते हैं। समानताएं आमतौर पर उन सेटों पर सेट-सिद्धांत संचालन से ली गई हैं।
  • बीजगणितीय मॉडल आमतौर पर वैक्टर, मैट्रिस या ट्यूपल्स के रूप में दस्तावेजों और प्रश्नों का प्रतिनिधित्व करते हैं। क्वेरी वेक्टर और दस्तावेज़ वेक्टर की समानता को स्केलर मान के रूप में दर्शाया गया है।
  • संभाव्य मॉडल एक संभावित संभाव्यता के रूप में दस्तावेज़ पुनर्प्राप्ति की प्रक्रिया का इलाज करते हैं। समानताओं की गणना संभाव्यता के रूप में की जाती है जो किसी दिए गए प्रश्न के लिए एक दस्तावेज प्रासंगिक है। इन मॉडलों में प्रायः बेय का सिद्धांत जैसे संभाव्य सिद्धांत का उपयोग किया जाता है।
  • फ़ीचर-आधारित रिट्रीवल मॉडल दस्तावेज़ों को फ़ीचर फ़ंक्शंस (या सिर्फ फीचर्स) के वैक्टर के रूप में देखते हैं और इन विशेषताओं को एकल प्रासंगिकता स्कोर में संयोजित करने का सबसे अच्छा तरीका खोजते हैं, आमतौर पर रैंक विधियों को सीखकर। फ़ीचर फ़ंक्शंस दस्तावेज़ और क्वेरी के मनमाने कार्य हैं, और जैसे आसानी से लगभग किसी भी अन्य पुनर्प्राप्ति मॉडल को केवल एक अन्य सुविधा के रूप में शामिल किया जा सकता है।

दूसरा आयाम: मॉडल के गुण

संपादित करें
  • शब्द-अंतर्निर्भरता के बिना मॉडल विभिन्न शब्दों को स्वतंत्र मानते हैं। इस तथ्य को आमतौर पर वैक्टर मॉडल में शब्द वैक्टरों की ओर्थोगोनालिटी धारणा या शब्द चर के लिए एक स्वतंत्र धारणा द्वारा संभाव्य मॉडल में दर्शाया जाता है।
  • आसन्न अवधि के अन्योन्याश्रितताओं वाले मॉडल शर्तों के बीच अन्योन्याश्रितताओं का प्रतिनिधित्व करते हैं। हालांकि दो शर्तों के बीच अन्योन्याश्रय की डिग्री मॉडल द्वारा ही परिभाषित की जाती है। यह आमतौर पर दस्तावेजों के पूरे सेट में उन शर्तों की सह-घटना से प्रत्यक्ष या अप्रत्यक्ष रूप से व्युत्पन्न होता है।
  • ट्रान्सेंडेंट शब्द अन्योन्याश्रयता वाले मॉडल शर्तों के बीच अन्योन्याश्रितताओं का प्रतिनिधित्व करते हैं, लेकिन वे यह आरोप नहीं लगाते हैं कि दो शर्तों के बीच अन्योन्याश्रयता कैसे परिभाषित की जाती है। वे दो शर्तों के बीच अन्योन्याश्रय की डिग्री के लिए एक बाहरी स्रोत पर भरोसा करते हैं। (उदाहरण के लिए, एक मानव या परिष्कृत एल्गोरिदम।)

प्रदर्शन और शुद्धता माप

संपादित करें

सूचना पुनर्प्राप्ति प्रणाली का मूल्यांकन यह आकलन करने की प्रक्रिया है कि कोई प्रणाली अपने उपयोगकर्ताओं की सूचना की जरूरतों को कितनी अच्छी तरह से पूरा करती है। सामान्य तौर पर, माप खोजे जाने वाले दस्तावेज़ों का एक संग्रह और एक खोज क्वेरी मानता है। पारंपरिक मूल्यांकन मेट्रिक्स, जिसे बूलियन रिट्रीवल या टॉप-K रिट्रीवल के लिए डिज़ाइन किया गया है, इसमें सटीकता और रिकॉल शामिल हैं। सभी उपाय प्रासंगिकता की जमीनी सत्य धारणा मानते हैं: प्रत्येक दस्तावेज़ को किसी विशेष प्रश्न के लिए प्रासंगिक या गैर-प्रासंगिक माना जाता है। व्यवहार में, प्रश्न बीमार हो सकते हैं और प्रासंगिकता के विभिन्न शेड हो सकते हैं।

प्रमुख सम्मेलन

संपादित करें

क्षेत्र में पुरस्कार

संपादित करें

यह भी देखें

संपादित करें
  1. जानसेन, बी. जे., और रीह, एस. (2010). "सूचना खोज और सूचना पुनर्प्राप्ति के सत्रह सैद्धांतिक निर्माण" (PDF). {{cite web}}: Cite has empty unknown parameter: |dead-url= (help)CS1 maint: multiple names: authors list (link)
  2. गुडरम, एबी ए. (2000). "छवि सूचना पुनर्प्राप्ति: वर्तमान अनुसंधान का अवलोकन" सूचना विज्ञान.
  3. फूटे, जोनाथन (1999). "ऑडियो सूचना पुनर्प्राप्ति का अवलोकन " मल्टीमीडिया सिस्टम". {{cite web}}: Cite has empty unknown parameter: |dead-url= (help)
  4. बील, जोरान; गिप्प, बेला; स्टिलर, जान-ओलाफ (2009). "माइंड मैप्स पर सूचना पुनर्प्राप्ति - यह किसके लिए अच्छा हो सकता है?". सहयोगात्मक कम्प्यूटिंग पर 5 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही: नेटवर्किंग, एप्लिकेशन और कार्य साझाकरण. मूल से पुरालेखन की तिथि: 13 मई 2011. अभिगमन तिथि: 23 अगस्त 2020.{{cite journal}}: CS1 maint: bot: original URL status unknown (link) CS1 maint: multiple names: authors list (link)
  5. फ़्रेक्स, विलियम बी. बैजा-येट्स, रिकार्डो (1992). "सूचना पुनर्प्राप्ति डेटा संरचना और एल्गोरिदम". अप्रेंटिस-हॉल. मूल से पुरालेखन की तिथि: 28 सितंबर 2013. अभिगमन तिथि: 23 अगस्त 2020.{{cite journal}}: CS1 maint: bot: original URL status unknown (link) CS1 maint: multiple names: authors list (link)
  6. सिंघल, अमित (2001). ""आधुनिक सूचना पुनर्प्राप्ति: एक संक्षिप्त अवलोकन"" (PDF). डेटा इंजीनियरिंग पर IEEE कंप्यूटर सोसायटी तकनीकी समिति के बुलेटिन।.
  7. जेई होल्मस्ट्रोम (1948). ""'धारा III. उद्घाटन सत्र"". रॉयल सोसाइटी वैज्ञानिक सूचना सम्मेलन, 21 जून -2 जुलाई 1948.

अग्रिम जानकारी

संपादित करें