An automated online assistant providing customer service on a web page, an example of an application where natural language processing is a major component.[1]


'प्राकृतिक भाषा प्रसंस्करण' ( 'एनएलपी' ) भाषाविज्ञान, कंप्यूटर विज्ञान, सूचना इंजीनियरिंग (क्षेत्र) | सूचना इंजीनियरिंग, और [का एक उपक्षेत्र है। कृत्रिम बुद्धिमत्ता कंप्यूटर और मानव (प्राकृतिक) भाषाओं के बीच परस्पर क्रिया से संबंधित है, विशेष रूप से बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित और विश्लेषण करने के लिए कंप्यूटर को कैसे प्रोग्राम करना है।


प्राकृतिक भाषा प्रसंस्करण में चुनौतियां अक्सर भाषण मान्यता, प्राकृतिक भाषा समझ, और प्राकृतिक भाषा पीढ़ी को शामिल करती हैं।

इतिहास संपादित करें

प्राकृतिक भाषा प्रसंस्करण की जड़ें 1950 के दशक में हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने "कम्प्यूटिंग मशीनरी एंड इंटेलिजेंस" शीर्षक से एक लेख प्रकाशित किया था, जिसमें प्रस्तावित किया गया था कि अब ट्यूरिंग टेस्ट को बुद्धि की कसौटी के रूप में कहा जाता है, एक ऐसा कार्य जिसमें प्राकृतिक भाषा की स्वचालित व्याख्या और पीढ़ी शामिल है, लेकिन उस समय इसकी अभिव्यक्ति की गई थी कृत्रिम बुद्धिमत्ता से अलग एक समस्या के रूप में।

विधियाँ: नियम, आँकड़े, तंत्रिका नेटवर्क संपादित करें

शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों द्वारा डिजाइन किया गया था, अर्थात, नियमों के एक समूह का हाथ-कोडिंग, एक शब्दकोश देखने के साथ युग्मित: .[2][3] जैसे कि व्याकरण लिखना या विधर्मी नियमों को तैयार करना। उत्पन्न।

मशीन-लर्निंग एल्गोरिदम पर आधारित हाल की प्रणालियों में हाथ से निर्मित नियमों पर कई फायदे हैं:

मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रियाएं स्वचालित रूप से सबसे आम मामलों पर ध्यान केंद्रित करती हैं, जबकि हाथों से नियम लिखते समय यह अक्सर स्पष्ट नहीं होता है जहां प्रयास को निर्देशित किया जाना चाहिए। स्वत: सीखने की प्रक्रिया उन अपरिचित इनपुट (जैसे शब्द या संरचनाएं जिन्हें पहले नहीं देखा गया है) और त्रुटिपूर्ण इनपुट (जैसे गलत शब्दों या शब्दों के साथ गलती से छोड़ दिया गया) के लिए मजबूत मॉडल के निर्माण के लिए सांख्यिकीय अनुमान का उपयोग कर सकते हैं। आम तौर पर, हस्तलिखित नियमों के साथ इस तरह के इनपुट को सावधानीपूर्वक संभालना, या, आमतौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, अत्यंत कठिन, त्रुटि-प्रवण और समय लेने वाली है। स्वचालित रूप से नियमों को सीखने के आधार पर सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को केवल नियमों की जटिलता को बढ़ाकर अधिक सटीक बनाया जा सकता है, जो कि अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर प्रणालियों की जटिलता की एक सीमा है, जिसके आगे सिस्टम अधिक से अधिक असहनीय हो जाते हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट के लिए अधिक डेटा बनाने के लिए बस काम करने वाले घंटों की संख्या में इसी वृद्धि की आवश्यकता होती है, आमतौर पर एनोटेशन प्रक्रिया की जटिलता में उल्लेखनीय वृद्धि के बिना। एनएलपी अनुसंधान में मशीन सीखने की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं

जब प्रशिक्षण डेटा की मात्रा सफलतापूर्वक मशीन सीखने के तरीकों को लागू करने के लिए अपर्याप्त है, जैसे कि कम संसाधन भाषाओं के मशीन अनुवाद के लिए जैसे कि एपरटियम सिस्टम द्वारा प्रदान किया गया है, एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदा।, टोकेनाइजेशन, या सिंटैक्टिक पर्स से ज्ञान निष्कर्षण के लिए एनएलपी पाइपलाइनों के उत्पादन को पोस्टप्रोसेसिंग और रूपांतरित करने के लिए।

आम एनएलपी टास्क संपादित करें

निम्नलिखित प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोध कार्यों में से कुछ की एक सूची है। इनमें से कुछ कार्यों में प्रत्यक्ष-विश्व अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्य के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।

यद्यपि प्राकृतिक भाषा प्रसंस्करण कार्य बारीकी से परस्पर जुड़े हुए हैं, फिर भी उन्हें सुविधा के लिए श्रेणियों में विभाजित किया जा सकता है। एक मोटे विभाजन नीचे दिया गया है।

पाठ और भाषण प्रसंस्करण संपादित करें

ऑप्टिकल कैरेक्टर रिकग्निशन (OCR)

मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ को निर्धारित करें।

वाक् पहचान

किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण के पाठ का प्रतिनिधित्व निर्धारित करें। यह भाषण के पाठ के विपरीत है और "एआई-पूर्ण" बोलचाल की भाषा में अत्यंत कठिन समस्याओं में से एक है। प्राकृतिक भाषण में, शायद ही कभी शब्दों के बीच कोई ठहराव होता है, और इस प्रकार भाषण विभाजन भाषण मान्यता का एक आवश्यक उपवाक्य है। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे को सहवर्ती क्रिया में मिश्रित करती हैं, इसलिए वर्णों को असतत करने के लिए एनालॉग सिग्नल का रूपांतरण एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा के शब्द अलग-अलग लहजे वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ़्टवेयर को अपने पाठ्य समान के संदर्भ में एक-दूसरे के समान व्यापक इनपुट पहचानने में सक्षम होना चाहिए।

भाषण विभाजन

किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, उसे शब्दों में अलग करें। भाषण मान्यता का एक उपमा और आम तौर पर इसके साथ समूहीकृत।

लिखे हुए को बोलने में बदलना

एक पाठ को देखते हुए, उन इकाइयों को रूपांतरित करें और एक बोले गए प्रतिनिधित्व का उत्पादन करें। नेत्रहीनों की सहायता के लिए पाठ से भाषण का उपयोग किया जा सकता है| [4]



संदर्भ संपादित करें

  1. Kongthon, Alisa; Sangkeettrakarn, Chatchawal; Kongyoung, Sarawoot; Haruechaiyasak, Choochart (October 27–30, 2009). "Implementing an online help desk system based on conversational agent". MEDES '09: The International Conference on Management of Emergent Digital EcoSystems. France: ACM. doi:10.1145/1643823.1643908. 
  2. Winograd, Terry (1971). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language (Thesis). http://hci.stanford.edu/winograd/shrdlu/. 
  3. Schank, Roger C.; Abelson, Robert P. (1977). Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures. Hillsdale: Erlbaum. आई॰ऍस॰बी॰ऍन॰ 0-470-99033-3.
  4. Yi, Chucai; Tian, Yingli (2012), "Assistive Text Reading from Complex Background for Blind Persons", Camera-Based Document Analysis and Recognition (अंग्रेज़ी में), Springer Berlin Heidelberg, पपृ॰ 15–28, CiteSeerX 10.1.1.668.869, आई॰ऍस॰बी॰ऍन॰ 9783642293634, डीओआइ:10.1007/978-3-642-29364-1_2