अवरुद्ध शब्द (स्टॉप वर्ड्स), अवरोध सूची में रखे गये वे शब्द हैं, जिन्हें प्राकृतिक भाषा के टेक्स्ट के प्रसंस्करण से पहले या बाद में फ़िल्टर किया जाता है (अर्थात् रोक दिया जाता है)। [1] ऐसी बात नहीं है कि सभी प्राकृतिक भाषा प्रसंस्करण उपकरणों द्वारा उपयोग किए जाने वाले अवरुद्ध शब्दों की कोई एकमात्र सूची है, न ही अवरुद्ध शब्दों की पहचान के लिए कोई नियम है जिस पर सब सहमत हों। कहीं कहीं 200 से 300 शब्दों की काफी बड़ी अवरुद्ध शब्दसूचियाँ प्रयुक्त होतीं हैं तो कहीं 7 से 12 शब्दों बहुत छोटी स्टॉप सूचियों का उपयोग किया जाता है।[2]

हिन्दी के अवरुद्ध शब्द मुख्यतः निम्नलिखित हैं:

के , का , एक , में , की , है , यह , और , से , हैं , को , पर , इस , होता , कि , जो , कर , में , गया , करने , किया , लिये , अपने , ने , बनी , नहीं , तो , ही , या , एवं , दिया , हो , इसका , था , द्वारा , हुआ , तक , साथ , करना , वाले , बाद , लिए , आप , कुछ , सकते , किसी , ये , इसके , सबसे , इसमें , थे , दो , होने , वह , वे , करते , बहुत , कहा , वर्ग , कई , करें , होती , अपनी , उनके , थी , यदि , हुई , जा , ना , इसे , कहते , जब , होते , कोई , हुए , व , न , अभी , जैसे , सभी , करता , उनकी , तरह , उस , आदि , कुल , एस , रहा , इसकी , सकता , रहे , उनका , इसी , रखें , अपना , पे , उसके ।

संदर्भ संपादित करें

  1. Rajaraman, A.; Ullman, J. D. (2011). "Data Mining" (PDF). Mining of Massive Datasets. पपृ॰ 1–17. आई॰ऍस॰बी॰ऍन॰ 9781139058452. डीओआइ:10.1017/CBO9781139058452.002.
  2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. पृ॰ 27.सीएस1 रखरखाव: एक से अधिक नाम: authors list (link)

बाहरी कड़ियाँ संपादित करें