टेसरैक्ट (Tesseract) एक मुफ्त ओसीआर सॉफ्टवेयर है जो विभिन्न आपरेटिंग प्रणालियों तथा हिन्दी सहित पचासों लिपियों के लिए काम करता है। यह अपाचे लाइसेंस 2.0 के अन्तर्गत जारी किया गया है। यह सर्वाधिक शुद्ध मुफ्त ओसीआर माना जाता है। इसका अधिकांश कोड सी / सी++ में बनाया गया है।

टेसरैक्ट
Tesseract

Tesseract 3.02 running on Gnome Terminal 3.8.0. "input_image.tif" is the input document which will be rendered as "output_text.txt" by Tesseract.
रचनाकार Ray Smith, Hewlett-Packard[1]
डेवलपर Google
आखिरी संस्करण

4.1.0

/ मार्च 14, 2019; 5 वर्ष पूर्व (2019-03-14)[1]
प्रोग्रामिंग भाषा C and C++
ऑपरेटिंग सिस्टम Linux (32 & 64-bit), Windows (32-bit), and, unofficially, Mac OS X (x86)
भाषा

Interface: अंग्रेज़ी भाषा
Recognition:

Arabic, Bengali, Bulgarian, Catalan, Czech, Danish, Dutch, अंग्रेजी, Finnish, फ्रेंच, German, Greek, हिन्दी, Hungarian, Indonesian, Italian, Latvian, Lithuanian, Norwegian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swedish, Tagalog, तमिल, Thai, Turkish, Ukrainian & Vietnamese (more can be added using included training files)
स्थिति Active
प्रकार Optical character recognition
लाइसेंस Apache License v2.0
वेबसाइट github.com/tesseract-ocr

टेसरैक्ट के 3.01 संस्करण में हिन्दी के अक्षरों को पहचानने की सुविधा प्रदान की गई। १८ अक्टूबर २०१२ को इसका 3.02 संस्करण निकाला गया था।

इतिहास संपादित करें

  • टेसरैक्ट का हिउलेट-पैकार्ड द्वारा १९८५ से १९९५ तक निजी सॉफ्टवेयर की तरह विकास हुआ।
  • अगले एक दशक में इस पर बहुत कम काम हुआ।
  • २००५ में मुक्तस्रोत सॉफ्टवेयर के रूप में विमोचित।
  • सन् २००६ से इसका विकास गूगल द्वारा प्रायोजित है।

टेसरैक्ट के लिए उपयुक्त ग्राफिकल यूजर इन्टरफेस संपादित करें

 
लिनक्स कॉनसोल में तेसरैक्त

टेसरिक्ट का अभी तक अपना जीयूआई नहीं है और मूल रूप में यह कमाण्ड-लाइन इण्टरफेस से चलाया जाता है। किन्तु इसके लिए अनेकों बाहरी (दूसरी पार्टियों के) जीयूआई उपलब्ध हैं जो टेसरैक्ट के लिए जीयूआई का काम करते हैं।

tesseract.exe imagename outputbase [-l lang] [configfile [[+|-]varfile]...]

लिनक्स के लिए संपादित करें

  • YAGF
  • OCRFeeder
  • gImageReader

विण्डोज के लिए संपादित करें

  • gImageReader

अन्य संपादित करें

  • Office Manager Pro
  • FreeOCR
  • TesseractOCR Mac
  • YAGF
  • PDFScanner
  • k2pdfopt
  • Capture2Text
  • (a9t9) Free OCR

सन्दर्भ संपादित करें

  1. Google (2008). "tesseract-ocr". मूल से 18 फ़रवरी 2017 को पुरालेखित. अभिगमन तिथि 2016-03-08.

बाहरी कड़ियाँ संपादित करें

  • Hacking Tesseract V0.04 – C/C++ structure of Tesseract extracted from Doxyfied source code (based on Tesseract V1.03)