• Tesseract OCR for Tamil text in PDF
    Coding,  தமிழ்

    Making a PDF ebook with Tamil text searchable and to get a clean scan copy

    சில நாட்களுக்கு முன் நண்பர் மணி மணிவண்ணன் அவரது பேஸ்புக் பக்கத்தில், தமிழ்நாட்டுப் பாடநூல் நிறுவனம், சென்னை, 1985இல் வெளியிட்ட”தமிழ்‌- தமிழ்‌ அகரமுதலி” என்ற நூல் இலவசமாக மின் புத்தக வடிவில் கிடைக்கிறது எனவும், அதன் இணைப்பையும் கொடுத்திருந்தார். பயனுள்ள நூல் இது. உடனே பதிவிறக்கம் செய்தேன். தமிழ் இணையக் கல்விக்கழகம் இந்த நூலை நல்ல முறையில் வருடி, நகல் எடுத்திருக்கிறார்கள். ஒரே ஒரு குறை, மின் நூலில், தமிழில் தேட முடியவில்லை – அது ஏனென்றால், எளிதாகக் கிடைக்கும் ஒளி எழுத்துணரி செயலிகளில், தமிழ் இப்போது தான் வந்திருக்கிறது. அதனால் இறக்கம் செய்த மின் நூலை தேசாரக்ட் என்னும் இலவச செயலியைக் கொண்டு ஒளி எழுத்துணரிச் செய்து புதிய பதிவாகக் கொடுத்துள்ளேன். அதை எப்படிச் செய்தேன் என்பதைக் கீழே சொல்லியுள்ளேன். Recently my friend Mr Mani Manivannan had shared a link to download for free, a Tamil-Tamil-Dictionary published in 1985 by Tamil Nadu Text Book…

  • Microsoft Word - Tamil Translation
    Apps,  Microsoft

    A quick Tamil Dictionary in Microsoft Word 2019

    I just realised that I can use Microsoft Word’s translate feature as a quick Tamil to English Dictionary for getting meanings. It works surprisingly well and even for a sentence (obviously as it is a translation feature and not a word dictionary). I am using the latest version of #MSWORD that ships with Microsoft Office 365 subscription, but I suppose it will work many earlier versions too as the feature has been around for quite some time now.

  • Tamil Internet Conference 2019

    Tamil Internet Conference 2019

    From the time of the first conference in 1999, there have been last 18 Tamil Internet conferences,  and, we have seen tremendous progress on the science and engineering behind Indian Language computing that’s happening. In this post, I am sharing the notes I have taken during the TIC 2019 that’s underway at Anna University. [Disclaimer: These notes are NOT meant to be comprehensive, they are just my notes of (only) the sessions I attended, please treat them as such] In the keynote, Hon’ble Minister Mr “Mafoi” Pandiarajan spoke in length about his department’s work on developing one of the large corpora of Tamil words with meaning – செந்தமிழ்ச் சொற்பிறப்பியல் அகரமுதலித்…

  • செயல் விளக்கம்
    Events,  Rostrum,  Speeches

    Tools & Applications available for Tamil

    I was invited to present a guest talk for the annual Tamil Internet Conference 2019, that is underway at Anna University, organized by INFITT along with Tamil Virtual Academy and others. I presented a talk with demos titled aptly as “செயல் விளக்கம்” – Demonstration of tools for Tamil for writing and coding. I demonstrated the following: Google Voice Typing in Tamil on your PC – கூகுளின் குரல்வழித் தமிழில் உள்ளிடல் வசதி. How to use Tesseract, the open-source OCR engine to convert scanned pages in Tamil to PDF with Embedded Text (in Tamil) feature enabled, so that search in Tamil and copy and paste of text works. I will write a post…

  • Python - Tamil OCR and Translate

    Python and Google Cloud Vision for Tamil text

    Update: If you are looking for a simpler way to do Tamil Text OCR, then check this post which shows how you can do with batch files. Learning anything new is NOT easy. And doing it yourself is tough after for years you had a team who can do it faster and better than you. I am talking about me (learning &) writing code in Python programming language. A few weeks ago, I wrote (mostly copy ‘n’ paste) a couple of snippets in Python to do Speech To Text, and, Text to Voice, for the Tamil language – the blog post is here. I followed that with a small program…