தமிழ் கையெழுத்து கொடைத் திட்டம்
கையெழுத்து உணரி உருவாக்க உதவுங்கள்.
வணக்கம்.
தமிழில் எழுத்துணரி (படங்களை எழுத்துகளாக மாற்றுதல்) ஒரு நீண்ட கால கனவு. Tesseract என்ற இலவச, கட்டற்ற மென்பொருள் (Free/Open Source Software) இதை சாத்தியமாக்கியுள்ளது. இதன் சமீபத்திய பதிப்பான Tesseract Version 4 தமிழுக்கு சிறந்த முறையில் எழுத்துணரி பணியைச் செய்கிறது.
இந்த ஆய்வுகளின் அடுத்த கட்டமாக கையெழுத்தை உணர்ந்து யுனிகோடு எழுத்தாக மாற்றும் பெரும் கனவு உள்ளது. இது சாத்தியப்பட்டு விட்டால், நாம் தாளில் எழுதி, அதைப் படம் எடுத்தாலே போதும். கையால் எழுதியவை அனைத்தும் கணினியில் எழுத்துகளாகி விடும். இது இன்னும் கனவுதான். அதை நனவாக்க பல பேரின் பேருழைப்பு தேவைப்படுகிறது.
1. முதலில் பல்லாயிரம் கையால் எழுதப்பட்ட தாள்களின் படங்களை சேகரிக்க வேண்டும். (DataSet Collection)
2. அவற்றை யுனிகோடு எழுத்துருவில் தட்டச்சு செய்ய வேண்டும்
3. Tesseract அல்லது பிற மென்பொருட்களுக்கு இவற்றை பயிற்சி அளிக்க வேண்டும்.
இப்போதுதான் இவற்றில் தமிழுக்கு முதல் படியே தொடங்குகிறோம்.
தமிழில் கையால் எழுதப்பட்ட பல்லாயிரம் தாள்களின் படங்களை தொகுக்க வேண்டும். அதற்கு CrowdSourcing முறையில் அனைவரிடமும் படங்களைத் திரட்ட உள்ளோம்.
இதற்கு பங்களிக்க உங்களை அழைக்கிறோம்.
எப்படி பங்களிப்பது?
1. நீங்கள் ஏதேனும் ஒரு பக்கத்தை கையால் எழுதுங்கள். கோடு இல்லாத A4 தாளாக இருத்தல் முக்கியம். நீலம் அல்லது கருப்பு நிறத்தில் எழுதுங்கள். பல பக்கங்கள் இருந்தாலும் நன்று.
2. உங்கள் கைபேசியில் Adobe scan என்ற மென்பொருள் மூலம் தாள்களைப் படம் எடுங்கள். அவை PDF ஆக மாற்றப்படும்.
3. பின்வரும் படிவத்தில் உங்கள் கோப்புகளைப் பதிவேற்றுங்கள்.
forms.gle/K4Wc2cipCu9fnyyL8
அல்லது பின்வரும் முகவரிக்கு மின்னஞ்சல் அனுப்புங்கள்.
எதை எழுதுவது?
எதை வேண்டுமானாலும் எழுதலாம். நீங்கள் மாணவர் எனில் உங்கள் பாடங்களை எழுதலாம். அல்லது தமிழ் விக்கிப்பீடியாவில் உள்ள கட்டுரைகளைப் பார்த்து எழுதலாம். நீங்கள் எழுதிய கதை, கவிதை, கட்டுரையாக இருக்கலாம். இங்கு உள்ளடக்கம் முக்கியம் இல்லை. எழுத்துகள் மட்டுமே முக்கியம். ஒருவரே எத்தனை பக்கங்களை வேண்டுமானாலும் அனுப்பலாம். கையெழுத்து மிக அழகாக இருக்க வேண்டிய அவசியம் இல்லை. இயல்பாகவும், அவசரத்தில் கிறுக்கியும் கூட இருக்கலாம். கூடுமான வரை தமிழ் மட்டும் இருப்பது நல்லது.
உரிமை?
Public Domain – பொதுக்கள உரிமையில் உங்கள் எழுத்துகளை வெளியிட வேண்டுகிறோம். இதன்படி, எழுத்துகளின் உரிமை உலக மக்கள் அனைவருக்கும் பொதுவானது. யாரும் இந்த எழுத்துகளைக் கொண்டு ஆய்வுகள் மேற்கொள்ளலாம். வணிக ரீதியான பயன்பாடுகளையும் உருவாக்கலாம்.
எப்போது கையெழுத்து உணரி கிடைக்கும்?
இப்போதுதான் முதல் அடி எடுத்து வைக்கிறோம். பல்லாயிரம் தாள்கள் கிடைத்தபின்பே அவற்றுக்கான ஆய்வுகளின் ஈடுபட்டு, மென்பொருளாக மாற்ற இயலும். சில பல ஆண்டுகள் ஆகலாம். . இந்த தாள்களைக் கொண்டு கூகுள் போன்ற நிறுவனங்கள் கூட எழுத்துணரி உருவாக்கலாம். காத்திருப்போம்
சேகரிக்கப் பட்ட கோப்புகளை எப்படிப் பெறலாம்?
மேற்சொன்ன கூகுள் படிவத்தில் பதிவேற்றம் செய்யப்பட்ட கோப்புகள் அனைத்தையும் பின்வரும் இணைப்பில் அனைவரும் பதிவிறக்கம் செய்யலாம்.
திட்ட ஒருங்கிணைப்பு
கணியம் அறக்கட்டளை, சென்னை
-http://kaniyam.com/foundation
kaniyamfoundation@gmail.com
தொடர்புக்கு
கலீல் ஜாகீர் +918148308508
கார்க்கி +919952534083
குறிப்பு – இலங்கையில் உள்ள நூலக நிறுவனம், ஆவணகம் என்ற தளத்தில் பல்வேறு வகை ஆவண சேகரங்களுடன், கையெழுத்து ஆவணங்களையும் சேகரித்து வருகிறது.
காண்க – aavanaham.org/islandora/object/noolaham%3Amanuscript_collection