29/08/2025 அன்று, உலகத் தமிழாராய்ச்சி நிறுவனம் நடத்திய அறிஞர் அவையம் நிகழ்வு 4 ல் வழங்கிய உரை.
த.சீனிவாசன் tshrinivasan@gmail.com
சொற்பிழைத்திருத்தி
நாம் அன்றாடம் பார்க்கும் பத்திரிக்கைகள், சுவரொட்டிகள், சமூக வலைத்தளங்களில் பல வகையான எழுத்துப் பிழைகளைக் காணலாம். சில பத்தாண்டுகளுக்கு முன்பெல்லாம், தவறான சொற்களைக் காணும் போதே, அவற்றின் சரியான சொற்களை தந்து திருத்தும் பலர் இருந்தனர். காலப்போக்கில், அவ்வகையான உரையாடல்கள் குறைந்து விட்டன.
கற்ப்பிக்கிறேன், விற்க்கிறேன், முன்ணணி, அதனால்த் தான், மேற்க்கோள்கள், முயற்ச்சி, தொலைகாட்சி, நிகழ்சிகள்
மேலே உள்ள சொற்களில் உள்ள தவறு என்ன? அவற்றை சரியாக எழுதுவது குறித்து யாராவது திருத்துவதை கடைசியாக நீங்கள் எங்கே பார்த்தீர்கள்?
ஏன் தமிழில் எழுதும் போது, தவறுகளை ஏற்றுக் கொள்கிறோம்?
- தமிழ் எழுதுவதில் உள்ள தவறுகள், எழுதும் போது தெரிவதில்லை
- இலக்கண விதிகளை கற்று பிறகு எழுதுவது கடினமாக உள்ளது.
- எல்லோரும் இப்படித்தான் எழுதுகிறார்கள்.
- தவறாகத்தான் இருந்து விட்டுப் போகட்டுமே. புரிகிறது அல்லவா? மொழியின் தேவை புரிய வைப்பதுதானே.
இன்னும் கூட சில காரணங்கள் இருக்கலாம்.
ஆனால், இதே காரணங்களை நாம் ஆங்கிலத்துக்கோ, பிற மொழிகளுக்கோ கூறுவதில்லை.
God Murnink. என்று எங்காவது பார்த்துள்ளோமா?
Thangs, Bhone, Mopile ? எங்கும் காண முடியாதே. இத்தனைக்கும் ஆங்கிலம் நமக்கு அன்னிய மொழி. ஏன் நமது தாய்மொழிக்கு மட்டும் ஓர வஞ்சனை?
கூர்ந்து ஆராய்ந்தால், கணினி, செல்பேசிகள் மூலம் ஆங்கிலம் வரும் போதே, அதனுடன் தேவையான எழுத்துப் பிழைத் திருத்தியும் இலவசமாக கிடைப்பதை உணரலாம்.
தமிழுக்கு இன்னும் நமது தமிழ் அறிவும் அனுபவமும் மட்டுமே துணை.
எனக்கு Entrepreneurship என்ற பெரிய சொல் இன்றும் சரியாகத் தெரியாது. இது போல பல சொற்கள். ஆனால், அவை ஓரளவு தெரிந்தால் போதும். கணினியில் உள்ள சொற்பிழைத்திருத்தி, அதற்கான சரியான சொல்லை தந்து விடுகிறது. இப்படி ஒரு கருவி இருப்பதால் தான் பல்லாயிரம் தமிழர்கள் கணினித் துறையில் வளர்ச்சி பெற்று வாழ்கின்றோம்.
நாளையே திடீரென, ‘எந்தக் கருவியிலும் ஆங்கில எழுத்துப் பிழைத்திருத்தி வேலை செய்யாது’ என்ற நிலை வந்தால், நாம் கற்கால வாழ்வுக்கு தயாராகி விட வேண்டியதுதான். LLM கருவிகள் போல, மாதம் 10 டாலர் விலை வைத்தால் போதும். சொற்பிழைத் திருத்தி விற்றே, பல எலான் மஸக் உருவாகி விடலாம்.
ஈராயிரக் குழவிகளுக்கு பல்லாயிரம் ஆண்டு காலத் தமிழைத் தரும்போது, தேவையான கருவிகளைத் தராதது யார் பிழை?
கருவிகள் இல்லையா? நிறைய இருக்கின்றனவே? மென்தமிழ், தமிழா சொற்பிழைத்திருத்திருத்தி, வாணி, தமிழிணைய வாணி என பல கருவிகள் உள்ளனவே? அவை போதாதா?
போத வில்லையே. இத்தனை இருந்தும் ஏன் இவ்வளவு பிழைகள் காண்கிறோம்?
தமிழர்கள் கணினியைக் கண்ட நாள் முதல், தமிழுக்கென பல்வேறு மென்பொருட்கள் உருவாக்கி வருகிறோம். ஆயினும், அவை ஒரு சில தனி நபர்கள், சிறு குழுக்கள், சிறு நிறுவனங்கள், மூலமே உருவாகின்றன.
தமிழுக்கென மென்பொருள் உருவாக்குவது என்று முடிவு செய்த பின், சந்தை, வணிகம், இலாபம் என பல்வேறு கூறுகள் சேர்ந்து கொண்டு, நிலைமையை மேலும் சிக்கலாக்கி விடுகின்றன. திறமூலமாக வெளியிடுவதா அல்லது தனியுரிம மென்பொருளாக வெளியிடுவதா என்ற கேள்வியில் நிறுவனங்கள் தனியுரிம வகையை தெரிவு செய்கின்றன. பல்கலைக் கழக ஆய்வுகளும் நிறுவனமயமாகி விடுகின்றன.
ஆங்கிலத்தில் பொதுவாக, மொழி சார்ந்த ஆய்வுகள், மென்பொருட்கள் பல்வேறு பல்கலைக் கழகங்களால், திற மூல மென்பொருட்களாக முதலில் வெளியிடப் படுகின்றன. பின் நிறுவனங்கள் அவற்றை வளர்த்தெடுக்கின்றன. பெரும்பாலான மென்பொருட்கள் திறமூலமாகவே உள்ளன.
நம் ஊரில் அன்னதானம் கிடைக்கும். அம்மா உணவகம் இருக்கும். சாலையோரக் கடையும் இருக்கும். சரவண பவனும் இருக்கும்.
இலவசம் என்பதால் அன்னதானம் தரம் குறைந்து விடுவதில்லை. விலை அதிக உணவகங்களிலும் தரம் எப்போதுமே இருக்கும் என்பதும் இல்லை. அவரவர் தேவை. அவரவர் வசதி. அவரவர் தெரிவு.
அதே போலத்தான் மென்பொருட்களுக்கும் இருக்க வேண்டும்.
முன்னோடிகள்
தமிழில் திற மூலமாகவும், தனியுரிம மென்பொருட்களாகவும் வெளிவந்த சில சொற்பிழைத்திருத்திகள் பற்றி காண்போம்.
தனியுரிமம் :
- மென்தமிழ் – பேரா. தெய்வசுந்தரம்
- வாணி – திரு. நீச்சல்காரன்
- சர்மா சொல்யூசன்ஸ், புதுக் கோட்டை
திற மூலம் :
- தமிழா பிழைத்திருத்தி – தமிழா குழுவினர்
- Tamilpesu.us – முத்து அண்ணாமலை மற்றும் குழுவினர்
- தமிழிணைய வாணி – திரு. நீச்சல்காரன்
இது ஒரு சிறு பட்டியல் மட்டுமே. இங்கு எழுதாமல் விட்டவை ஏராளம்.
இவற்றில் நாம் காணும் சிக்கல்கள்
தனியுரிமம் :
- இலவசம் கிடையாது.
- பெரும்பாலும் விண்டோசுக்கு மட்டும்
- API கிடையாது
- Offline ல் வேலை செய்யாது ( பெரும்பாலும். விதி விலக்குகள் உண்டு)
- செல்பேசி செயலி கிடையாது
- பெரும்பாலும் பிற மென்பொருட்களுடன் இணைத்து பயன் படுத்த முடியாது.
- மூல நிரல் இல்லாததால், பலர் இணைந்து வளர்த்தெடுக்க முடியாது. உருவாக்கியவரின் ஆர்வம், வசதி குன்றும் போது, மென்பொருளும் மறைகிறது.
திற மூலம் :
- Aspell அடிப்படையாகக் கொண்ட தமிழா பிழைத்திருத்தி, இரண்டு சொற்களை இணைத்து வரும் வார்த்தைகள் வரை மட்டுமே சரிபார்க்கும். தமிழில் நாம் பல சொற்களை இணைத்து புது சொற்களை உருவாக்க இயலும்.
- சொல் வங்கி மிகவும் குறைவு
- Tamilpesu.us, தமிழிணைய வாணி ஆய்வு நிலையிலேயே உள்ளன.
- செல் பேசி செயலி கிடையாது
சரியாக எழுத நமக்கு என்ன தான் வேண்டும்?
பாலும் தெளிதேனும் தந்தால், சங்கத் தமிழ் கிடைக்கலாம். யாருக்காவது கிடைத்திருந்தால் சொல்லுங்கள். பிழைத்திருத்தி நாம் தான் உருவாக்க வேண்டும்.
நமது பல்கலைக் கழகங்கள் தேவையான அடிப்படைகளை உருவாக்கி திறமூலமாக அளித்திருந்தால், நாமும் பல வகையில் வளர்த்திருக்கலாம். பரவாயில்லை. ஆர்வமுள்ள பலர் இணைந்தால் போதும். பல்லாயிரம் திறமூல மென்பொருட்கள் கொண்ட, லினக்ஸ் போன்ற இயங்குதளங்களே உருவாகும் போது, பிழைத்திருத்தி உருவாக்க முடியும் தானே.
என்ன வசதிகள் இருக்க வேண்டும்?
- நன்கு பிழைத் திருத்த வேண்டும்
- புதிய வார்த்தைகளை தொடர்ந்து சேர்க்க வேண்டும்
- இலவசமாக, திறமூலமாக உலக மக்கள் அனைவருக்கும் கிடைக்க வேண்டும்
- பிழையான சொற்களைக் காட்ட வேண்டும்.
- சரியான திருத்தங்களை பரிந்துரைக்க வேண்டும்
- API வசதி வேண்டும்
- இணையம் இல்லாமல் இயங்க வேண்டும்
- செல்பேசிகளில் இயங்க வேண்டும்
- பிற மென்பொருட்களிலும் இயங்க வேண்டும்
- தொடர்ந்த மேம்பாடு இருக்க வேண்டும்.
“ஒருமையுடன் நினது திரு மலரடி நினைக்கின்ற உத்தமர் தம் உறவு வேண்டும்” என்று வள்ளலார் கேட்டது போல, இந்த வேண்டும் பட்டியல் எப்போதும் பெரிதாககிக் கொண்டே இருக்கும் ஒன்று.
நாம் என்ன செய்யலாம் என்று பார்ப்போம்.
ஒரு பிழைத்திருத்தி உருவாக்க தேவையான பொருட்கள் :
- பெயர்ச்சொல், வினைச்சொல் தொகுதிகள்
- அதிக அளவிலான சொல்வங்கி
- தமிழ் இலக்கண விதிகள்
- நல்ல எளிய நிரலாக்க மொழி
- பல கோடி சொற்களில் இருந்து ஒரு சொல்லை அதி விரைவாக தேடும் வழிகள்
- பரிந்துரைக்கான வழிகள்
கணியம் அறக்கட்டளை, காஞ்சி லினக்ஸ் பயனர் குழு, சென்னை லினக்ஸ் பயனர் குழு, சென்னை பைத்தான் குழு பங்களிப்பாளர்கள் ஒன்றிணைந்து, இப்பணிகளை சில ஆண்டுகளுக்கு முன் தொடங்கினோம்.
- பெயர்ச்சொற்கள்
1,92,122 பெயர்ச் சொற்களை இங்கு தொகுத்துள்ளோம்.
github.com/KaniyamFoundation/all_tamil_nouns
வினைச்சொற்கள் பட்டியலை திரு. சுடர் அவர்கள் இங்கே தொகுத்துள்ளார் – sudar-ilakkanam.blogspot.com/
- அதிக அளவிலான சொல் வங்கி
github.com/KaniyamFoundation/all_tamil_words
இங்கே 25,83,001 தனி சொற்களை தொகுத்துள்ளோம்.
இவை போக இன்னும் விக்கி மூலம் ( 450 நூல்கள் ) FreeTamilEbooks.com ( 850+ மின்னூல்கள் ) , 1000+ தமிழ்மண் பதிப்பக நூல்கள், விக்கிப்பீடியா, விக்கி செய்திகள், கிரியேட்டிவ் காமன்ஸ் உரிமையில் வெளிவரும் தீக்கதிர் இணைய இதழ், வலைப்பதிவுகள் என பகிரும் உரிமையில் கிடைக்கும் இடங்களில் இருந்து பெரும் சொல் வங்கி உருவாக்கி வருகிறோம். காண்க – github.com/KaniyamFoundation/ProjectIdeas/issues/198
Huggingface போன்ற கிடங்குகளில் கிடைக்கும் தகவல் பொதிகள் தனி. அவற்றில் இருந்தும் சொற்கள் பெறலாம்.
50 முறைக்கு மேல் பயன்பட்டிருக்கும் சொற்கள் சரியானவை என்று கொள்ளலாம்.
ஒரு கோடி தமிழ்ச் சொற்களை தொகுத்து வைத்தால் போதுமே.
- சொல்வங்கியில் விரைந்து தேடுதல்
சரியான சொல் வங்கியில் ஒரு சொல் இருந்தால், அது சரியான சொல் எனக் கொள்ளலாம். கோடிக்கணக்கில் உள்ள, சொற்கள் உள்ள ஒரு சொல் வங்கியில் இருந்து எப்படி விரைவாகத் தேடுவது ?
இது பற்றி, சில ஆண்டுகளுக்கு முன், திரு.மலைக்கண்ணன் Bloom Filter என்ற நுட்பம் மூலம் தீர்வு வழங்கினார். அது தமிழுக்கும் அட்டகாசமாக வேலை செய்கிறது. ஒரு நொடிக்குள், பல இலட்சம் சொற்களில், ஒரு சொல் உண்டா, இல்லையா என்று சொல்லி விடுகிறது. நிரல் இங்கே – github.com/malaikannan/TamilSpellChecker/
- நல்ல எளிய நிரலாக்க மொழி
பைத்தான் இருக்க பயமேன்?
- பரிந்துரைக்கான வழிகள்
எழில் மொழி உருவாக்கிய திரு. முத்து அண்ணாமலை, Open-Tamil , TamilPesu.us மூலம் சரியான சொற்களை பரிந்துரைக்கும் வழிகளை Norvig Algorithm மூலம் தமிழுக்கு செயல்படுத்திக் காட்டினார்.
நிரல் இங்கே – github.com/Ezhil-Language-Foundation/open-tamil
- சந்தி விதிகள்
நித்யா துரைசாமி பைத்தான் மொழியில் ஒரு சந்திப் பிழைத்திருத்தி எழுதியுள்ளார்.
நிரல் இங்கே – github.com/nithyadurai87/tamil-sandhi-checker
- இலக்கண விதிகள்
தமிழின் இலக்கண விதிகளை கற்று அவற்றை பைத்தான் நிரலாக மாற்றும் வகையில், பேரா. சத்யராஜ் (நேயக்கோ) அவர்கள் தலைமையில் ஒரு ஆண்டாக, சனி தோறும் கூடி, TolkaPy என்ற மென்பொருளை உருவாக்கி வருகிறோம்.
நிரல் இங்கே – gitlab.com/kachilug/tamilrulepy/
கூட்ட விவரங்கள் இங்கே – github.com/KaniyamFoundation/ProjectIdeas/issues/214
தேவையான பொருட்களை ஒரு வாணலியில் இட்டு, மிதமான சூட்டில் பொரித்து எடுப்பது போல, ஓரளவு மேற்கண்ட அடிப்படைகள் கிடைப்பதால், இருப்பதைக் கொண்டு, ஒரு ஆய்வு நிலை சொற்பிழைத்திருத்தி உருவாக்கி உள்ளோம்.
காண்க – iyal.kaniyam.ca/
நிரல் இங்கே – github.com/KaniyamFoundation/iyal-tamil-spellchecker
இப்போதைக்கு, இலக்கண விதிகள் இல்லாமல், சொல் வங்கி அடிப்படையில் மட்டுமே வேலை செய்கிறது. விரைவில் இன்னும் அதிக சொற்கள், இலக்கண விதிகள் எல்லாம் சேரும் போது, நமது மாபெரும் தமிழ்க் கனவுகளில் ஒன்று நனவாகி விடும்.
அடுத்த கனவு – சொற்பிரிப்பான்
சிறு வயதில் பிரித்து எழுதுக, சேர்த்து எழுதுக கற்றிருப்போம். அதன் மென்பொருள் வடிவம் பார்த்துள்ளீர்களா? அது தான் சொற்பிரிப்பான். Tokenizer, Morpholocal Analyser என்பர்.
தற்போதைய AI காலத்தில், LLM கருவிகளில் தமிழ் இன்னும் மழலை மொழியாகவே இருப்பதன் காரணம், நாம் இன்னும் சரியான சொற்பிரிப்பாள், சொற்பிரிப்பான் மென்பொருட்களைத் தரவில்லை என்பதே.
திருமாலிருஞ்சோலையிலிருந்தபடியினாலே
இதை திரு + மால் + இரும் + சோலை + இல் + இருந்த + படி + இனால் + ஏ
என்று பிரிக்கலாம் என்று எப்படி கணினிக்கு சொல்வது?
நம் மூளைக்கு எளிதுதான். ஆனால் விதிகளை எழுதச் சொன்னால் திணறி விடுவோம்.
இதற்கான முயற்சிகள் பல காலமாக நடைபெற்று வருகின்றன.
தமிழுக்கு யாவரும் பகிரும் வகையிலான Annotated Corpus தமிழ் இணையக் கல்விக் கழகம் வெளியிட்ட ஒரு தொகுப்பு மட்டுமே உள்ளது. காண்க – github.com/Tamil-Virtual-Academy/Tamil-Annotated-Corpus
சரியான சொல் வங்கி இல்லாததால், பலரும் பல முறை தொடங்கி, ஆய்வு நிலையிலேயே நிறுத்தி விடுகின்றனர்.
இலங்கை மொரட்டுவா பல்கலைக்கழகப் பேராசிரியர் சர்வேஸ் ஒரு சொற்பிரிப்பான் திற மூலமாக வெளியிட்டுள்ளார். காண்க – nlp-tools.uom.lk/thamizhi-morph/parse-sentence.php#
நிரல் இங்கே – github.com/sarves/thamizhi-morph
இது ஆய்வு நிலையிலே உள்ளது.
இது தவிர, பல பேராசிரியர்கள், பல்கலைக் கழகங்கள், ஆய்வு அமைப்புகள் இது போன்ற மென்பொருட்களை உருவாக்கி, பல்வேறு சிக்கல்களால், வெளியிடாமலே போகும் நிலையும் உள்ளது.
தமிழுக்கான மென்பொருட்களை இணையத்தில் தேடினால், ஏராளனமான ஆய்வுக் கட்டுரைகள் மட்டுமே கிடைக்கும். அவற்றில் உருவாக்கியுள்ளதாக எழுதியுள்ள மென்பொருட்களை திறமூலமாக வெளியிட்டிருந்தாலே, பல புதுமைகள் அனைவருக்கும் கிடைத்திருக்கும்.
பிரியாணி செய்வது எப்படி என்று இணையத்தில் தேடினால், நெல் பயிரிடும் வழிகளுக்கான ஆய்வுக் கட்டுரைகள் மட்டும் கிடைப்பது போல உள்ளது தற்போதைய நிலை.
நெல் அரிசியாகி, பிறவும் விளைந்து, சந்தைக்கு வந்து, நமது வீட்டுக்கு வரும் காலம் விரைவில் வரட்டும். நாமே பிரியாணி செய்யவும் வேண்டும். தேவையெனில் சுவிகியில் ஆர்டர் செய்யவும் வேண்டும்.
நாம் என்ன செய்ய வேண்டும்?
நிரலாளர் உழைப்பினை நல்கீர்
இலக்கணம் அறிந்தோர் விதிகள் தாரீர்
எழுதுவோர் சொற்கள் தாரீர்
பேசுவோர் குரல் தாரீர்
நிதி மிகுந்தவர் பொற்குவை தாரீர்
நிதி குறைந்தவர் காசுகள் தாரீர்
அதுவுமற்றவர் தரவுகள் அருளீர்
மதுரத்தேமொழி மாந்தர்க ளெல்லாம்
பகிரும் வகையில்! கட்டற்ற உரிமையில்!!
ஊர் கூடித் தேர் இழுப்போம். வாருங்கள்!
slides –
Click to access iyal-tamil-spellchecker.pdf
காணொளி –