இயல் சொற்பிழைத்திருத்தி – ஒரு அறிமுகம்

29/08/2025 அன்று, உலகத் தமிழாராய்ச்சி நிறுவனம் நடத்திய அறிஞர் அவையம் நிகழ்வு 4 ல் வழங்கிய உரை.

த.சீனிவாசன்     tshrinivasan@gmail.com

 

சொற்பிழைத்திருத்தி

 

நாம் அன்றாடம் பார்க்கும் பத்திரிக்கைகள், சுவரொட்டிகள், சமூக வலைத்தளங்களில் பல வகையான எழுத்துப் பிழைகளைக் காணலாம். சில பத்தாண்டுகளுக்கு முன்பெல்லாம், தவறான சொற்களைக் காணும் போதே, அவற்றின் சரியான சொற்களை தந்து திருத்தும் பலர் இருந்தனர். காலப்போக்கில், அவ்வகையான உரையாடல்கள் குறைந்து விட்டன.

கற்ப்பிக்கிறேன், விற்க்கிறேன், முன்ணணி, அதனால்த் தான், மேற்க்கோள்கள், முயற்ச்சி, தொலைகாட்சி, நிகழ்சிகள்

மேலே உள்ள சொற்களில் உள்ள தவறு என்ன? அவற்றை சரியாக எழுதுவது குறித்து யாராவது திருத்துவதை கடைசியாக நீங்கள் எங்கே பார்த்தீர்கள்?

ஏன் தமிழில் எழுதும் போது, தவறுகளை ஏற்றுக் கொள்கிறோம்?

  • தமிழ் எழுதுவதில் உள்ள தவறுகள், எழுதும் போது தெரிவதில்லை
  • இலக்கண விதிகளை கற்று பிறகு எழுதுவது கடினமாக உள்ளது.
  • எல்லோரும் இப்படித்தான் எழுதுகிறார்கள்.
  • தவறாகத்தான் இருந்து விட்டுப் போகட்டுமே. புரிகிறது அல்லவா? மொழியின் தேவை புரிய வைப்பதுதானே.

இன்னும் கூட சில காரணங்கள் இருக்கலாம்.

ஆனால், இதே காரணங்களை நாம் ஆங்கிலத்துக்கோ, பிற மொழிகளுக்கோ கூறுவதில்லை.

God Murnink. என்று எங்காவது பார்த்துள்ளோமா?

Thangs, Bhone, Mopile ? எங்கும் காண முடியாதே. இத்தனைக்கும் ஆங்கிலம் நமக்கு அன்னிய மொழி. ஏன் நமது தாய்மொழிக்கு மட்டும் ஓர வஞ்சனை?

கூர்ந்து ஆராய்ந்தால், கணினி, செல்பேசிகள் மூலம் ஆங்கிலம் வரும் போதே, அதனுடன் தேவையான எழுத்துப் பிழைத் திருத்தியும் இலவசமாக கிடைப்பதை உணரலாம்.

தமிழுக்கு இன்னும் நமது தமிழ் அறிவும் அனுபவமும் மட்டுமே துணை.

எனக்கு Entrepreneurship என்ற பெரிய சொல் இன்றும் சரியாகத் தெரியாது. இது போல பல சொற்கள். ஆனால், அவை ஓரளவு தெரிந்தால் போதும். கணினியில் உள்ள சொற்பிழைத்திருத்தி, அதற்கான சரியான சொல்லை தந்து விடுகிறது. இப்படி ஒரு கருவி இருப்பதால் தான் பல்லாயிரம் தமிழர்கள் கணினித் துறையில் வளர்ச்சி பெற்று வாழ்கின்றோம்.

நாளையே திடீரென, ‘எந்தக் கருவியிலும் ஆங்கில எழுத்துப் பிழைத்திருத்தி வேலை செய்யாது’ என்ற நிலை வந்தால், நாம் கற்கால வாழ்வுக்கு தயாராகி விட வேண்டியதுதான். LLM கருவிகள் போல, மாதம் 10 டாலர் விலை வைத்தால் போதும். சொற்பிழைத் திருத்தி விற்றே, பல எலான் மஸக்  உருவாகி விடலாம்.

ஈராயிரக் குழவிகளுக்கு பல்லாயிரம் ஆண்டு காலத் தமிழைத் தரும்போது, தேவையான கருவிகளைத் தராதது யார் பிழை?

கருவிகள் இல்லையா? நிறைய இருக்கின்றனவே? மென்தமிழ், தமிழா சொற்பிழைத்திருத்திருத்தி, வாணி, தமிழிணைய வாணி என பல கருவிகள் உள்ளனவே? அவை போதாதா?

போத வில்லையே. இத்தனை இருந்தும் ஏன் இவ்வளவு பிழைகள் காண்கிறோம்?

தமிழர்கள் கணினியைக் கண்ட நாள் முதல், தமிழுக்கென பல்வேறு மென்பொருட்கள் உருவாக்கி வருகிறோம். ஆயினும், அவை ஒரு சில தனி நபர்கள், சிறு குழுக்கள், சிறு நிறுவனங்கள், மூலமே உருவாகின்றன.

தமிழுக்கென மென்பொருள் உருவாக்குவது என்று முடிவு செய்த பின், சந்தை, வணிகம், இலாபம் என பல்வேறு கூறுகள் சேர்ந்து கொண்டு, நிலைமையை மேலும் சிக்கலாக்கி விடுகின்றன.  திறமூலமாக வெளியிடுவதா அல்லது தனியுரிம மென்பொருளாக வெளியிடுவதா என்ற கேள்வியில் நிறுவனங்கள் தனியுரிம வகையை தெரிவு செய்கின்றன. பல்கலைக் கழக ஆய்வுகளும் நிறுவனமயமாகி விடுகின்றன.

ஆங்கிலத்தில் பொதுவாக, மொழி சார்ந்த ஆய்வுகள், மென்பொருட்கள் பல்வேறு பல்கலைக் கழகங்களால், திற மூல மென்பொருட்களாக முதலில் வெளியிடப் படுகின்றன. பின் நிறுவனங்கள் அவற்றை வளர்த்தெடுக்கின்றன. பெரும்பாலான மென்பொருட்கள் திறமூலமாகவே உள்ளன.

நம் ஊரில் அன்னதானம் கிடைக்கும். அம்மா உணவகம் இருக்கும். சாலையோரக் கடையும் இருக்கும். சரவண பவனும் இருக்கும்.

இலவசம் என்பதால் அன்னதானம் தரம் குறைந்து விடுவதில்லை. விலை அதிக உணவகங்களிலும் தரம் எப்போதுமே இருக்கும் என்பதும் இல்லை. அவரவர் தேவை. அவரவர் வசதி. அவரவர் தெரிவு.

அதே போலத்தான் மென்பொருட்களுக்கும் இருக்க வேண்டும்.

முன்னோடிகள்

தமிழில் திற மூலமாகவும், தனியுரிம மென்பொருட்களாகவும் வெளிவந்த சில சொற்பிழைத்திருத்திகள் பற்றி காண்போம்.

தனியுரிமம் :

  • மென்தமிழ் – பேரா. தெய்வசுந்தரம்
  • வாணி – திரு. நீச்சல்காரன்
  • சர்மா சொல்யூசன்ஸ், புதுக் கோட்டை

திற மூலம் :

  • தமிழா பிழைத்திருத்தி – தமிழா குழுவினர்
  • Tamilpesu.us – முத்து அண்ணாமலை மற்றும் குழுவினர்
  • தமிழிணைய வாணி – திரு. நீச்சல்காரன்

இது ஒரு சிறு பட்டியல் மட்டுமே. இங்கு எழுதாமல் விட்டவை ஏராளம்.

இவற்றில் நாம் காணும் சிக்கல்கள்

தனியுரிமம் :

  • இலவசம் கிடையாது.
  • பெரும்பாலும் விண்டோசுக்கு மட்டும்
  • API கிடையாது
  • Offline ல் வேலை செய்யாது ( பெரும்பாலும். விதி விலக்குகள் உண்டு)
  • செல்பேசி செயலி கிடையாது
  • பெரும்பாலும் பிற மென்பொருட்களுடன் இணைத்து பயன் படுத்த முடியாது.
  • மூல நிரல் இல்லாததால், பலர் இணைந்து வளர்த்தெடுக்க முடியாது. உருவாக்கியவரின் ஆர்வம், வசதி குன்றும் போது, மென்பொருளும் மறைகிறது.

திற மூலம் :

  • Aspell அடிப்படையாகக் கொண்ட தமிழா பிழைத்திருத்தி, இரண்டு சொற்களை இணைத்து வரும் வார்த்தைகள் வரை மட்டுமே சரிபார்க்கும். தமிழில் நாம் பல சொற்களை இணைத்து புது சொற்களை உருவாக்க இயலும்.
  • சொல் வங்கி மிகவும் குறைவு
  • Tamilpesu.us, தமிழிணைய வாணி ஆய்வு நிலையிலேயே உள்ளன.
  • செல் பேசி செயலி கிடையாது

சரியாக எழுத நமக்கு என்ன தான் வேண்டும்?

பாலும் தெளிதேனும் தந்தால், சங்கத் தமிழ் கிடைக்கலாம். யாருக்காவது கிடைத்திருந்தால் சொல்லுங்கள். பிழைத்திருத்தி நாம் தான் உருவாக்க வேண்டும்.

நமது பல்கலைக் கழகங்கள் தேவையான அடிப்படைகளை உருவாக்கி திறமூலமாக அளித்திருந்தால், நாமும் பல வகையில் வளர்த்திருக்கலாம். பரவாயில்லை. ஆர்வமுள்ள பலர் இணைந்தால் போதும். பல்லாயிரம் திறமூல மென்பொருட்கள் கொண்ட, லினக்ஸ் போன்ற இயங்குதளங்களே உருவாகும் போது, பிழைத்திருத்தி உருவாக்க முடியும் தானே.

என்ன வசதிகள் இருக்க வேண்டும்?

  • நன்கு பிழைத் திருத்த வேண்டும்
  • புதிய வார்த்தைகளை தொடர்ந்து சேர்க்க வேண்டும்
  • இலவசமாக, திறமூலமாக உலக மக்கள் அனைவருக்கும் கிடைக்க வேண்டும்
  • பிழையான சொற்களைக் காட்ட வேண்டும்.
  • சரியான திருத்தங்களை பரிந்துரைக்க வேண்டும்
  • API வசதி வேண்டும்
  • இணையம் இல்லாமல் இயங்க வேண்டும்
  • செல்பேசிகளில் இயங்க வேண்டும்
  • பிற மென்பொருட்களிலும் இயங்க வேண்டும்
  • தொடர்ந்த மேம்பாடு இருக்க வேண்டும்.

“ஒருமையுடன் நினது திரு மலரடி நினைக்கின்ற உத்தமர் தம் உறவு வேண்டும்” என்று வள்ளலார் கேட்டது போல, இந்த வேண்டும் பட்டியல் எப்போதும் பெரிதாககிக் கொண்டே இருக்கும் ஒன்று.

நாம் என்ன செய்யலாம் என்று பார்ப்போம்.

ஒரு பிழைத்திருத்தி உருவாக்க தேவையான பொருட்கள் :

  • பெயர்ச்சொல், வினைச்சொல் தொகுதிகள்
  • அதிக அளவிலான சொல்வங்கி
  • தமிழ் இலக்கண விதிகள்
  • நல்ல எளிய நிரலாக்க மொழி
  • பல கோடி சொற்களில் இருந்து ஒரு சொல்லை அதி விரைவாக தேடும் வழிகள்
  • பரிந்துரைக்கான வழிகள்

கணியம் அறக்கட்டளை, காஞ்சி லினக்ஸ் பயனர் குழு, சென்னை லினக்ஸ் பயனர் குழு, சென்னை பைத்தான் குழு பங்களிப்பாளர்கள் ஒன்றிணைந்து, இப்பணிகளை சில ஆண்டுகளுக்கு முன் தொடங்கினோம்.

  • பெயர்ச்சொற்கள்

1,92,122  பெயர்ச் சொற்களை இங்கு தொகுத்துள்ளோம்.

github.com/KaniyamFoundation/all_tamil_nouns

வினைச்சொற்கள் பட்டியலை திரு. சுடர் அவர்கள் இங்கே தொகுத்துள்ளார் – sudar-ilakkanam.blogspot.com/

  • அதிக அளவிலான சொல் வங்கி

github.com/KaniyamFoundation/all_tamil_words

இங்கே 25,83,001 தனி சொற்களை தொகுத்துள்ளோம்.

இவை போக இன்னும் விக்கி மூலம் ( 450 நூல்கள் ) FreeTamilEbooks.com ( 850+ மின்னூல்கள் ) , 1000+ தமிழ்மண் பதிப்பக நூல்கள், விக்கிப்பீடியா, விக்கி செய்திகள், கிரியேட்டிவ் காமன்ஸ் உரிமையில் வெளிவரும் தீக்கதிர் இணைய இதழ், வலைப்பதிவுகள் என பகிரும் உரிமையில் கிடைக்கும் இடங்களில் இருந்து பெரும் சொல் வங்கி உருவாக்கி வருகிறோம். காண்க – github.com/KaniyamFoundation/ProjectIdeas/issues/198

Huggingface போன்ற கிடங்குகளில் கிடைக்கும் தகவல் பொதிகள் தனி. அவற்றில் இருந்தும் சொற்கள் பெறலாம்.

50 முறைக்கு மேல் பயன்பட்டிருக்கும் சொற்கள் சரியானவை என்று கொள்ளலாம்.

ஒரு கோடி தமிழ்ச் சொற்களை தொகுத்து வைத்தால் போதுமே.

  • சொல்வங்கியில் விரைந்து தேடுதல்

சரியான சொல் வங்கியில் ஒரு சொல் இருந்தால், அது சரியான சொல் எனக் கொள்ளலாம். கோடிக்கணக்கில் உள்ள, சொற்கள் உள்ள ஒரு சொல் வங்கியில் இருந்து எப்படி விரைவாகத் தேடுவது ?

இது பற்றி, சில ஆண்டுகளுக்கு முன், திரு.மலைக்கண்ணன் Bloom Filter என்ற நுட்பம் மூலம் தீர்வு வழங்கினார். அது தமிழுக்கும் அட்டகாசமாக வேலை செய்கிறது. ஒரு நொடிக்குள், பல இலட்சம் சொற்களில், ஒரு சொல் உண்டா, இல்லையா என்று சொல்லி விடுகிறது. நிரல் இங்கே – github.com/malaikannan/TamilSpellChecker/

 

  • நல்ல எளிய நிரலாக்க மொழி

பைத்தான் இருக்க பயமேன்?

  • பரிந்துரைக்கான வழிகள்

எழில் மொழி உருவாக்கிய திரு. முத்து அண்ணாமலை, Open-Tamil , TamilPesu.us  மூலம் சரியான சொற்களை பரிந்துரைக்கும் வழிகளை Norvig Algorithm மூலம் தமிழுக்கு செயல்படுத்திக் காட்டினார்.

நிரல் இங்கே – github.com/Ezhil-Language-Foundation/open-tamil

  • சந்தி விதிகள்

நித்யா துரைசாமி பைத்தான் மொழியில் ஒரு சந்திப் பிழைத்திருத்தி எழுதியுள்ளார்.

நிரல் இங்கே – github.com/nithyadurai87/tamil-sandhi-checker

  • இலக்கண விதிகள்

தமிழின் இலக்கண விதிகளை கற்று அவற்றை பைத்தான் நிரலாக மாற்றும் வகையில், பேரா. சத்யராஜ் (நேயக்கோ) அவர்கள் தலைமையில் ஒரு ஆண்டாக, சனி தோறும் கூடி, TolkaPy என்ற மென்பொருளை உருவாக்கி வருகிறோம்.

நிரல் இங்கே – gitlab.com/kachilug/tamilrulepy/

கூட்ட விவரங்கள் இங்கே –  github.com/KaniyamFoundation/ProjectIdeas/issues/214

தேவையான பொருட்களை ஒரு வாணலியில் இட்டு, மிதமான சூட்டில் பொரித்து எடுப்பது போல, ஓரளவு மேற்கண்ட அடிப்படைகள் கிடைப்பதால், இருப்பதைக் கொண்டு, ஒரு ஆய்வு நிலை சொற்பிழைத்திருத்தி உருவாக்கி உள்ளோம்.

காண்க – iyal.kaniyam.ca/

நிரல் இங்கே – github.com/KaniyamFoundation/iyal-tamil-spellchecker

இப்போதைக்கு, இலக்கண விதிகள் இல்லாமல், சொல் வங்கி அடிப்படையில் மட்டுமே வேலை செய்கிறது. விரைவில் இன்னும் அதிக சொற்கள், இலக்கண விதிகள் எல்லாம் சேரும் போது, நமது மாபெரும் தமிழ்க் கனவுகளில் ஒன்று நனவாகி விடும்.

அடுத்த கனவு – சொற்பிரிப்பான்

சிறு வயதில் பிரித்து எழுதுக, சேர்த்து எழுதுக கற்றிருப்போம். அதன் மென்பொருள் வடிவம் பார்த்துள்ளீர்களா? அது தான் சொற்பிரிப்பான். Tokenizer, Morpholocal Analyser என்பர்.

தற்போதைய AI காலத்தில், LLM கருவிகளில் தமிழ் இன்னும் மழலை மொழியாகவே இருப்பதன் காரணம், நாம் இன்னும் சரியான சொற்பிரிப்பாள், சொற்பிரிப்பான் மென்பொருட்களைத் தரவில்லை என்பதே.

திருமாலிருஞ்சோலையிலிருந்தபடியினாலே

இதை திரு + மால் + இரும் + சோலை + இல் + இருந்த + படி + இனால் + ஏ

என்று பிரிக்கலாம் என்று எப்படி கணினிக்கு சொல்வது?

நம் மூளைக்கு எளிதுதான். ஆனால் விதிகளை எழுதச் சொன்னால் திணறி விடுவோம்.

இதற்கான முயற்சிகள் பல காலமாக நடைபெற்று வருகின்றன.

தமிழுக்கு யாவரும் பகிரும் வகையிலான Annotated Corpus தமிழ் இணையக் கல்விக் கழகம் வெளியிட்ட ஒரு தொகுப்பு மட்டுமே உள்ளது. காண்க – github.com/Tamil-Virtual-Academy/Tamil-Annotated-Corpus

சரியான சொல் வங்கி இல்லாததால், பலரும் பல முறை தொடங்கி, ஆய்வு நிலையிலேயே நிறுத்தி விடுகின்றனர்.

இலங்கை மொரட்டுவா பல்கலைக்கழகப் பேராசிரியர் சர்வேஸ் ஒரு சொற்பிரிப்பான் திற மூலமாக வெளியிட்டுள்ளார். காண்க – nlp-tools.uom.lk/thamizhi-morph/parse-sentence.php#

நிரல் இங்கே – github.com/sarves/thamizhi-morph

இது ஆய்வு நிலையிலே உள்ளது.

இது தவிர, பல பேராசிரியர்கள், பல்கலைக் கழகங்கள், ஆய்வு அமைப்புகள் இது போன்ற மென்பொருட்களை உருவாக்கி, பல்வேறு சிக்கல்களால், வெளியிடாமலே போகும் நிலையும் உள்ளது.

தமிழுக்கான மென்பொருட்களை இணையத்தில் தேடினால், ஏராளனமான ஆய்வுக் கட்டுரைகள் மட்டுமே கிடைக்கும். அவற்றில் உருவாக்கியுள்ளதாக எழுதியுள்ள மென்பொருட்களை திறமூலமாக வெளியிட்டிருந்தாலே, பல புதுமைகள் அனைவருக்கும் கிடைத்திருக்கும்.

பிரியாணி செய்வது எப்படி என்று இணையத்தில் தேடினால், நெல் பயிரிடும் வழிகளுக்கான ஆய்வுக் கட்டுரைகள் மட்டும் கிடைப்பது போல உள்ளது தற்போதைய நிலை.

நெல் அரிசியாகி, பிறவும் விளைந்து, சந்தைக்கு வந்து, நமது வீட்டுக்கு வரும் காலம் விரைவில் வரட்டும். நாமே பிரியாணி செய்யவும் வேண்டும். தேவையெனில் சுவிகியில் ஆர்டர் செய்யவும் வேண்டும்.

நாம் என்ன செய்ய வேண்டும்?

நிரலாளர் உழைப்பினை நல்கீர்
இலக்கணம் அறிந்தோர் விதிகள் தாரீர்
எழுதுவோர் சொற்கள் தாரீர்
பேசுவோர் குரல் தாரீர்
நிதி மிகுந்தவர் பொற்குவை தாரீர்
நிதி குறைந்தவர் காசுகள் தாரீர்
அதுவுமற்றவர் தரவுகள் அருளீர்
மதுரத்தேமொழி மாந்தர்க ளெல்லாம்
பகிரும் வகையில்! கட்டற்ற உரிமையில்!!
ஊர் கூடித் தேர் இழுப்போம். வாருங்கள்!

 

slides –

Click to access iyal-tamil-spellchecker.pdf

காணொளி –

Leave a Reply