கட்டற்ற திறவூற்றுச் சொற்பிழைத்திருத்தியும் இலக்கணப்பிழைத்திருத்தியும்: வளர்ச்சியும் சவால்களும்

கட்டுரையாளர்கள் : சி . ம . இளந்தமிழ் & வே . இளஞ்செழியன், மலேசியா

tamiliam@gmail.com & elantamil@gmail.com

  1. இக்கட்டுரை சொற்பிழைகளையும் இலக்கப்பிழைகளையும் திருத்தும் ஒரு கட்டற்ற மென்பொருளை உருவாக்குவதற்காகத் தமிழ்ச் சமூகம் கடந்த பத்து ஆண்டுகளாக மேற்கொண்டுவரும் பணிகளை எடுத்துச் சொல்லும் .

  2. அடுத்து , 2011 ஆம் ஆண்டு ஒரு முன்னோடி பதிப்பாக வெளியிடப்பட்ட தமிழ் ‘ ஹன்ஸ்பெல் ‘ சொற்பிழைத்திருத்தி எவ்வாறு எழுத்துப்பிழைகளைக் கண்டுபிடிக்கிறது என்பது விளக்கப்படும் .

  3. மூன்றாவதாக , கடந்த மாதம் மேம்படுத்தப்பட்ட ‘ லேங்குவேஜ் டூல் ‘ தமிழ் இலக்கணப்பிழைத்திருத்தி எவ்வாறு பிழைகளைக் கண்டுபிடிக்கிறது என்பது விளக்கப்படும் .

  4. இறுதியாக , ஹன்ஸ்பெல் , லேங்குவேஜ் டூல் ஆகிய இரண்டு நுட்பங்களில் உள்ள குறை நிறைகள் அலசப்படுவதோடு , இந்நுட்பங்கள் தமிழ் மொழிக்குப் பயன்படச் செய்வதற்கு என்ன தேவை என்ற பரிந்துரைகளையும் கட்டுரை முன்வைக்கும் .

தொடக்கம்

தமிழில் ஒரு கட்டற்ற திறவூற்றுச் சொற்பிழைத்திருத்தியை உருவாக்கும் முயற்சி 2003 ஆம் ஆண்டு தொடங்கப்பட்டது . தமிழா ! குழுவினர் ஓபன் ஓபிஸ் 1.1 அலுவலகத் தொகுதியின் தமிழ்ப் பதிப்பிற்காக இம்முயற்சியை மேற்கொண்டு , இதற்காக ஏறக்குறைய 11,000 சொற்களைக் கொண்ட ஒரு சொற்பட்டியலைத் தயாரித்தனர் . ஆனால் , இம்முயற்சி வெற்றியடையவில்லை . ஓபன் ஒபிஸ் 1.1 சொற்பிழைகளைத் திருத்துவதற்காகப் பயன்படுத்திய ‘ மைஸ்பெல் ‘ (MySpell) என்ற பொறி , ஒற்றை பைட் குறியீட்டை மட்டுமே பயன்படுத்தியதன் காரணமாக அதனால் ஒருங்குறியில் எழுதப்படும் தமிழை ஆதரிக்க முடியவில்லை . விளைவாக , ஓபன் ஓபிஸில் செயல்படும் ஒரு சொற்பிழைத்தியை உருவாக்கும் முயற்சி கைவிடப்பட்டது .

இருப்பினும் , இம்முயற்சிக்காகத் தயாரிக்கப்பட்ட சொற்பட்டியலைப் பயன்படுத்தி விஜய் என்பவர் மைஸ்பெல்லின் முன்னோடியான ‘ கனூ அஸ்பெல் ‘ (GNU Aspell) என்ற பொறியில் தமிழுக்கான ஆதரவை ஏற்படுத்தினார் . அவர் உருவாக்கிய மென்பொருளே தமிழின் முதலாவது கட்டற்ற திறவூற்றுச் சொற்பிழைத்திருத்தியென நாம் கருதலாம் .

சில ஆண்டு இடைவெளிக்குப் பின்னர் , சென்னை தொழில்நுட்ப நிறுவனத்தைச் சேர்ந்த ஒரு தன்னார்வக் குழு இத்திட்டத்தைக் கையிலெடுத்து , தமிழ் பேரகராதியில் உள்ள ஒரு இலட்சத்திற்கும் மேற்பட்ட சொற்களைக் கனூ அஸ்பெல் பொறியில் செர்த்தது1 . இவ்வாறு கூடுதலான சொற்களைக் கனூ அஸ்பெல் பெற்ற போதிலும் , அதனால் தவறாக எழுதப்பட்டிருக்கும் சொற்களுக்குப் பொருத்தமான சொற்களை ஓரளவிற்கே பரிந்துரைக்க முடிந்தது .

இதற்கிடையில் , ஓபன் ஓபிஸ் அதன் 2.0.2 பதிப்பு முதற்கொண்டு மைஸ்பெல்லுக்குப் பதிலாக ஒருங்குறியை ஆதரிக்கும் ‘ ஹன்ஸ்பெல் ‘ (HunSpell) என்ற சொற்பிழைத்திருத்தி பொறியைப் பயன்படுத்தத் தொடங்கியிருந்தது . இப்பொறியைப் பயன்படுத்தி தமிழா ! குழுவினர் ஓபன் ஓபிஸ் , லிப்ரெஓபிஸ் , பயர்பாக்ஸ் ஆகிய மென்பொருள்களில் செயல்படும் ஒரு சொற்பிழைத்திருத்தியை 2011 ஆம் ஆண்டு வெளியிட்டனர் . முந்தைய வெளியீடுகள் சொல் அகராதியை மட்டுமே பயன்படுத்தி சொற்பிழைகளைக் கண்டுபிடித்தன . ஹன்ஸ்பெல் சொற்பிழைத்திருத்தியோ சொற்களுடன் ஒட்டுகளை முன்னும் பின்னும் சேர்க்கும் விதிகளையும் கொண்டிருந்தது . அடிக்கடி தவறாக எழுதப்படும் சொற்களுக்கான மாற்று சொற்பட்டியலும் இத்திருத்தியில் இருந்தது .

இருப்பினும் , இச்சொற்பிழைத்திருத்தியில் ஒரு சிக்கல் இருந்தது . ஹன்ஸ்பெல் ஒவ்வொரு சொல்லையும் தனியாகப் பார்த்ததால் , அதனால் ஒற்றுப் பிழைகளைக் கண்டுபிடிக்க முடியவில்லை . இச்சிக்கலுக்கான தீர்வு 2014 ஆம் ஆண்டுதான் கிடைத்தது . அவ்வாண்டு ‘ லேங்குவேஜ் டூல்(LanguageTool) என்ற பொறியில் தமிழுக்கான ஆதரவு தமிழா ! குழுவினரால் சேர்க்கப்பட்டது . லேங்குவேஜ் டூல் ஒற்றுப்பிழை மட்டுமின்றி சொற்களைச் சேர்த்தும் பிரித்தும் எழுதுவதால் ஏற்படும் தவறுகளையும் கண்டுபிடிக்கும் வசதியைக் கொண்டிருக்கிறது . lanugagetool.org

ஹன்ஸ்பெல் சொற்பிழைத்திருத்தி

ஹன்ஸ்பெல் சொற்பிழைத்திருத்தி முழுக்க , முழுக்க சி ++ நிரலாக்க மொழியைக் கொண்டு தயாரிக்கப்பட்ட ஒரு பொறியாகும் . அது லாஸ்லோ நெமெத் என்ற ஒரு ஹங்கேரிய நிரலாளரால் தயாரிக்கப்பட்டது . இப்பொறி தொடக்கத்தில் ஹங்கேரிய மொழிக்காகத் தயாரிக்கப்பட்டிருந்தாலும் , இன்று உலகின் முதன்மை மொழிகள் அனைத்தையும் ஆதரிக்கிறது .

இச்சொற்பிழைத்திருத்தி சொற்பிழைகளைக் கண்டுபிடிக்க இரண்டு கோப்புகளைப் பயன்படுத்துகிறது . முதலாவது கோப்பு .dic கோப்பு ஒரு சொற்பட்டியல் ஆகும் . ஒரு மொழியில் உள்ள அனைத்து வேர்ச் சொற்களும் இக்கோப்பில் இடம் பெற்றிருக்கின்றன . இரண்டாவது கோப்பு .aff கோப்பு சொல் ஒட்டுகளைக் கொண்டிருக்கிறது . எந்தயெந்த ஒட்டுகள் ஒரு வேர்ச் சொல்லுடன் சேரும் ; சேர்ந்தபின் எவ்வாறு அவை அச்சொல்லை மாற்றியமைக்கும் போன்ற விதிகள் இக்கோப்பில் வரையறுக்கப்பட்டிருக்கின்றன .

கொடுக்கப்பட்ட ஒரு சொற்றொடரைத் திருத்தும்போது , ஹன்ஸ்பெல் அத்தொடரில் இருக்கும் ஒவ்வொரு சொல்லும் .dic கோப்பில் உள்ள சொற்பட்டியலில் இருக்கிறதா எனப் பார்க்கும் . ஒரு குறிப்பிட்ட சொல் பட்டியலில் இருந்தால் , அச்சொல்லில் தவறு இல்லையென முடிவுசெய்துவிட்டு ஹன்ஸ்பெல் அடுத்த சொல்லுக்கு நகரும் . அச்சொல் பட்டியலில் இல்லையெனில் , .aff கோப்பில் கொடுக்கப்பட்டுள்ள விதிகளைப் பயன்படுத்தி ஹன்ஸ்பெல் அச்சொல்லை உருவாக்க முற்படும் . இம்முயற்சி வெற்றியடைந்தால் அச்சொல்லில் தவறு இல்லையெனவும் , தோல்வியடைந்தால் சொல் தவறானது எனவும் ஹன்ஸ்பெல் முடிவெடுக்கிறது .

இதனை ஒரு எடுத்துக்காட்டின் வழி பார்ப்போம் . இந்த எடுத்துக்காட்டில் , எவ்வாறு ஹன்ஸ்பெல் ‘ கடல் ‘, ‘ கடலில் ‘, ‘ கடலிலும் ‘, ‘ கடலும் ‘, ‘ அக்கடலில் ‘ ஆகிய சொற்களை அடையாளம் கண்டுகொள்கிறது என்று பார்க்கலாம் .

இங்கு அடிச்சொல் ‘ கடல் ‘ ஆதலால் , .dic கோப்பில் பின்வரும் உள்ளீடு இருக்கும் :

கடல் /100,250,300

அடுத்து , .aff கோப்பில் , பின்வரும் விதிகள் சேர்க்கப்பட்டிருக்கும் :

PFX 100 Y 1

PFX 100 0 அக் க

SFX 250 Y 1

SFX 250 ல் லில் /300 ல்

SFX 300 Y 1

SFX 300 ் ும் ்

சொற்பட்டியலில் சேர்க்கப்பட்டிருக்கும் ‘ கடல் ‘ என்ற அடிச்சொல்லின் பின் வரும் ‘100’, ‘250’, ‘300’ ஆகியன மூன்று விதிகளைக் குறிக்கின்றன . இவ்விதிகள்தான் எவ்வாறு ‘ கடல் ‘ என்ற அடிச்சொல்லை மாற்றியமைக்கலாம் என்று ஹன்ஸ்பெல்லிடம் தெரிவிக்கின்றன .

விதிக் கோப்பான .aff கோப்பில் உள்ள ‘PFX’ இது ஒரு முன்னொட்டு (prefix) விதி என்றும் , ‘SFX’ இது ஒரு பின்னொட்டு (suffix) விதி என்றும் குறிக்கின்றன . அடுத்து வரும் எண்கள் விதியின் பெயரை அதாவது விதி எண் 100, விதி எண் 250, விதி எண் 300 எனக் குறிக்கின்றன . Y என்பது இவ்விதி முன்னொட்டை ஏற்கும் என்று குறிக்கிறது . இறுதியாக வரும் ‘1’ என்ற எண் இவ்விதியில் தற்போது ஒரு பாங்கு (pattern) இருப்பதாகக் குறிக்கிறது .

விதியின் இரண்டாவது வரி அடிச்சொல்லை மாற்றியமைப்பதற்கான விதத்தை வரையறுக்கிறது . விதி 100 இல் , அடிச்சொல்லின் முதல் எழுத்து ‘ க ‘ என்று இருந்தால் , அது ‘ அக் ‘ என்ற முன்னொட்டை ஏற்கும் என்று கூறுகிறது . ஆகவே , ‘ கடல் ‘ என்ற சொல் , ‘ அக் ‘ என்ற முன்னொட்டை ஏற்று ‘ அக்கடல் ‘ என்ற சொல்லாக வரலாம் .

பின்னொட்டுகளைக் கையாளும்போது ஒரு சொல்லின் இறுதி எழுத்தை ஹன்ஸ்பெல் பார்க்கிறது . ‘ கடல் ‘ என்ற சொல்லின் இறுதி ஒருங்குறி எழுத்துக்கள் ‘ ல ‘ வும் ‘ ் ‘ யும் ஆகும் . ஆகவே , விதி 250 இன்படி , ‘ கடல் ‘ இல் உள்ள ‘ ல் ‘ என்ற எழுத்து ( க்கள் ) நீக்கப்பட்டு , ‘ லில் ‘ என்ற எழுத்துக்கள் அதனுடன் சேர்க்கப்படுகின்றன ; விளைவாக , ‘ கடலில் ‘ என்ற சொல்லைச் சரியானதே என்று ஹன்ஸ்பெல் முடிவுசெய்கிறது .

விதி 250 இல் , ‘ லில் ‘ என்ற ஒட்டுக்குப் பின் வரும் ‘300’ என்ற எண் , விதி 300 ஐக் குறிக்கின்றது . ‘ கடலில் ‘ என்ற சொல்லின் இறுதி ( ஒருங்குறி ) எழுத்து ‘ ் ‘ ஆகும் . ஆகவே , விதி 300 இன்படி , ‘ ் ‘ என்ற எழுத்தை நீக்கி ‘ ும் ‘ என்ற எழுத்துக்களைச் சேர்த்தால் ‘ கடலிலும் ‘ என்ற சொல் கிடைக்கிறது . இவ்விதத்தில் ‘ கடலிலும் ‘, ‘ கடலும் ‘ போன்ற சொற்களைச் சரியானவை என்று ஹன்ஸ்பெல் முடிவுசெய்கிறது2 .

லேங்குவேஜ் டூல் இலக்கணப்பிழைத்திருத்தி

லேங்குவேஜ் டூல் ஜாவா நிரலாக்க மொழியைக் கொண்டு எழுதப்பட்ட ஒரு மென்பொருளாகும் . அதனை டேனியல் நேபர் என்ற ஒரு ஜெர்மானிய நிரலாளர் உருவாக்கினார் . அது கடந்த பத்து ஆண்டுகளாகத் திறவூற்றுச் சமூகத்தால் தொடர்ந்து மேம்படுத்தப்பட்டு இன்று 20 க்கும் மேற்பட்ட மொழிகளை ஆதரிக்கிறது .

இத்திருத்தி இலக்கணப்பிழைகளைக் கண்டுபிடிக்க இரண்டு அடிப்படைக் கோப்புகளைப் பயன்படுத்துகின்றது . முதலாவது கோப்பு tamil.dict – சொற்பட்டிலையும் சொற்பகுதிக் குறிப்பையும் (POS tags) கொண்டிருக்கிறது . இரண்டாவது கோப்பு grammar.xml – இலக்கண விதிகளைக் கொண்டிருக்கிறது . இக்கோப்புகளைப் பயன்படுத்தி ஒரு சொற்றொடரில் உள்ள பிழைப் பாங்குகளை (error patterns) கண்டுபிடித்து , அவற்றைப் பிழையெனக் குறிப்பிடுவதோடு , அப்பாங்குகளை எவ்வாறு திருத்தி அமைக்கலாம் எனவும் லேங்குவேஜ் டூல் பரிந்துரைக்கிறது .

இதனை மூன்று எடுத்துக்காட்டுகளின் வழி பார்ப்போம் . முதல் எடுத்துக்காட்டில் நான்காம் வேற்றுமை உருபு ஏற்ற ‘ ஊர் ‘ என்ற பெயர்ச்சொல்லுக்குப் பின் ‘ போக ‘ என்ற சொல் வந்தால் என்ன நடக்கும் என்பதைப் பார்க்கலாம் . இரண்டாவது எடுத்துக்காட்டில் ‘ புகை வருவது ஏன் ?’ என்ற சொற்றொரில் உள்ள சிக்கலையும் ; மூன்றாவது எடுத்துக்காட்டில் ‘ வீடு தோறும் ‘ என்ற சொற்றொடரில் உள்ள சிக்கலையும் பார்க்கலாம் .

முதல் எடுத்துக்காட்டு – ஊருக்கு போக :

‘ ஊருக்கு போக ‘ என்ற சொற்றொடரில் உள்ள பிழையைக் கண்டுபிடிப்பதற்கான விதி பின்வருமாறு3 ,4:

இவ்விதி ஒன்றன்பின் ஒன்றாக வரும் இரண்டு சொற்கள் <pattern> மற்றும் </pattern> என்ற குறியீடுகளுக்கு இடையில் கொடுக்கப்பட்டுள்ள பாங்குடன் பொருந்துகிறதா எனப் பார்க்கிறது . இவ்விதியுடன் பொருந்துவதற்கு , முதல் சொல் (token) ‘FV’ என்ற சொற்பகுதிக் குறிப்பை உடைய சொல்லாக இருக்க வேண்டும் . இரண்டாவது சொல் ‘ ப ‘ என்ற எழுத்துடன் தொடங்கும் ஏதாவது ஒரு சொல்லாக இருக்கலாம் . எந்தயெந்தச் சொற்கள் ‘FV’ சொற்பகுதிக் குறிப்புடைய சொற்கள் என்ற தகவல் tamil.dict என்ற கோப்பில் தரப்பட்டிருக்கிறது .

நமக்கு வேண்டிய ‘ ஊருக்கு ‘ என்ற சொல்பற்றிய தகவல் tamil.dict என்ற கோப்பில் பின்வருமாறு வரையறுக்கப்பட்டிருக்கிறது :

ஊருக்கு ஊர் FV

இங்கு ‘ ஊர் ‘ என்ற சொல் அடிச்சொல் ஆகும் ; ‘ ஊருக்கு ‘ என்ற சொல் வடிவம் மாறிய (inflected) சொல் ஆகும் . ‘FV’ வடிவம் மாறிய சொல்லுக்கான சொற்பகுதிக் குறிப்பு (postag) ஆகும் .

இவ்விதத்தில் , ‘ ஊருக்கு போக ‘ என்ற சொற்றொடரில் உள்ள பிழையை லேங்குவேஜ் டூல் கண்டுபிடிக்கிறது .

கண்டுபிடிக்கப்பட்ட பிழையை எவ்வாறு சரிசெய்யலாம் என்ற தகவல் விதியின் <suggestion> மற்றும் </suggestion> என்ற குறியீடுகளுக்கு இடையில் கொடுக்கப்பட்டுள்ளது . இதன்படி , முதல் சொல்லை அடுத்து ‘ ப் ‘ என்ற எழுத்தைச் சேர்த்துக்கொண்டு , ‘ ஊருக்குப் போக ‘ என்ற மாற்றுச் சொற்றொடரை லேங்குவேஜ் டூல் பரிந்துரைக்கிறது .

இரண்டாவது எடுத்துக்காட்டு – புகை வருவது ஏன் ?:

‘ புகை வருவது ஏன் ?’ என்ற சொற்றொடரில் உள்ள பிழையைக் கண்டுபிடிப்பதற்கான விதி பின்வருமாறு5 :

இவ்விதி ‘ செய்வது ‘, ‘ கொடுப்பது ‘ போன்ற சொற்களின் பின் ‘ ஏன் ‘ என்ற சொல் வந்து , அச்சொற்றொடர் ஒரு கேள்விக்குறிகொண்டு முடிகிறதா எனப் பார்க்கிறது . அவ்வாறு வந்தால் , இவ்விரண்டு சொற்களையும் சேர்த்து எழுத வேண்டும் . அதனைச் செய்யும் வழிமுறை விதியின் <suggestion> மற்றும் </suggestion> என்ற குறியீடுகளுக்கு இடையில் கொடுக்கப்பட்டுள்ளது . இதன்படி , ‘ வருவது ஏன் ‘ என்ற சொற்றொடரை ‘ வருவதேன் ‘ என்ற சொல்லாக மாற்ற லேங்குவேஜ் டூல் பரிந்துரைக்கிறது .

மூன்றாவது எடுத்துக்காட்டு – வீடு தோறும் :

‘ வீடு தோறும் ‘ என்ற சொற்றொடரில் உள்ள பிழையைக் கண்டுபிடிப்பதற்கான விதி பின்வருமாறு6 :

இவ்விதி ஒரு அஃறிணை பெயர்ச்சொல்லின் பின் ‘ தோறும் ‘ என்ற சொல் வருகிறதா எனப் பார்க்கிறது . இவ்விதியுடன் பொருந்துவதற்கு , முதல் சொல் NNA ( அதாவது அஃறிணை பெயர்ச்சொல் ) என்ற சொற்பகுதிக் குறிப்பை உடைய சொல்லாக இருக்க வேண்டும் . எந்தயெந்தச் சொற்கள் NNA சொற்பகுதிக் குறிப்புடைய சொற்கள் என்ற தகவல் tamil.dict என்ற கோப்பில் தரப்பட்டிருக்கிறது . இங்கு ‘ ம் ‘ என்ற இறுதி எழுத்தைக் கொண்ட பெயர்ச்சொல்லை ஒரு விதத்திலும் , இதர பெயர்ச்சொற்களை வேறு விதத்திலும் கையாள வேண்டுமென விதி குறிப்பிடுகிறது .

இவ்விதத்தில் , ‘ வீடு தோறும் ‘ என்ற சொற்றொடரில் உள்ள பிழையை லேங்குவேஜ் டூல் கண்டுபிடிக்கிறது .

கண்டுபிடிக்கப்பட்ட பிழையை எவ்வாறு சரிசெய்யலாம் என்ற தகவல் விதியின் <suggestion> மற்றும் </suggestion> என்ற குறியீடுகளுக்கு இடையில் கொடுக்கப்பட்டுள்ளது . இதன்படி , முதல் சொல்லைத் ‘ தோறும் ‘ என்ற சொல்லுடன் சேர்த்து , ‘ வீடுதோறும் ‘ என்ற மாற்றுச் சொல்லை லேங்குவேஜ் டூல் பரிந்துரைக்கிறது7 .

வளர்ச்சியும் சவால்களும்

ஒரு கட்டற்ற திறவூற்றுச் சொற்பிழைத்த்திருத்தியை உருவாக்க 2003 ஆம் ஆண்டு முதற்கொண்டு எடுக்கப்பட்ட முயற்சி கடந்த மூன்று ஆண்டுகளில் மிகப்பெரிய வளர்ச்சியைக் கண்டுள்ளது . 2011 ஆம் வெளியிடப்பட்ட ஹன்ஸ்பெல் சொற்பிழைத்திருத்தியில் ஒரு சொற்தொகுதி (corpus) கொண்டு தேர்ந்தெடுக்கப்பட்ட இரண்டு இலட்சம் சொற்கள் சேர்க்கப்பட்டிருந்தன . அடுத்த வெளியீடு 200 க்கும் கூடுதலான முன்னொட்டு , பின்னொட்டு விதிகளைக் கொண்டு செம்மைபடுத்தப்பட்டிருக்கும் .

லேங்குவேஜ் டூல் தமிழ் இலக்கணப்பிழைத்திருத்தி உத்தமம் 2014 மாநாட்டை ஒட்டித் தயாரிக்கப்பட்ட ஒரு மென்பொருளாகும் . அதில் தற்போது 83 இலக்கண விதிகள் சேர்க்கப்பட்டுள்ளன . இத்திருத்திகொண்டு விக்கிபீடியாவில் உள்ள 100 க்கும் மேற்பட்ட கட்டுரைகளில் இருந்த 4,000 க்கும் கூடுதலான பிழைகள் இதுவரை திருத்தப்பட்டுள்ளன . தற்போது இத்திருத்தி லிப்ரெஓபிஸ் அலுவலகத் தொகுதியில் மட்டுமே வேலை செய்கிறது . விரைவில் அது ஒரு பயர்பாக்ஸ் நீட்சியாகத் தரப்படும் .

ஹன்ஸ்பெல் , லேங்குவேஜ் டூல் ஆகிய மென்பொருட்கள் அந்நிய மொழிகளுக்காகக் கண்டுபிடிக்கப்பட்டிருந்தாலும் , அவை தமிழை நன்முறையில் கையாளுகின்றன . இன்று ஆங்கிலம் போன்ற மேலை நாட்டு மொழிகளைத் தவறு இல்லாமல் எழுதுவதற்கு எவ்வாறு சொற்பிழைத்திருத்திகள் உதவுகின்றனவோ , அதுபோலத் தமிழையும் தவறு இல்லாமல் எழுதுவதற்கு உதவும் முழுமையான சொற்பிழைத்திருத்திகள் அனைவருக்கும் கிடைக்கும் காலம் வெகுதூரத்தில் இல்லையென நாம் நம்பலாம் .

அதே வேளையில் , இத்தகைய மென்பொருட்களை உருவாக்குவதில் கட்டற்ற திறவூற்று மென்பொருள் சமூகம் எதிர்கொண்ட , எதிர்கொண்டு வரும் சிக்கல்களை இங்குப் பதிவுசெய்தல் அவசியம் ஆகும் . அவை பின்வருமாறு :

  1. சொற்பிழைத்திருத்தியைச் செய்வதற்கு சொற்தொகுதி இன்றியமையாத பங்கை ஆற்றுகின்றது . ஆனால் , அனைவருக்கும் எளிதாகக் கிடைக்கும் ஒரு தமிழ் சொற்தொகுதி கிடைப்பில் இருப்பதாகத் தெரியவில்லை . ஹன்ஸ்பெல்லில் பயன்படுத்திய சொற்தொகுதியை அமெரிக்காவின் செய்ண்ட் லுயீ பல்கலைப் பேராசிரியரான கேவின் ஸ்கேனல் செய்து கொடுத்தார்8 . தமிழகத்தில் தயாரிக்கப்பட்ட சொற்தொகுதிகள் வெளிச்சத்திற்கு வருவது நலம் .

  2. ஹன்ஸ்பெல் தற்போது அதிகபட்சமாக இரண்டு பின்னொட்டுகளை மட்டுமே ஏற்கிறது . ஆனால் தமிழில் ஒரு அடிச்சொல் ஐந்து பின்னொட்டுகள்வரை ஏற்கலாமென ஒரு ஆய்வு காட்டுகின்றது9 . இச்சிக்கலைத் தீர்ப்பதற்கு ஹன்ஸ்பெல்லைத் திருத்தி எழுத வேண்டும் .

  3. இலக்கணத்திருத்தி சரியாக இயங்குவதற்குச் சொற்பகுதிக் குறிப்புகள் சேர்க்கப்பட்ட சொற்பட்டியல் தேவை . இக்குறிப்புகள் துல்லியமாகவும் இருக்க வேண்டும் . அதாவது , பெயர்ச்சொல் என்றால் , அது பொருள் , இடம் , காலம் , சினை , குணம் , தொழில் தவிர்த்துத் திணை , பால் , எண் , இடம் ஆகியவற்றையும் காட்டுவதாகப் பிரிக்கப்பட்டிருக்க வேண்டும் . இவ்வாறு துல்லியமாகப் பிரிக்கப்பட்ட ஒரு பட்டியலை எந்த அமைப்பும் இந்நாள்வரை தயாரித்து வெளியிட்டிருப்பதாகத் தெரியவில்லை10 .

  4. ‘ அப்பா ‘ என்ற சொல் போன்று பெயர்ச்சொல்லாகவும் ஈறு கெட்ட எதிர்மறை வினையெச்சமாகவும் ஒரு சொல் வந்தாலும் , இது போன்ற வேறு சூழல்களில் சொற்கள் வந்தாலும்11 , அவற்றை லேங்குவேஜ் டூலால் சரியாகக் கையாள முடியவில்லை . இத்தகைய சிக்கல்களைத் தீர்ப்பதற்கு வாக்கிய அளவிலான மொழியியல் ஆய்வுகள் தேவைப்படலாம் .

  5. நாம் தமிழில் தட்டச்சும்போது தமிழ் எழுத்துக்களை ஒருங்குறியின் OB80-OBFF என்ற பகுதியிலிருந்து எடுத்துக்கொள்கிறோம் . அதே வேளையில் , நாம் பயன்படுத்தும் நிறுத்தக் குறிகளையும் எண்களையும் 0021-0040 என்ற பகுதியிலிருந்து எடுக்கிறோம் . CJK ( சீன , ஜப்பானிய , கொரிய ) மொழிகளுக்கு இருப்பதுபோல் , இந்திய மொழிகளுக்கு நிறுத்தக் குறிகளுக்கென்று ஒரு தனிப்பகுதி இல்லை . விளைவாக , தமிழ் மொழியில் மட்டுமே ஒரு பத்தியை நாம் தட்டச்சினாலும் , அதில் இடம்பெறும் நிறுத்தக் குறிகளின் காரணமாக , அப்பத்தியைத் தமிழென அடையாளம் காண லிப்ரெஓபிஸ் , மைக்ரோசொப்ட் வேர்டு போன்ற மென்பொருட்கள் தடுமாறுகின்றன . இதுவே இலக்கணப்பிழைகளைக் கண்டுபிடிப்பதற்கும் சில வேளைகளில் சிக்கலைத் தற்போது ஏற்படுத்துகிறது .

/ முற்றும் .

லிபரே ஆபிஸில் LanguageTool நிறுவுதல் பற்றிய காணொளி ;

1 இக்குழுவில் மாலதி செல்வராஜ் , அ . சுஜி , ஸ்ரீ ராமதாஸ் , யாக்னா கல்யாணராமன் ஆகியோர் இடம்பெற்றிருந்தனர் .

2 ஹன்ஸ்பெல் எவ்வாறு விதிகளைக் கொண்டு அடிச்சொற்களை மாற்றியமைக்கின்றது என்பதை விளக்குவதற்காக இங்குக் குறிப்பிடப்பட்டுள்ள விதிகள் எளிமைபடுத்தப்பட்டுள்ளன . எளிமைபடுத்தாத விதிகளைப் பார்க்க வேண்டுவோர் , அதனை github.com/thamizha/thamizha-solthiruthi என்ற தொடுப்பில் பார்க்கலாம் .

3 இவ்விதியும் இதர விதிகளும் 2004 ஆம் ஆண்டு அடையாளம் பதிப்பகத்தால் வெளியிடப்பட்ட ‘ தமிழ்நடைக் கையேடு ‘ என்ற நூலிலிருந்தும் , 2007 ஆம் ஆண்டு பூம்பொழில் பதிப்பகத்தால் வெளியிடப்பட்ட ‘ தமிழில் நாமும் தவறில்லாமல் எழுதலாம் ‘ என்ற நூலிலிருந்தும் எடுக்கப்பட்டவை ஆகும் . இவ்விரு நூல்களில் கொடுக்கப்பட்ட விதிகள் சில வேளைகளில் வேறுபடச் செய்தன . அவ்வேளைகளில் தமிழ்நடைக் கையேட்டில் தரப்பட்ட விதிகளைப் பின்பற்றியுள்ளோம் .

4 பா . ரா . சுப்பிரமணியன் , தமிழ்நடைக் கையேடு ( அடையாளம் , 2004), ப . 88.

5Ibid., ப . 57.

6 பொற்கோ , தமிழில் நாமும் தவறில்லாமல் எழுதலாம் ( பூம்பொழில் பதிப்பகம் , 2007), ப . 35.

7 முதல் சொல் ‘ வாரம் ‘ என்ற சொல்லாக இருந்தால் , சொல்லின் இறுதியில் வரும் ‘ ம் ‘, ‘ ந் ‘ ஆக மாற்றப்பட்டு , ‘ வாரந்தோறும் ‘ என்ற சொல்லை லேங்குவேஜ் டூல் பரிந்துரைக்கும் .

8 இச்சொற்தொகுதிபற்றிய தகவல் இங்குத் தரப்பட்டிருக்கிறது : borel.slu.edu/crubadan/stadas.html.

9 இத்தகவல் அண்ணா பல்கலைக்கழகம் வெளியிட்டுள்ள பாய்வு அட்டவணையில் இடம்பெற்றிருக்கிறது . “Flowchart of Tamil Verb and Noun Forms,” AU-KBC Research Centre, அணுகிய தேதி 15 ஆகஸ்டு 2014, www.au-kbc.org/research_areas/nlp/projects/morph.html.

10 இந்திய மொழிகளுக்கான நடுவண் நிறுவனம் (CIIL) 2009 ஆம் ஆண்டு தமிழ் மொழிக்காகப் பரித்துரைத்துள்ள சொற்பகுதி குறிச்சொல் தொகுதி (POS Tagset) இத்தகைய வேறுபாடுகளைக் கருத்தில் கொண்டதாகத் தெரியவில்லை . அத்தொகுதி எல்லா இந்திய மொழிகளுக்கும் பொருந்தும் பொதுவான தன்மைகளுக்கு முக்கியத்துவம் தருகிறது போலும் .

11 காட்டாக ‘ அமைப்பு தேவை ‘ என்ற சொற்றொடரைப் பார்க்கலாம் . இங்கு ஒற்று மிகுவதும் மிகாததும் ‘ அமைப்பு தேவை ‘ என்பது ஒரு கூட்டுச்சொல்லா இல்லையா என்பதைப் பொருத்து அமைகிறது . இதனை எவ்வாறு கணினிக்குக் கற்பிப்பது என்பதே சிக்கல் .

%d bloggers like this: