சொல்வகைக் குறியீடு ஒரு சவால் மிகுந்த சிக்கலான பணியாகும். ஏனெனில் அகராதியில் இல்லாத தனிப்பெயர்ச்சொற்கள், மற்ற மொழிச் சொற்கள், மாற்று எழுத்துக்கோர்வை, எழுத்துப் பிழைகள், தெரியாத சொற்கள் போன்றவை வரலாம்.
இயந்திரக் கற்றல் நுட்பங்களைப் பயன்படுத்தி ஆங்கிலத்துக்குப் பல சொல்வகைக் குறியீடு செய்யும் கருவிகள் உருவாக்கப்பட்டுள்ளன. இயந்திரக் கற்றல் நுட்பங்களுடன், விதிகள் சார்ந்த அணுகுமுறைகளைக் கலந்தும் சில கருவிகள் உள்ளன. எனினும், பெரும்பாலானவை உருபனியல் அல்லது சொற்பகுப்பியல் உத்திகளில் கவனம் செலுத்துவதில்லை. அதற்குப் பதிலாக அவர்கள் மிகுதியான குறியீடு செய்த உரைத் தரவுகளையே நம்பியிருக்கிறார்கள். இந்த சொல்வகைக் குறியீடு செய்யும் கருவிகளின் துல்லியம் 93 முதல் 98% வரை உள்ளது. ஆங்கிலத்துக்கு இது பொருத்தமான அணுகலாக இருக்கலாம். ஆனால் இந்திய மொழிகளில் வளங்கள் குறைவாக இருப்பதால் இது உகந்த வழியல்ல. மேலும் பொதுவாக இந்திய மொழிகளை உருவமைப்புப்படி வளமான மொழிகள் என்று சொல்லலாம். இது சில புதிய சிக்கல்களை உண்டாக்குகிறது. இது தவிர, இந்திய மொழிகளுக்கு வாக்கியத்தில் சொல்வரிசை ஒப்பீட்டளவில் கறாரான விதிமுறைப்படி அமைவதில்லை.
கைமுறையாகக் குறியீடு செய்ய செலவு அதிகம். குறைந்த துல்லியம் உள்ள கருவியால் முதலில் குறியீடு செய்து அதைக் கைமுறையாகத் திருத்துதல் வேலையைக் குறைக்கும். இருப்பினும் மொழியியலில் பயிற்சி பெற்றவர்கள்தான் இந்த வேலையைச் செய்ய இயலும்.
மும்பை இந்திய தொழில்நுட்பக் கழகம் இந்தி மொழியில் ஆய்வு
மும்பையிலுள்ள இந்திய தொழில்நுட்பக் கழகத்தினர் இந்தி மொழியில் ஆய்வு செய்து ஒரு ஆய்வறிக்கையை வெளிட்டனர். இந்த வழிமுறை 15 ஆயிரம் சொற்கள் கொண்ட சிறிய உரைத்தொகுப்பைப் பயன்படுத்துகிறது. அதிக சொற்களுள்ள அகராதி, கிளைகளாகப் பிரிந்து முடிவுக்கு வரும் கற்றல் வினைச்சரம், முழுமையான உருபனியல் பகுப்பாய்வு ஆகியவற்றை அடிப்படையாகக் கொண்டது. சொல்வகைக் குறியீடு செய்வதில் தற்போதைய துல்லியம் 93.45% ஆகும். இதை மேலும் மேம்படுத்தக்கூடும்.
உருபனியல்படி வளமான மொழிகளில் ஒரு சொல் பல உருபன்களைக் கொண்டிருக்கலாம். மேலும் அவற்றில் உருபன் எல்லைகளைக் கண்டுபிடிப்பதும் கடினம், ஏனென்றால் அவை ஒன்றாக இணைந்திருக்கும். மேலும் அவை பொதுவாக கட்டற்ற சொல் வரிசையைக் கொண்டுள்ளன. ஆகவே நிலையான சூழல் அமைப்புகளை புள்ளிவிவர அணுகுமுறைகளில் கற்பிக்க இயலாது.
தொடரியல் மற்றும் சொற்பகுப்பியல் பற்றிய விரிவான மொழியியல் பகுப்பாய்வு, பின்னொட்டுகளைக் கையாளுதல், துல்லியமாக வினைக் குழுக்களை அடையாளம் காணுதல் மற்றும் ஐயமகற்றல் விதிகளைக் கற்றல் ஆகியவைதான் இந்த அமைப்புமுறையின் முக்கிய அம்சங்கள்.
இந்தி மொழியில் (குறிப்பாக பெயர்ச்சொற்களிலும் வினைச்சொற்களிலும்) ஒரு சொல்லின் சொல்வகைக் குறியீடுக்கு பின்னொட்டுகள் வலுவான சுட்டிக்காட்டிகள் ஆகும். எடுத்துக்காட்டாக, இந்தியில் ‘ஜாயேகா’ (போவேன்) என்னும் சொல். இது தோன்றுகின்ற சூழலின் அடிப்படை, மற்றும் இது ‘ஜா’ (போ) என்ற அடிச்சொல்லுடன் ‘யேகா’ என்ற பின்னொட்டு இணைந்தது என்பதை வைத்து இது வினைச்சொல் என்று தீர்மானிக்க முடியும். ஒரு சொல் பெயர்ச்சொல்லா அல்லது வினைச்சொல்லா என்று முடிவு செய்ய நாம் பயன்படுத்தும் அடிப்படைத் தத்துவம் ஒரு சொல் பெயரடையா அல்லது வினையடையா என்று முடிவு செய்யப் பயன்படுத்துவதைவிட முற்றிலும் வேறுபட்டது. எடுத்துக்காட்டாக, ‘பர்’ என்ற சொல் இணையிடைச்சொல், பெயர்ச்சொல் அல்லது பின்னிடைச்சொல்லாக இருக்கலாம். ஆகவே இது இணையிடைச்சொல்-பெயர்ச்சொல்-பின்னிடைச்சொல் என்ற ஐயம் திட்டத்தில் சேர்கிறது.
இந்த அணுகுமுறையைத் தமிழ் போன்ற ஒட்டுமுறை மொழிகளுக்குப் பயன்படுத்தலாம். தமிழுக்கான பின்னொட்டு மாற்று விதிகள் (suffix replacement rules – SRRs), சொல்வங்கி, குழு அடையாளம் மற்றும் உருபன் பகுப்பாய்வு விதிகளைத் தயார் செய்தால் போதும்.
மும்பை இந்திய தொழில்நுட்பக் கழகம் மராத்தி மொழியிலும் இதே ஆய்வு
மேற்கண்ட ஆய்வைத் தொடர்ந்து மராத்தி மொழியிலும் ஆய்வு செய்து இந்திய தொழில்நுட்பக் கழகத்தினர் ஒரு ஆய்வறிக்கையை வெளியிடப்பட்டனர். இதன் தலைப்பு “வினைச்சொற்களில்தான் நுட்பம் அடங்கியுள்ளது: உருவமைப்புப்படி வளமான மொழிகளில் வாக்கியங்களைக் கூறுகளாகப் பிரித்ததில் கிடைத்த அனுபவங்கள்”.
உருவமைப்புப்படி வளமான மொழிகளில் (morphologically rich languages) மொழி பற்றிய நுணுக்கம் பயன்படுத்தி பெரிய அளவில் குறியீடு செய்த உரை தேவைப்படுவதைக் குறைக்க முடியும் என்பது இவர்களின் கூற்று. மராத்தி மொழியில் இருபதாயிரம் சொற்கள் மட்டுமே கொண்ட ஒரு சிறிய உரைத்தொகுப்பை வைத்து 94% சரியாக சொல்வகைக் குறியீடும் 97% சரியான வாக்கியங்களைக் கூறுகளாகப் பிரித்தலும் (shallow parsing or chunking) செய்து இதை நிரூபித்துள்ளனர்.
மராத்தி மொழியில் ‘ஜோடணாரா’ (connecting) என்ற சொல்லில் ‘ணாரா’ என்ற பின்னொட்டு வேறெந்தச் சொல் வகையிலும் வராது. ஆகவே இந்தப் பின்னொட்டை மட்டும் பார்த்தே நாம் இதை வினைச்சொல் என்று குறியீடு செய்து விடலாம். வாக்கியங்களைக் கூறுகளாகப் பிரிக்கும்போது, ஒரு வினையாலணையும் பெயர் கொண்டிருக்கும் வாக்கியக் கூறை எப்போதும் VGNN என்று குறியீடு செய்கிறோம். இதேபோல், ஒரு வினையெச்சம் கொண்டிருக்கும் வாக்கியக் கூறை எப்போதும் VGINF என்று குறியீடு செய்கிறோம். ஆகவே, வாககியத்தில் வினையாலணையும் பெயர் மற்றும் வினையெச்சத்தை சரியாக சொல்வகைக் குறியீடு செய்வது முக்கியமாகிறது. மராத்தி மொழியில் “ண்யாச்சா” என்ற பின்னொட்டு வினையாலணையும் பெயருக்கு மட்டுமே வரும். இதேபோல், பின்னொட்டு “யலா” வந்தால் எப்போதுமே அது வினையெச்சம்தான். இம்மாதிரி பின்னொட்டுத் தகவலைப் பயன்படுத்துவதால் ஒரு புள்ளிவிவர சொல்வகைப் படுத்தி முன்பு பார்த்தேயிராத சொற்களையும் குறியீடு செய்ய இயலும்.
ஒப்பீடு செய்ய சில எடுத்துக்காட்டுகளைப் பார்ப்போம். நான் திறந்த மூல RDR சொல்வகைக் குறியிடும் கருவியை தமிழுக்குப் பழக்கியபோது சுமார் 200 ஆயிரம் சொற்கள் கொண்ட குறியீடு செய்த உரைத்தொகுப்பைப் பயன்படுத்தினேன். 90% க்கும் கீழேதான் சரியான குறியீடுகள் செய்தது. வியட்நாம் மொழியில் 630 ஆயிரம் சொற்கள் பயன்படுத்தி இதே RDR சொல்வகைக் குறியிடும் கருவி 93.4% சரியான குறியீடுகள் செய்தது என்று சொன்னார்கள்.
ஆங்கிலம் அளவுக்கு இம்மொழிகளில் வளங்கள் கிடையாது. எனினும் மொழியின் செழுமையைப் பயன்படுத்தி இந்த வளப் பற்றாக்குறையை ஓரளவு ஈடுசெய்ய முடியும். குறிப்பாக, இது போன்ற மொழிகளில் சொல்வகை பற்றிய தகவல்களை பின்னொட்டுகள் நிறைய அடக்கியுள்ளன. இந்த நுட்பத்தை நாம் மேலோட்டமான பாகுபடுத்திக்கு (shallow parser) பயன்படுத்திக் கொள்ளலாம். மேலும், வினைச்சொற்களின் கட்டமைப்பு கண்டிப்பான விதிமுறைப்படிதான் அமைகிறது. முக்கிய வினைச்சொற்கள் மற்றும் துணை வினைச்சொற்களுக்கு இடையே உள்ள தெளிவின்மையைக் குறைக்க நாம் இதைப் பயன்படுத்த முடியும்.
எடுத்துக்காட்டாக, “உடண்யாச்சா” என்ற ஒரு சொல் வந்தால், பயிற்சி தரவில் இல்லாத சொல்லாக இருந்தாலும், பின்னொட்டுத் தகவலையும் பயன்படுத்தும் ஒரு வகைப்படுத்தி, அதன் அடிப்படையிலேயே அதை சரியாக அடையாளம் காண முடியும். ஆனால் புள்ளிவிவரங்களை மட்டுமே பயன்படுத்தும் ஒரு வகைப்படுத்தி அதை சரியாக அடையாளம் காட்டாது.
ஒரு சக்திவாய்ந்த உருபனியல் பகுப்பாய்வியும் (morphological analyzer) அதற்கு ஆதரவாக ஒரு அதிகமான சொற்கள் கொண்ட சொல்வங்கியும் (lexicon) மற்றும் ஒரு எளிய ஆனால் துல்லியமான வினைக் குழு அடையாளங்காட்டியும் (Verb Group Identifier) தேவை. இவற்றை வைத்து ஒரு துல்லியமான அதி நவீன வரிசை வகைப்படுத்தியை (sequence classifier) உருவாக்க முடியும்.
இதைத் தமிழுக்கு செயல்படுத்துவது எப்படி?
இம்மாதிரி மொழிகளுக்கு அவற்றின் அம்சங்களைப் பயன்படுத்தித்தான் ஒரு மிகவும் துல்லியமான வகைப்படுத்தியை உருவாக்க முடியும் என்று காட்டுகிறோம். ஆங்கிலத்தைப் பார்த்து அதே போல பெரிய அளவில் குறியீடு செய்த உரைகளை மட்டுமே நம்பினால் வேலைக்கு ஆகாது. ஆகவே இம்மாதிரி மொழிகளுக்கு உரைகளைக் கைமுறையாகக் குறியீடு செய்வதைவிட நல்ல உருபனியல் பகுப்பாய்வியில் முதலீடு செய்வதே உசிதமானது.
மொழியியலாளர்களுக்கும் நிரலாளர்களுக்கும் நெருங்கிய ஒத்துழைப்பு தேவை என்பதற்கு நல்ல எடுத்துக்காட்டு
மொழியியலாளர்களுக்கும் மென்பொருள் உருவாக்குநர்களுக்கும் இடையே நெருங்கிய ஒத்துழைப்புத் தேவை என்று முன்னொரு கட்டுரையில் கூறினோம். அது சரியென நிறுவ இது ஒரு நல்ல எடுத்துக்காட்டு. ஏனெனில், இதை செயற்படுத்த இரண்டு துறைகளிலுமே அறிவும் அனுபவமும் தேவை. எம்மாதிரி பின்னொட்டுகள் வந்தால் எந்த சொல்வகைக் குறியீடு போடலாம், மற்றும் அதற்கு விதிவிலக்குகள் யாவை என்று கணிக்க மொழியியல் திறன் அவசியம். இந்த வினைச்சரங்களையெல்லாம் நிரலில் எழுதி நன்றாக ஓட வைக்கத் திறமையான நிரலாளர்கள் தேவை.
————
இத்தொடரில் அடுத்த கட்டுரை: சொல்வலையும் சொல்லின் பொருளில் ஐயமகற்றலும்
பழந்தமிழரின் சொற்களின் தரவுத்தளங்கள். ஆங்கிலச் சொல்வலை. தமிழ்ச் சொல்வலை. சொல்லின் பொருளில் ஐயமகற்றல் (Word Sense Disambiguation – WSD).