சார்புநிலை பிரிப்பி
இயல்மொழியைப் புரிந்து கொள்வது கடினமானது! “I saw a girl with a telescope” என்ற வாக்கியத்தைப் பாருங்கள். தொலைநோக்கி வைத்திருந்த பெண்ணை நீங்கள் பார்த்தீர்களா அல்லது நீங்கள் தொலைநோக்கி மூலம் பார்த்தீர்களா? இது ஆங்கில எடுத்துக்காட்டு. எனினும் தமிழிலும் இதே பிரச்சினை உள்ளது. “ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வத்தில் சட்டசபையில் காங்கிரஸ் உறுப்பினர்கள் பேச ஆரம்பித்ததும் அ.தி.மு.கவினர் குறுக்கீடு செய்தனர்.” என்று செய்தித் தலைப்பு. ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வம் காங்கிரஸுக்கா அல்லது அ.தி.மு.கவினருக்கா? இம்மாதிரி வாக்கியக் கட்டமைப்பில் தெளிவின்மைக்கு முறையான வழியில் தீர்வு காண வாக்கியத்தை “பாகுபடுத்தல் (Parsing)” செய்ய வேண்டும்.
பாகுபடுத்தியில் இரண்டு வகைகள் உள்ளன. சொற்றொடர் அமைப்பு (Phrase structure) பாகுபடுத்தி சொற்றொடர்களை அடையாளம் காணுவதில் கவனம் செலுத்துகிறது. சார்புநிலை (Dependency) பாகுபடுத்தி சொற்களிடையே உறவுகளில் கவனம் செலுத்துகிறது. சார்புநிலை பாகுபடுத்தியில் இரண்டு விதங்கள். முதலாவதில் சொற்களுக்கு இடையில் உறவைக் குறிக்க வகை விவரச் சீட்டு போடுவோம். இரண்டாவதில் வகை விவரச் சீட்டு கிடையாது. எந்த சொற்கள் மற்ற எந்த சொற்களைச் சார்ந்துள்ளன என்று கோடு போட்டு மட்டும் காட்டுவோம். பாகுபடுத்தியின் வெளியீடு பொதுவாக CoNLL (Conference on Natural Language Learning) கோப்பு வடிவத்தில் இருக்கும். XML வடிவத்திலும் வெளியிடப்படலாம்.
இவற்றில் சார்பு நிலை ஆய்வுதான் தமிழ் போன்ற கட்டற்ற சொல் வரிசை கொண்ட மொழிகளுக்குத் தகுந்தது. வினைச் சொல்லைக் கட்டமைப்பின் மையத்தில் வைத்து மற்ற சொற்கள் அதன்மீது நேரடியாகவோ அல்லது மறைமுகமாகவோ சார்ந்து இருப்பதை ஆய்வு செய்கிறோம்.
கிளைப்பட வங்கி
சொல்வகைக் குறியீடு செய்த தொகுப்பை எடுத்து அதற்கு அடுத்த படியாக சார்புநிலை ஆய்வு செய்து கிளைப்பட வங்கி தயாரிக்கிறோம். இதை ஓரளவு தானியங்கியாகத் தயாரிக்கலாம். முதலில் சார்புநிலை பிரிப்பியை ஓட்டி வெளியீடு செய்யலாம். பின்னர் மொழியியலாளர்கள் இதை சரி பார்க்கலாம். இவ்வாறு ஆய்வு செய்து குறியிட்ட உரைத்தொகுப்பை கிளைப்பட வங்கி (treebank) என்று சொல்கிறோம்.
இயந்திரக் கற்றல் மூலம் பாகுபடுத்தி தயார் செய்ய இம்மாதிரி கிளைப்பட வங்கிகள் அவசியம் தேவை. உலக மொழிகளில் ஒரு சில மொழிகளுக்குத் தான் இம்மாதிரி கிளைப்பட வங்கிகள் தயார் செய்யப்பட்டுள்ளன. இந்திய மொழிகளில் இந்திக்கு மட்டுமே கிளைப்பட வங்கி உள்ளது. உலகத்தில் அனேகமாக மற்ற எல்லா மொழிகளுக்கும் இம்மாதிரி கிளைப்பட வங்கிகள் திறந்த மூலமாகவோ அல்லது ஆய்வுக்கு மட்டும் இலவசமாகவோ கிடைக்கின்றன. ஆனால் இந்திக்குக் கிடையாது. அவர்களுடைய இணையதளத்திற்குச் சென்று பார்த்தால் முதலில் பதிவு செய்யச் சொல்கிறார்கள். தெலுங்கு மொழிக்கு ஒரு மில்லியன் சொற்கள் கொண்ட கிளைப்பட வங்கி தயாரித்துக் கொண்டிருக்கிறார்களாம்.
செக் குடியரசு நாட்டில் சார்லஸ் பல்கலைக்கழகத்தில் லோகநாதன் ராமசாமி 600 வாக்கியங்கள் மட்டுமே கொண்ட தமிழ் கிளைப்பட வங்கி தயாரித்திருக்கிறார். TrEd என்பது கிளைப்படம் போன்ற கட்டமைப்புகளைப் பார்க்கவும், மாற்றங்கள் செய்யவும் உதவும் திறந்த மூல மென்பொருள். குனு பொது உரிமம் (GPL) கீழ் கிடைக்கிறது. இதைப் பதிவிறக்கி நிறுவினால் மேற்கண்ட கோப்பைத் திறந்து கிளைப்படங்களைப் பார்க்கவும், விரும்பினால் மாற்றங்கள் செய்யவும் முடியும்.
சார்புநிலை பிரிப்பி திறந்த மூல பைதான் நிரல்
2014 இல் அமெரிக்கா கார்னகி மெல்லான் பல்கலைக்கழகத்தில் பிரதீப் பிரபாகர் ரவீந்திரன் தமிழுக்கு சார்புநிலை பிரிப்பிக்கான பைதான் நிரலை திறந்த மூலமாக கிட்ஹப்பில் வெளியிட்டுள்ளார். இந்த நிரலால் அடைய முடிந்த மிகச்சிறந்த அடையாளமிடாத சார்பு நிலை இணைப்பு மதிப்பெண் (unlabeled dependency attachment score) ஒரு உரையில் 69.7% மற்றொரு உரையில் 67.9%. “இந்தத் திட்டத்தில் ஒரு பெரிய பின்னடைவு என்னவென்றால் நல்ல தரமான சொல் பிரிப்பி மற்றும் உருபனியல் பகுப்பாய்வுக் கருவிகளின் பற்றாக்குறைதான். ‘அம்’, ‘ஆக’ போன்ற பல்வேறு இடைச்சொற்களைப் பிரிக்க சொல் பிரிப்பிகள் இருந்தால் நிச்சயமாக தரத்தை மேம்படுத்த முடியும்.” என்று இவர் சொல்கிறார். சார்புநிலை குறியீடு செய்யும் நிரலுடன் சேர்த்து கிளைப்படங்களாக குறியீடு செய்த ஒரு உரைத்தொகுப்பும் வெளியீடு செய்யப்போவதாகச் சொன்னார்கள். ஆனால் அது பின்னர் வெளிவந்ததா என்று தெரியவில்லை.
HamleDT (HArmonized Multi-LanguagE Dependency Treebank) என்ற திட்டத்தின் கீழ் பல மொழிகளின் ஒத்திசைவான சார்புநிலை கிளைப்பட வங்கிகள், பொதுவான குறியீடு பாணியில் தொகுத்துள்ளார்கள். 29 மொழிகளின் கிளைப்படங்களை ஆய்வு செய்து, வேறுபாடுகள் பட்டியல் தயாரித்துள்ளார்கள். இதில் தமிழும் ஒன்று. CoNLL வடிவத்திலும் XML வடிவத்திலும் பதிவிறக்கம் செய்யலாம்.
சுட்டுப்பெயர் தீர்வு
சுட்டுப்பெயர் தீர்வு (Coreference resolution or Anaphora resolution) என்பது ஒரு உரையில் உள்ள அதே உருபொருளைக் குறிக்கும் அனைத்துச் சொற்றொடர்களையும் கண்டுபிடிக்கும் பணியாகும். ஆவணச் சுருக்கம், கேள்வி பதில் மற்றும் தகவல் பிரித்தெடுத்தல் போன்ற உயர் நிலை இயல் மொழிப் புரிதல் பணிகளுக்கு இது ஒரு முக்கியமான படியாகும்.
இதையே வேறு விதமாகச் சொல்லலாம். ஒரு உரையைப் பற்றிய சரியான விளக்கம் பெற, அதிலுள்ள சுட்டுப்பெயர்களையும் மற்றும் பிற குறிப்பிடும் சொற்களையும் சரியான நபர்களுடனோ அல்லது பொருளுடனோ இணைக்க வேண்டும். அந்த உரையில் குறிப்பிடப்பட்டுள்ள பல்வேறு நபர்களின் மற்றும் பொருள்களின் முக்கியத்துவத்தை மதிப்பிடவும் இதுவே தேவைப்படுகிறது. எடுத்துக்காட்டாக, ஒரு உரையில் “அப்துல் கலாம்” மற்றும் “அவர்கள்” என்று இருந்தால் அவை இரண்டும் அதே நபரைத்தான் குறிப்பிடுகின்றனவா என்று தீர்வு செய்ய வேண்டும்.
ஸ்டான்போர்ட் CoreNLP திறந்த மூல இயல்மொழிக் கருவிகள் தொகுப்பில் CorefAnnotator என்ற ஒரு சுட்டுப்பெயர் தீர்வுக் கருவி உள்ளது. மூன்று வகையான சுட்டுப்பெயர் தீர்வுக் கருவிகள் உள்ளன. ஒன்று விதிமுறை சார்ந்தது, வேகமாக ஓடும். இரண்டாவது புள்ளிவிவரம் சார்ந்தது. மூன்றாவது நரம்பியல் அடிப்படையிலானது, மிகவும் துல்லியமானது ஆனால் மெதுவாக ஓடும். இதைப் பயிற்றுவிக்கும் நிரல் பைதானில் எழுதியது. எந்த மொழிக்கும் பழக்கலாம் என்று சொல்கிறார்கள். பயிற்றுவிக்க தரவு CoNLL வடிவத்தில் இருக்க வேண்டும். வரைபடச் செயலகம் (GPU) சில்லு உள்ள கணினி தேவை. இதுவரை ஆங்கிலம் மற்றும் சீன மொழிகளுக்கு மட்டுமே பயிற்சி அளிக்கப்பட்டுள்ளது. ஆகவே தமிழுக்குப் பழக்க முடியுமா என்று தெரியவில்லை.
தலைப்பு பிரித்தெடுத்தல்
ஒரு ஆவணம் எதைப் பற்றியது என்று தெரிய வேண்டுமானால் அதைப் படித்துத் தான் பார்க்க வேண்டும். நீங்கள் ஒரு பத்திரிகை அலுவலகத்தில் வேலை பார்க்கிறீர்கள் என்று வைத்துக் கொள்வோம். பல ஆண்டுகளாக வெளியிடப்பட்ட பல்லாயிரக்கணக்கான கட்டுரைகளை ஏழெட்டு தலைப்புகளில் பிரிக்கச் சொல்கிறார்கள். கணினியைப் பயன்படுத்தி தலைப்பு பிரித்தெடுப்பது (Topic Extraction or Modeling) இந்த வேலையை எளிதாக்கும். இம்மாதிரி வேலையைப் பொதுவாக உரை சுரங்கவேலை (text mining) என்றும் சொல்கிறோம்.
ஒரு குறிப்பிட்ட தலைப்பைப் பற்றிய ஆவணத்தில் அந்தத் தலைப்பு பற்றிய சொற்கள் அதிகமாக இருக்கும் என்று உள்ளுணர்வாகச் சொல்லலாம். எடுத்துக்காட்டாக, ஒரு ஆவணத்தில் ‘மருத்துவர்’, ‘நோயாளி’, ‘மருத்துவமனை’ போன்ற சொற்கள் அடிக்கடி வந்தால் அதன் தலைப்பு ‘நலம்’ என்றும் ‘பண்ணை’, ‘பயிர்’, ‘நெல்’ போன்ற சொற்கள் அடிக்கடி வந்தால் அதன் தலைப்பு ‘விவசாயம்’ என்றும் கூறலாம்.
மாசசூசெட்ஸ் பல்கலையில் மேலட் (MALLET) திறந்த மூலத் திட்டம் புள்ளிவிவர மற்றும் இயந்திரக் கற்றல் அடிப்படையிலான ஆவண வகைப்பாடு, தொகுப்பு, தலைப்பு மாதிரியாக்கம், தகவல் பிரித்தெடுத்தல் மற்றும் பிற இயல்மொழி கருவிகளை வெளியீடு செய்துள்ளது. இது ஜாவா நிரலாக்க மொழியில் எழுதப்பட்டது. இயக்கத்திலுள்ள இந்தத் திட்டத்துக்கு 30 நிரலாளர்கள் பங்களிக்கிறார்கள். இந்த திட்டத்தை விரும்பி 626 பயனர்கள் விண்மீன் குறியீடு அளித்துள்ளனர். சொற்குறிகளைப் பிரித்து உள்ளீடு செய்துவிட்டால் இது எந்த மொழிக்கும் வேலை செய்யும் என்று சொல்கிறார்கள்.
——————–
இத்தொடரில் அடுத்த கட்டுரை: இயல்மொழி ஆய்வு கருவித் தொடரி
தற்பொழுது கிடைக்கும் இயல்மொழி ஆய்வுக் கருவிகள். இரைச்சலை அகற்றல் (Noise removal). வாக்கியங்களைப் பிரித்தல் (Sentence segmentation). சொற்களையும் நிறுத்தற் குறிகளையும் பிரித்தல் (Tokenization). நடைமுறை எடுத்துக்காட்டு: வியட்நாமிய இயல்மொழி ஆய்வு குழாய்த்தொடர்.