தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 23. சார்புநிலை பிரிப்பி, சுட்டுப்பெயர் தீர்வு, தலைப்பு பிரித்தெடுத்தல்

சார்புநிலை பிரிப்பி

இயல்மொழியைப் புரிந்து கொள்வது கடினமானது! “I saw a girl with a telescope” என்ற வாக்கியத்தைப் பாருங்கள். தொலைநோக்கி வைத்திருந்த பெண்ணை நீங்கள் பார்த்தீர்களா அல்லது நீங்கள் தொலைநோக்கி மூலம் பார்த்தீர்களா? இது ஆங்கில எடுத்துக்காட்டு. எனினும் தமிழிலும் இதே பிரச்சினை உள்ளது. “ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வத்தில் சட்டசபையில் காங்கிரஸ் உறுப்பினர்கள் பேச ஆரம்பித்ததும் அ.தி.மு.கவினர் குறுக்கீடு செய்தனர்.” என்று செய்தித் தலைப்பு. ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வம் காங்கிரஸுக்கா அல்லது அ.தி.மு.கவினருக்கா? இம்மாதிரி வாக்கியக் கட்டமைப்பில் தெளிவின்மைக்கு முறையான வழியில் தீர்வு காண வாக்கியத்தை “பாகுபடுத்தல் (Parsing)” செய்ய வேண்டும்.

பாகுபடுத்தியில் இரண்டு வகைகள் உள்ளன. சொற்றொடர் அமைப்பு (Phrase structure) பாகுபடுத்தி சொற்றொடர்களை அடையாளம் காணுவதில் கவனம் செலுத்துகிறது. சார்புநிலை (Dependency) பாகுபடுத்தி சொற்களிடையே உறவுகளில் கவனம் செலுத்துகிறது. சார்புநிலை பாகுபடுத்தியில் இரண்டு விதங்கள். முதலாவதில் சொற்களுக்கு இடையில் உறவைக் குறிக்க வகை விவரச் சீட்டு போடுவோம். இரண்டாவதில் வகை விவரச் சீட்டு கிடையாது. எந்த சொற்கள் மற்ற எந்த சொற்களைச் சார்ந்துள்ளன என்று கோடு போட்டு மட்டும் காட்டுவோம். பாகுபடுத்தியின் வெளியீடு பொதுவாக CoNLL (Conference on Natural Language Learning) கோப்பு வடிவத்தில் இருக்கும். XML வடிவத்திலும் வெளியிடப்படலாம்.

இவற்றில் சார்பு நிலை ஆய்வுதான் தமிழ் போன்ற கட்டற்ற சொல் வரிசை கொண்ட மொழிகளுக்குத் தகுந்தது. வினைச் சொல்லைக் கட்டமைப்பின் மையத்தில் வைத்து மற்ற சொற்கள் அதன்மீது நேரடியாகவோ அல்லது மறைமுகமாகவோ சார்ந்து இருப்பதை ஆய்வு செய்கிறோம்.

கிளைப்பட வங்கி

சொல்வகைக் குறியீடு செய்த தொகுப்பை எடுத்து அதற்கு அடுத்த படியாக சார்புநிலை ஆய்வு செய்து கிளைப்பட வங்கி தயாரிக்கிறோம். இதை ஓரளவு தானியங்கியாகத் தயாரிக்கலாம். முதலில் சார்புநிலை பிரிப்பியை ஓட்டி வெளியீடு செய்யலாம். பின்னர் மொழியியலாளர்கள் இதை சரி பார்க்கலாம். இவ்வாறு ஆய்வு செய்து குறியிட்ட உரைத்தொகுப்பை கிளைப்பட வங்கி (treebank) என்று சொல்கிறோம்.

இயந்திரக் கற்றல் மூலம் பாகுபடுத்தி தயார் செய்ய இம்மாதிரி கிளைப்பட வங்கிகள் அவசியம் தேவை. உலக மொழிகளில் ஒரு சில மொழிகளுக்குத் தான் இம்மாதிரி கிளைப்பட வங்கிகள் தயார் செய்யப்பட்டுள்ளன. இந்திய மொழிகளில் இந்திக்கு மட்டுமே கிளைப்பட வங்கி உள்ளது. உலகத்தில் அனேகமாக மற்ற எல்லா மொழிகளுக்கும் இம்மாதிரி கிளைப்பட வங்கிகள் திறந்த மூலமாகவோ அல்லது ஆய்வுக்கு மட்டும் இலவசமாகவோ கிடைக்கின்றன. ஆனால் இந்திக்குக் கிடையாது. அவர்களுடைய இணையதளத்திற்குச் சென்று பார்த்தால் முதலில் பதிவு செய்யச் சொல்கிறார்கள். தெலுங்கு மொழிக்கு ஒரு மில்லியன் சொற்கள் கொண்ட கிளைப்பட வங்கி தயாரித்துக் கொண்டிருக்கிறார்களாம்.

செக் குடியரசு நாட்டில் சார்லஸ் பல்கலைக்கழகத்தில் லோகநாதன் ராமசாமி 600 வாக்கியங்கள் மட்டுமே கொண்ட தமிழ் கிளைப்பட வங்கி தயாரித்திருக்கிறார். TrEd என்பது கிளைப்படம் போன்ற கட்டமைப்புகளைப் பார்க்கவும், மாற்றங்கள் செய்யவும் உதவும் திறந்த மூல மென்பொருள். குனு பொது உரிமம் (GPL) கீழ் கிடைக்கிறது. இதைப் பதிவிறக்கி நிறுவினால் மேற்கண்ட கோப்பைத் திறந்து கிளைப்படங்களைப் பார்க்கவும், விரும்பினால் மாற்றங்கள் செய்யவும் முடியும்.

சார்புநிலை பிரிப்பி திறந்த மூல பைதான் நிரல்

2014 இல் அமெரிக்கா கார்னகி மெல்லான் பல்கலைக்கழகத்தில் பிரதீப் பிரபாகர் ரவீந்திரன் தமிழுக்கு சார்புநிலை பிரிப்பிக்கான பைதான் நிரலை திறந்த மூலமாக கிட்ஹப்பில் வெளியிட்டுள்ளார். இந்த நிரலால் அடைய முடிந்த மிகச்சிறந்த அடையாளமிடாத சார்பு நிலை இணைப்பு மதிப்பெண் (unlabeled dependency attachment score) ஒரு உரையில் 69.7% மற்றொரு உரையில் 67.9%. “இந்தத் திட்டத்தில் ஒரு பெரிய பின்னடைவு என்னவென்றால் நல்ல தரமான சொல் பிரிப்பி மற்றும் உருபனியல் பகுப்பாய்வுக் கருவிகளின் பற்றாக்குறைதான். ‘அம்’, ‘ஆக’ போன்ற பல்வேறு இடைச்சொற்களைப் பிரிக்க சொல் பிரிப்பிகள் இருந்தால் நிச்சயமாக தரத்தை மேம்படுத்த முடியும்.” என்று இவர் சொல்கிறார். சார்புநிலை குறியீடு செய்யும் நிரலுடன் சேர்த்து கிளைப்படங்களாக குறியீடு செய்த ஒரு உரைத்தொகுப்பும் வெளியீடு செய்யப்போவதாகச் சொன்னார்கள். ஆனால் அது பின்னர் வெளிவந்ததா என்று தெரியவில்லை.

HamleDT (HArmonized Multi-LanguagE Dependency Treebank) என்ற திட்டத்தின் கீழ் பல மொழிகளின் ஒத்திசைவான சார்புநிலை கிளைப்பட வங்கிகள், பொதுவான குறியீடு பாணியில் தொகுத்துள்ளார்கள். 29 மொழிகளின் கிளைப்படங்களை ஆய்வு செய்து, வேறுபாடுகள் பட்டியல் தயாரித்துள்ளார்கள். இதில் தமிழும் ஒன்று. CoNLL வடிவத்திலும் XML வடிவத்திலும் பதிவிறக்கம் செய்யலாம்.

சுட்டுப்பெயர் தீர்வு

சுட்டுப்பெயர் தீர்வு (Coreference resolution or Anaphora resolution) என்பது ஒரு உரையில் உள்ள அதே உருபொருளைக் குறிக்கும் அனைத்துச் சொற்றொடர்களையும் கண்டுபிடிக்கும் பணியாகும். ஆவணச் சுருக்கம், கேள்வி பதில் மற்றும் தகவல் பிரித்தெடுத்தல் போன்ற உயர் நிலை இயல் மொழிப் புரிதல் பணிகளுக்கு இது ஒரு முக்கியமான படியாகும்.

இதையே வேறு விதமாகச் சொல்லலாம். ஒரு உரையைப் பற்றிய சரியான விளக்கம் பெற, அதிலுள்ள சுட்டுப்பெயர்களையும் மற்றும் பிற குறிப்பிடும் சொற்களையும் சரியான நபர்களுடனோ அல்லது பொருளுடனோ இணைக்க வேண்டும். அந்த உரையில் குறிப்பிடப்பட்டுள்ள பல்வேறு நபர்களின் மற்றும் பொருள்களின் முக்கியத்துவத்தை மதிப்பிடவும் இதுவே தேவைப்படுகிறது. எடுத்துக்காட்டாக, ஒரு உரையில் “அப்துல் கலாம்” மற்றும் “அவர்கள்” என்று இருந்தால் அவை இரண்டும் அதே நபரைத்தான் குறிப்பிடுகின்றனவா என்று தீர்வு செய்ய வேண்டும்.

சுட்டுப்பெயர் தீர்வு எடுத்துக்காட்டு

ஸ்டான்போர்ட் CoreNLP திறந்த மூல இயல்மொழிக் கருவிகள் தொகுப்பில் CorefAnnotator என்ற ஒரு சுட்டுப்பெயர் தீர்வுக் கருவி உள்ளது. மூன்று வகையான சுட்டுப்பெயர் தீர்வுக் கருவிகள் உள்ளன. ஒன்று விதிமுறை சார்ந்தது, வேகமாக ஓடும். இரண்டாவது புள்ளிவிவரம் சார்ந்தது. மூன்றாவது நரம்பியல் அடிப்படையிலானது, மிகவும் துல்லியமானது ஆனால் மெதுவாக ஓடும். இதைப் பயிற்றுவிக்கும் நிரல் பைதானில் எழுதியது. எந்த மொழிக்கும் பழக்கலாம் என்று சொல்கிறார்கள். பயிற்றுவிக்க தரவு CoNLL வடிவத்தில் இருக்க வேண்டும். வரைபடச் செயலகம் (GPU) சில்லு உள்ள கணினி தேவை. இதுவரை ஆங்கிலம் மற்றும் சீன மொழிகளுக்கு மட்டுமே பயிற்சி அளிக்கப்பட்டுள்ளது. ஆகவே தமிழுக்குப் பழக்க முடியுமா என்று தெரியவில்லை.

தலைப்பு பிரித்தெடுத்தல்

ஒரு ஆவணம் எதைப் பற்றியது என்று தெரிய வேண்டுமானால் அதைப் படித்துத் தான் பார்க்க வேண்டும். நீங்கள் ஒரு பத்திரிகை அலுவலகத்தில் வேலை பார்க்கிறீர்கள் என்று வைத்துக் கொள்வோம். பல ஆண்டுகளாக வெளியிடப்பட்ட பல்லாயிரக்கணக்கான கட்டுரைகளை ஏழெட்டு தலைப்புகளில் பிரிக்கச் சொல்கிறார்கள். கணினியைப் பயன்படுத்தி தலைப்பு பிரித்தெடுப்பது (Topic Extraction or Modeling) இந்த வேலையை எளிதாக்கும். இம்மாதிரி வேலையைப் பொதுவாக உரை சுரங்கவேலை (text mining) என்றும் சொல்கிறோம்.

ஒரு குறிப்பிட்ட தலைப்பைப் பற்றிய ஆவணத்தில் அந்தத் தலைப்பு பற்றிய சொற்கள் அதிகமாக இருக்கும் என்று உள்ளுணர்வாகச் சொல்லலாம். எடுத்துக்காட்டாக, ஒரு ஆவணத்தில் ‘மருத்துவர்’, ‘நோயாளி’, ‘மருத்துவமனை’ போன்ற சொற்கள் அடிக்கடி வந்தால் அதன் தலைப்பு ‘நலம்’ என்றும் ‘பண்ணை’, ‘பயிர்’, ‘நெல்’ போன்ற சொற்கள் அடிக்கடி வந்தால் அதன் தலைப்பு ‘விவசாயம்’ என்றும் கூறலாம்.

மாசசூசெட்ஸ் பல்கலையில் மேலட் (MALLET) திறந்த மூலத் திட்டம் புள்ளிவிவர மற்றும் இயந்திரக் கற்றல் அடிப்படையிலான ஆவண வகைப்பாடு, தொகுப்பு, தலைப்பு மாதிரியாக்கம், தகவல் பிரித்தெடுத்தல் மற்றும் பிற இயல்மொழி கருவிகளை வெளியீடு செய்துள்ளது. இது ஜாவா நிரலாக்க மொழியில் எழுதப்பட்டது. இயக்கத்திலுள்ள இந்தத் திட்டத்துக்கு 30 நிரலாளர்கள் பங்களிக்கிறார்கள். இந்த திட்டத்தை விரும்பி 626 பயனர்கள் விண்மீன் குறியீடு அளித்துள்ளனர். சொற்குறிகளைப் பிரித்து உள்ளீடு செய்துவிட்டால் இது எந்த மொழிக்கும் வேலை செய்யும் என்று சொல்கிறார்கள்.

——————–

இத்தொடரில் அடுத்த கட்டுரை: இயல்மொழி ஆய்வு கருவித் தொடரி

தற்பொழுது கிடைக்கும் இயல்மொழி ஆய்வுக் கருவிகள். இரைச்சலை அகற்றல் (Noise removal). வாக்கியங்களைப் பிரித்தல் (Sentence segmentation). சொற்களையும் நிறுத்தற் குறிகளையும் பிரித்தல் (Tokenization). நடைமுறை எடுத்துக்காட்டு: வியட்நாமிய இயல்மொழி ஆய்வு குழாய்த்தொடர்.

சார்புநிலை பிரிப்பி

கிளைப்பட வங்கி

சார்புநிலை பிரிப்பி திறந்த மூல பைதான் நிரல்

சுட்டுப்பெயர் தீர்வு

தலைப்பு பிரித்தெடுத்தல்

Like this:

Related

Leave a ReplyCancel reply

சார்புநிலை பிரிப்பி

கிளைப்பட வங்கி

சார்புநிலை பிரிப்பி திறந்த மூல பைதான் நிரல்

சுட்டுப்பெயர் தீர்வு

தலைப்பு பிரித்தெடுத்தல்

பகிர்ந்து கொள்க

Like this:

Related

Leave a ReplyCancel reply