தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 19. வாக்கியக் கூறு பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

நாம் எண்ணங்களை சொற்களாலும் வாக்கியங்களாலும் வெளிப்படுத்துகிறோம். எல்லா மொழிகளும் சொற்களையும் வாக்கியங்களையும் கொண்டிருக்கின்றன. ஆனால் அவை பல்வேறு வழிகளில் ஒழுங்கமைக்கப்படுகின்றன.

தொடரியல் (syntax)

தொடரியல் என்பது சொற்களை வைத்து எவ்வாறு வாக்கியங்களை அமைக்கிறோம் என்ற வாக்கியக் கட்டமைப்பு ஆய்வு. தமிழ் இலக்கணப்படி எழுவாய் என்பது ஒரு வாக்கியத்தில் செயலைக் காட்டும் சொல்மீது “யார், எது, எவை” என வினவும் போது கிடைக்கும் பதில் ஆகும். செயப்படுபொருள் என்பது “யாரை, எதை, எவற்றை” என்பதின் பதில் ஆகும். பொருள் முடிந்து நிற்கும் வினைச் சொல் நிலை பயனிலை எனப்படுகிறது. ஆங்கிலத்தில் எளிய வாக்கியங்களில் பொதுவாக எழுவாய் (subject) முதலில் வரும், அடுத்து பயனிலை என்னும் வினைச்சொல் (verb), கடைசியாக செயப்படுபொருள் (object). I went home (S-V-O order). மாறாக தமிழில் எளிய வாக்கியங்களில் பொதுவாக எழுவாய் முதலில் வரும், அடுத்து செயப்படுபொருள், கடைசியாக பயனிலை என்னும் வினைச்சொல். நான் வீட்டுக்குப் போனேன் (S-O-V order). இதைத் தமிழில் எ-செ-ப ஒழுங்கு என்று சொல்கிறோம்.

வாக்கியக் கூறாக்கம் (chunking or shallow parsing)

ஒரு வாக்கியத்தில் இரண்டு சொற்களுக்கு இடையில் உள்ள உறவை நீங்கள் கண்டுபிடிக்க விரும்புகிறீர்கள் என்று வைத்துக்கொள்வோம். இந்த வாக்கியத்தைப் பல கிளைகளுள்ள மரம் போல் உருவகிக்கலாம். பாகுபடுத்தி என்னும் கருவியைப் பயன்படுத்தி இந்தக் கிளைப் படத்தை உருவாக்கலாம். ஸ்டான்ஃபோர்ட் பாகுபடுத்தி (Stanford parser) கருவியைப் பயன்படுத்தி ஆங்கில வாக்கியத்தில் சொற்களுக்கு இடையே இலக்கண உறவுகளின் வரைகலை உருவகிப்பை உருவாக்க முடியும்.

இயல் மொழி ஆய்வில் சொல் வகைக் குறியீடு செய்வதால் மட்டுமே உரைகளின் உண்மையான பொருளை சில நேரங்களில் அறிய முடியாது. அதே நேரத்தில் மேற்கண்டபடி பெருமுயற்சி செய்து வாக்கியத்தின் எல்லாக் கிளைகளையும் உருவமைப்புப்படி பிரித்தெடுக்கவும் தேவையில்லை. இவற்றுக்கு இடையில் வாக்கியக் கூறாக்கம் செய்தால் போதும். சொல்வகைக் குறியீடு செய்தபின் நமக்கு “வள்ளுவர்” மற்றும் “கோட்டம்”  இரண்டும் பெயர்ச்சொற்கள் என்று தெரியவரும். தனிச் சொற்களுக்குப் பதிலாக “வள்ளுவர் கோட்டம்” என்ற சொற்றொடரை எடுத்தால்தான் எதைப் பற்றிய உரை என்று கூற இயலும் அல்லவா?

மற்ற மொழிகளுடன் ஒப்பிடும்போது தமிழில் சொல் வரிசைகண்டிப்பான விதிமுறைகள்படி அமைவதில்லை. சொற்கள் முன்னுக்குப் பின் ஓரளவு மாறி வரலாம் (relatively free word order language). ஆனால் வாக்கியக் கூறுகள் (phrases and clauses) அளவில் பார்க்கும்போது சொல் வரிசை கண்டிப்பான விதிமுறைப்படிதான் அமைகிறது.

வாக்கியங்களிலிருந்து சொற்றொடர்களைப் பிரித்தெடுப்பதை வாக்கியக் கூறாக்கம் (sentence chunking) என்று சொல்கிறோம். இதைச் செய்யும் கருவிக்கு மேலோட்டமான பாகுபடுத்தி (shallow parser) என்று பெயர். இக்கருவி சொல் வகைக் குறியீடு செய்த உரையை எடுத்துக் கூறாக்கம் செய்கிறது. சொல் வகைக் குறியீடு போலவே வாக்கியக் கூறுகளிலும் பெயர்ச்சொற்றொடர், வினைச்சொற்றொடர், முன்னிடைச்சொற்றொடர் போன்ற குறியீடுகள் உள்ளன. பெயரிட்ட உருபொருள் அடையாளம் (Named Entity Recognition) காண இந்த வாக்கியக் கூறாக்கம் மிகவும் உதவியானது.

பெயர்ச்சொற்றொடர் கூறாக்கம் உருவாக்க, சொல்வகைக் குறியீடுகளைப் பயன்படுத்துகிறோம். ஆங்கிலத்தில் ஒரு எளிய எடுத்துக்காட்டைப் பார்ப்போம். ஒருக்கால் a, an, the போன்ற சுட்டிடைச் சொல்லில் தொடங்கி, எத்தனை பெயரடைகள் வேண்டுமானாலும் இருந்து, பின்னர் பெயர்ச்சொல் வந்தால் பெயர்ச்சொற்றொடரை (NP) உருவாக்க வேண்டும் என்று விதி கூறுகிறது. இதைத் தேட ஒரு தேடுகுறித்தொடர் (regular expression or Regex) விதிமுறையை உருவாக்க முடியும்.

சொல்வகைக் குறியீடு செய்த உரையை உள்ளீடாகக் கொடுத்து அடுத்த செயல்முறையாக வாக்கியங்களைக் கூறுகளாகப் பிரித்து வாங்குகிறோம். சொல்வகைக் குறியீடு போலவே இதற்கும் வினைச்சொல் சொற்றொடர் (verb phrase – VP) பெயர்ச்சொல் சொற்றொடர் (noun phrase – NP) போன்ற தரமான குறியீடு தொகுப்புகள் உள்ளன.

“the little yellow dog barked at the cat” என்ற வாக்கியத்தை எடுத்துக்கொள்வோம்.

இந்த விதியை வைத்துக் கீழ்க்கண்ட இரண்டு பெயர்ச்சொற்றொடர்களைப் (noun phrase NP) பிரித்தெடுக்கலாம்

(NP the/DT little/JJ yellow/JJ dog/NN)

(NP the/DT cat/NN).

ஐதராபாதிலுள்ள இந்திய தகவல் தொழில்நுட்பக் கழகத்தின் இணையதளத்தில் தமிழுக்கும் மற்ற பல இந்திய மொழிகளுக்கும் ஒரு மேலோட்டமான பாகுபடுத்தியை (shallow parser) தரவிறக்கம் செய்யலாம். அனைத்து வெளியீடுகளும் சக்தி தரநிலை வடிவமைப்பில் (Shakti Standard Format – SSF) உள்ளன. இதை அவர்களுடைய இணையதளத்திலேயே ஓட்டியும் பார்க்கலாம்.

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

கடந்த பத்தாண்டுகளாக வலைத்தளங்கள், வலைப்பதிவுகள், மின்னஞ்சல், அரட்டைகள் போன்ற பல்வேறு ஊடக வகைகள் குறிப்பிடத்தக்க அளவு அதிகரித்துள்ளன. சிறு நகரங்களில் இருந்து உருவாக்கப்படும் உள்ளடக்கங்கள் அதிகரித்து வருகின்றன. குறிப்பாக வணிக நிறுவனங்கள் தங்கள் தயாரிப்புகளிலும் சேவைகளிலும் இப்பெரிய தரவுகளைப் பயன்படுத்தி, பொதுமக்களுடைய பின்னூட்டங்களைத் தெரிந்துகொள்ள ஆர்வமாக உள்ளன.

தனிப்பெயர்சொற்களை கடல், மலை, ஆறுகள், கண்டங்கள் போன்ற புவியியல் அமைப்புகள், நாடுகள், மாநிலங்கள் போன்ற அரசியல் அமைப்புகள், திங்கட்கிழமை போன்ற காலநிலை மற்றும் நிறுவனங்கள், நபர்கள் முதலியனவாக அடையாளம் கண்டு குறியிடுதலை பெயரிட்ட உருபொருள் அடையாளம் காணுதல் என்று கூறுகிறோம்.

இயல்மொழி ஆய்வு சொல்வழக்கில் பெரும்பாலும் ”தனிப்பெயர்ச்சொற்கள்” (Proper Nouns) என்பதற்குப் பதிலாக “பெயரிட்ட உருபொருட்கள்” (Named Entities) என்ற கருத்தைப் பயன்படுத்துகிறோம். பெரும்பாலும் இது ஒன்றுக்கு மேற்பட்ட சொற்களைக் கொண்டுள்ளது.

ஆங்கிலத்தில் பெயரிட்ட உருபொருள் அடையாளம் காணும் கருவிகளைப் பழக்குவதற்காகவே ஜிஎம்பி மொழித் தொகுப்பிலிருந்து ஒரு பகுதியை எடுத்துக் குறியீடு செய்து தயாரித்துள்ளார்கள். ஸ்டான்போர்ட் பெயரிட்ட உருபொருள் (NER) குறியீடு செய்யும் கருவி ஆங்கில மொழிக்கு மட்டுமே வடிவமைக்கப்பட்டுள்ளது. NLTK (Natural Language Toolkit) மற்றும் ஸ்டான்போர்ட் NER குறியீடு செய்யும் கருவியில் இயந்திரக் கற்றல் பயிற்சி அளித்து மற்றொரு மொழிக்கு மாதிரியைத் தயாரித்தது மட்டுமல்லாமல் அதற்கான படிகளையும் விவரமாக இங்கே ஒருவர் எழிதியிருக்கிறார். நல்ல தரமான பெயரிட்ட உருபொருள் குறியிட்ட தமிழ் உரை கிடைத்தால் இதே படிகளைப் பின்பற்றி தமிழுக்கும் பயிற்சி அளிக்க முடியுமா என்று முயற்சி செய்து பார்க்கலாம்.

நடைமுறை எடுத்துக்காட்டு: வாடிக்கையாளர்கள் புகார்களை வகைப்படுத்தி உடன் நடவடிக்கை எடுத்தல்

கட்டமைக்கப்படாத இயல்மொழி உரைகளில் மதிப்பு மிக்க தகவல்கள் நிறைந்துள்ளன. ஆனால் பொருத்தமானது என்னவென்பதைக் கண்டுபிடிப்பது எப்போதும் ஒரு சவாலான பணியாகும். சமூக ஊடகங்கள், மின்னஞ்சல், வலைப்பதிவுகள், செய்திகள் மற்றும் கல்விக் கட்டுரைகளில் இருந்து வரும் விரிவான தரவுகளைப் பாருங்கள். அவற்றிலிருந்து மதிப்பு மிக்க தகவல்களைப் பிரித்தெடுத்தப்பதும், வகைப்படுத்துவதும் மற்றும் கற்றுக்கொள்வதும் மிகவும் கடினமானது ஆனால் மிகவும் அவசியமானது.

வாடிக்கையாளர்களின் கருத்தை சுமுகமான முறையில் கையாளுவதற்குப் பல வழிகள் உள்ளன. பெயரிட்ட உருபொருள் அடையாளம் காணுதல் அவற்றில் ஒன்று. இந்த செயல்முறையைப் புரிந்து கொள்வதற்கு இதோ ஒரு எடுத்துக்காட்டு. நீங்கள் உலகளாவிய பல கிளைகள் கொண்ட ஒரு கடையின் வாடிக்கையாளர் ஆதரவுத் துறைக்கு மேலாளராக இருக்கிறீர்கள் என்று வைத்துக் கொள்வோம். நூற்றுக்கணக்கான மின்னஞ்சல்கள் வருகின்றன. உங்கள் வாடிக்கையாளர்களின் கருத்துகளில் பல குறிப்புகளை நீங்கள் காணலாம். எடுத்துக்காட்டாக, வாடிக்கையாளர் மின்னஞ்சலிலிருந்து, நீங்கள் பெயரிட்ட உருபொருள் அடையாளம் கண்டால், அது மயிலாடுதுறை என்ற இடம் பற்றியது மற்றும் தேங்காய் எண்ணெய் என்ற தயாரிப்பு பற்றியது என்று தெரியவரலாம். புகாரை வகைப்படுத்தவும் நிறுவனத்திற்குள்ளேயே அதைக் கையாளும் கிளைக்கோ அல்லது சம்பந்தப்பட்ட துறைக்கோ அதை ஒதுக்கவும் இந்தத் தகவலைப் பயன்படுத்தலாம்.

———————

இத்தொடரில் அடுத்த கட்டுரை: தமிழின் தனித்தன்மைகளை வைத்து குறியிட்ட உரைகள் தேவையைக் குறைக்க முடியுமா?

மும்பை இந்திய தொழில்நுட்பக் கழகம் இந்தி மொழியில் ஆய்வு. மும்பை இந்திய தொழில்நுட்பக் கழகம் மராத்தி மொழியிலும் இதே ஆய்வு. இதைத் தமிழுக்கு செயல்படுத்துவது எப்படி? மொழியியலாளர்களுக்கும் நிரலாளர்களுக்கும் நெருங்கிய ஒத்துழைப்பு தேவை என்பதற்கு நல்ல எடுத்துக்காட்டு.