தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 19. வாக்கியக் கூறு பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

நாம் எண்ணங்களை சொற்களாலும் வாக்கியங்களாலும் வெளிப்படுத்துகிறோம். எல்லா மொழிகளும் சொற்களையும் வாக்கியங்களையும் கொண்டிருக்கின்றன. ஆனால் அவை பல்வேறு வழிகளில் ஒழுங்கமைக்கப்படுகின்றன.

தொடரியல் (syntax)

தொடரியல் என்பது சொற்களை வைத்து எவ்வாறு வாக்கியங்களை அமைக்கிறோம் என்ற வாக்கியக் கட்டமைப்பு ஆய்வு. தமிழ் இலக்கணப்படி எழுவாய் என்பது ஒரு வாக்கியத்தில் செயலைக் காட்டும் சொல்மீது “யார், எது, எவை” என வினவும் போது கிடைக்கும் பதில் ஆகும். செயப்படுபொருள் என்பது “யாரை, எதை, எவற்றை” என்பதின் பதில் ஆகும். பொருள் முடிந்து நிற்கும் வினைச் சொல் நிலை பயனிலை எனப்படுகிறது. ஆங்கிலத்தில் எளிய வாக்கியங்களில் பொதுவாக எழுவாய் (subject) முதலில் வரும், அடுத்து பயனிலை என்னும் வினைச்சொல் (verb), கடைசியாக செயப்படுபொருள் (object). I went home (S-V-O order). மாறாக தமிழில் எளிய வாக்கியங்களில் பொதுவாக எழுவாய் முதலில் வரும், அடுத்து செயப்படுபொருள், கடைசியாக பயனிலை என்னும் வினைச்சொல். நான் வீட்டுக்குப் போனேன் (S-O-V order). இதைத் தமிழில் எ-செ-ப ஒழுங்கு என்று சொல்கிறோம்.

வாக்கியக் கூறாக்கம் (chunking or shallow parsing)

ஒரு வாக்கியத்தில் இரண்டு சொற்களுக்கு இடையில் உள்ள உறவை நீங்கள் கண்டுபிடிக்க விரும்புகிறீர்கள் என்று வைத்துக்கொள்வோம். இந்த வாக்கியத்தைப் பல கிளைகளுள்ள மரம் போல் உருவகிக்கலாம். பாகுபடுத்தி என்னும் கருவியைப் பயன்படுத்தி இந்தக் கிளைப் படத்தை உருவாக்கலாம். ஸ்டான்ஃபோர்ட் பாகுபடுத்தி (Stanford parser) கருவியைப் பயன்படுத்தி ஆங்கில வாக்கியத்தில் சொற்களுக்கு இடையே இலக்கண உறவுகளின் வரைகலை உருவகிப்பை உருவாக்க முடியும்.

இயல் மொழி ஆய்வில் சொல் வகைக் குறியீடு செய்வதால் மட்டுமே உரைகளின் உண்மையான பொருளை சில நேரங்களில் அறிய முடியாது. அதே நேரத்தில் மேற்கண்டபடி பெருமுயற்சி செய்து வாக்கியத்தின் எல்லாக் கிளைகளையும் உருவமைப்புப்படி பிரித்தெடுக்கவும் தேவையில்லை. இவற்றுக்கு இடையில் வாக்கியக் கூறாக்கம் செய்தால் போதும். சொல்வகைக் குறியீடு செய்தபின் நமக்கு “வள்ளுவர்” மற்றும் “கோட்டம்”  இரண்டும் பெயர்ச்சொற்கள் என்று தெரியவரும். தனிச் சொற்களுக்குப் பதிலாக “வள்ளுவர் கோட்டம்” என்ற சொற்றொடரை எடுத்தால்தான் எதைப் பற்றிய உரை என்று கூற இயலும் அல்லவா?

மற்ற மொழிகளுடன் ஒப்பிடும்போது தமிழில் சொல் வரிசைகண்டிப்பான விதிமுறைகள்படி அமைவதில்லை. சொற்கள் முன்னுக்குப் பின் ஓரளவு மாறி வரலாம் (relatively free word order language). ஆனால் வாக்கியக் கூறுகள் (phrases and clauses) அளவில் பார்க்கும்போது சொல் வரிசை கண்டிப்பான விதிமுறைப்படிதான் அமைகிறது.

வாக்கியங்களிலிருந்து சொற்றொடர்களைப் பிரித்தெடுப்பதை வாக்கியக் கூறாக்கம் (sentence chunking) என்று சொல்கிறோம். இதைச் செய்யும் கருவிக்கு மேலோட்டமான பாகுபடுத்தி (shallow parser) என்று பெயர். இக்கருவி சொல் வகைக் குறியீடு செய்த உரையை எடுத்துக் கூறாக்கம் செய்கிறது. சொல் வகைக் குறியீடு போலவே வாக்கியக் கூறுகளிலும் பெயர்ச்சொற்றொடர், வினைச்சொற்றொடர், முன்னிடைச்சொற்றொடர் போன்ற குறியீடுகள் உள்ளன. பெயரிட்ட உருபொருள் அடையாளம் (Named Entity Recognition) காண இந்த வாக்கியக் கூறாக்கம் மிகவும் உதவியானது.

பெயர்ச்சொற்றொடர் கூறாக்கம் உருவாக்க, சொல்வகைக் குறியீடுகளைப் பயன்படுத்துகிறோம். ஆங்கிலத்தில் ஒரு எளிய எடுத்துக்காட்டைப் பார்ப்போம். ஒருக்கால் a, an, the போன்ற சுட்டிடைச் சொல்லில் தொடங்கி, எத்தனை பெயரடைகள் வேண்டுமானாலும் இருந்து, பின்னர் பெயர்ச்சொல் வந்தால் பெயர்ச்சொற்றொடரை (NP) உருவாக்க வேண்டும் என்று விதி கூறுகிறது. இதைத் தேட ஒரு தேடுகுறித்தொடர் (regular expression or Regex) விதிமுறையை உருவாக்க முடியும்.

சொல்வகைக் குறியீடு செய்த உரையை உள்ளீடாகக் கொடுத்து அடுத்த செயல்முறையாக வாக்கியங்களைக் கூறுகளாகப் பிரித்து வாங்குகிறோம். சொல்வகைக் குறியீடு போலவே இதற்கும் வினைச்சொல் சொற்றொடர் (verb phrase – VP) பெயர்ச்சொல் சொற்றொடர் (noun phrase – NP) போன்ற தரமான குறியீடு தொகுப்புகள் உள்ளன.

“the little yellow dog barked at the cat” என்ற வாக்கியத்தை எடுத்துக்கொள்வோம்.

இந்த விதியை வைத்துக் கீழ்க்கண்ட இரண்டு பெயர்ச்சொற்றொடர்களைப் (noun phrase NP) பிரித்தெடுக்கலாம்

(NP the/DT little/JJ yellow/JJ dog/NN)

(NP the/DT cat/NN).

ஐதராபாதிலுள்ள இந்திய தகவல் தொழில்நுட்பக் கழகத்தின் இணையதளத்தில் தமிழுக்கும் மற்ற பல இந்திய மொழிகளுக்கும் ஒரு மேலோட்டமான பாகுபடுத்தியை (shallow parser) தரவிறக்கம் செய்யலாம். அனைத்து வெளியீடுகளும் சக்தி தரநிலை வடிவமைப்பில் (Shakti Standard Format – SSF) உள்ளன. இதை அவர்களுடைய இணையதளத்திலேயே ஓட்டியும் பார்க்கலாம்.

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

பெயரிட்ட உருபொருள் அடையாளம் காணுதல்

கடந்த பத்தாண்டுகளாக வலைத்தளங்கள், வலைப்பதிவுகள், மின்னஞ்சல், அரட்டைகள் போன்ற பல்வேறு ஊடக வகைகள் குறிப்பிடத்தக்க அளவு அதிகரித்துள்ளன. சிறு நகரங்களில் இருந்து உருவாக்கப்படும் உள்ளடக்கங்கள் அதிகரித்து வருகின்றன. குறிப்பாக வணிக நிறுவனங்கள் தங்கள் தயாரிப்புகளிலும் சேவைகளிலும் இப்பெரிய தரவுகளைப் பயன்படுத்தி, பொதுமக்களுடைய பின்னூட்டங்களைத் தெரிந்துகொள்ள ஆர்வமாக உள்ளன.

தனிப்பெயர்சொற்களை கடல், மலை, ஆறுகள், கண்டங்கள் போன்ற புவியியல் அமைப்புகள், நாடுகள், மாநிலங்கள் போன்ற அரசியல் அமைப்புகள், திங்கட்கிழமை போன்ற காலநிலை மற்றும் நிறுவனங்கள், நபர்கள் முதலியனவாக அடையாளம் கண்டு குறியிடுதலை பெயரிட்ட உருபொருள் அடையாளம் காணுதல் என்று கூறுகிறோம்.

இயல்மொழி ஆய்வு சொல்வழக்கில் பெரும்பாலும் ”தனிப்பெயர்ச்சொற்கள்” (Proper Nouns) என்பதற்குப் பதிலாக “பெயரிட்ட உருபொருட்கள்” (Named Entities) என்ற கருத்தைப் பயன்படுத்துகிறோம். பெரும்பாலும் இது ஒன்றுக்கு மேற்பட்ட சொற்களைக் கொண்டுள்ளது.

ஆங்கிலத்தில் பெயரிட்ட உருபொருள் அடையாளம் காணும் கருவிகளைப் பழக்குவதற்காகவே ஜிஎம்பி மொழித் தொகுப்பிலிருந்து ஒரு பகுதியை எடுத்துக் குறியீடு செய்து தயாரித்துள்ளார்கள். ஸ்டான்போர்ட் பெயரிட்ட உருபொருள் (NER) குறியீடு செய்யும் கருவி ஆங்கில மொழிக்கு மட்டுமே வடிவமைக்கப்பட்டுள்ளது. NLTK (Natural Language Toolkit) மற்றும் ஸ்டான்போர்ட் NER குறியீடு செய்யும் கருவியில் இயந்திரக் கற்றல் பயிற்சி அளித்து மற்றொரு மொழிக்கு மாதிரியைத் தயாரித்தது மட்டுமல்லாமல் அதற்கான படிகளையும் விவரமாக இங்கே ஒருவர் எழிதியிருக்கிறார். நல்ல தரமான பெயரிட்ட உருபொருள் குறியிட்ட தமிழ் உரை கிடைத்தால் இதே படிகளைப் பின்பற்றி தமிழுக்கும் பயிற்சி அளிக்க முடியுமா என்று முயற்சி செய்து பார்க்கலாம்.

நடைமுறை எடுத்துக்காட்டு: வாடிக்கையாளர்கள் புகார்களை வகைப்படுத்தி உடன் நடவடிக்கை எடுத்தல்

கட்டமைக்கப்படாத இயல்மொழி உரைகளில் மதிப்பு மிக்க தகவல்கள் நிறைந்துள்ளன. ஆனால் பொருத்தமானது என்னவென்பதைக் கண்டுபிடிப்பது எப்போதும் ஒரு சவாலான பணியாகும். சமூக ஊடகங்கள், மின்னஞ்சல், வலைப்பதிவுகள், செய்திகள் மற்றும் கல்விக் கட்டுரைகளில் இருந்து வரும் விரிவான தரவுகளைப் பாருங்கள். அவற்றிலிருந்து மதிப்பு மிக்க தகவல்களைப் பிரித்தெடுத்தப்பதும், வகைப்படுத்துவதும் மற்றும் கற்றுக்கொள்வதும் மிகவும் கடினமானது ஆனால் மிகவும் அவசியமானது.

வாடிக்கையாளர்களின் கருத்தை சுமுகமான முறையில் கையாளுவதற்குப் பல வழிகள் உள்ளன. பெயரிட்ட உருபொருள் அடையாளம் காணுதல் அவற்றில் ஒன்று. இந்த செயல்முறையைப் புரிந்து கொள்வதற்கு இதோ ஒரு எடுத்துக்காட்டு. நீங்கள் உலகளாவிய பல கிளைகள் கொண்ட ஒரு கடையின் வாடிக்கையாளர் ஆதரவுத் துறைக்கு மேலாளராக இருக்கிறீர்கள் என்று வைத்துக் கொள்வோம். நூற்றுக்கணக்கான மின்னஞ்சல்கள் வருகின்றன. உங்கள் வாடிக்கையாளர்களின் கருத்துகளில் பல குறிப்புகளை நீங்கள் காணலாம். எடுத்துக்காட்டாக, வாடிக்கையாளர் மின்னஞ்சலிலிருந்து, நீங்கள் பெயரிட்ட உருபொருள் அடையாளம் கண்டால், அது மயிலாடுதுறை என்ற இடம் பற்றியது மற்றும் தேங்காய் எண்ணெய் என்ற தயாரிப்பு பற்றியது என்று தெரியவரலாம். புகாரை வகைப்படுத்தவும் நிறுவனத்திற்குள்ளேயே அதைக் கையாளும் கிளைக்கோ அல்லது சம்பந்தப்பட்ட துறைக்கோ அதை ஒதுக்கவும் இந்தத் தகவலைப் பயன்படுத்தலாம்.

———————

இத்தொடரில் அடுத்த கட்டுரை: தமிழின் தனித்தன்மைகளை வைத்து குறியிட்ட உரைகள் தேவையைக் குறைக்க முடியுமா?

மும்பை இந்திய தொழில்நுட்பக் கழகம் இந்தி மொழியில் ஆய்வு. மும்பை இந்திய தொழில்நுட்பக் கழகம் மராத்தி மொழியிலும் இதே ஆய்வு. இதைத் தமிழுக்கு செயல்படுத்துவது எப்படி? மொழியியலாளர்களுக்கும் நிரலாளர்களுக்கும் நெருங்கிய ஒத்துழைப்பு தேவை என்பதற்கு நல்ல எடுத்துக்காட்டு.

%d bloggers like this: