தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 21. சொல்வலையும் சொல்லின் பொருளில் ஐயமகற்றலும்

அடுத்து வரும் நான்கு வாக்கியங்களைப் பாருங்கள்.

  • அவன் வீட்டிற்குச் சென்று இட்லி சாப்பிட்டான்.
  • பின்னர் அவன் சமையலறையைச் சுத்தம் செய்து விட்டு நாற்காலியில் அமர்ந்தான்.
  • சிறிது நேரம் கழித்து, அவன் இருக்கையில் இருந்து எழுந்தான்.
  • அவன் படுக்கைக்குச் சென்றான், சில நிமிடங்களில் அவன் சத்தமாகக் குறட்டை விட்டான்.

இயல்மொழி செயலாக்கத்தில், வாக்கியங்களின் பொருளை அறிய கணினி நிரல்களைப் பயன்படுத்துகிறோம். மேலே உள்ள நான்கு வாக்கியங்களில், சொல்வலை (wordnet) உதவியுடன், கணினி நிரலால் பின்வருவனவற்றை அடையாளம் காண முடியும்.

  • “இட்லி” என்பது ஒரு உணவு வகை.
  • “சமையலறை” என்பது “வீடு” என்பதன் ஒரு பகுதி.
  • “நாற்காலி” என்பது “இருக்கை” என்பதே.
  • “குறட்டை” என்பது “தூக்கம்” என்பதைக் குறிப்பால் உணர்த்துகிறது.

சுருக்கமாக, சொல்வலை என்பது சொற்பொருள் உறவுகளால் ஒன்றாக இணைக்கப்பட்ட தமிழ்ச் சொற்களின் தரவுத்தளமாகும். இது மிகையேற்றிய அகராதி மற்றும் நிகண்டு போன்றது. ஒரு சொல்லின் பொருளையே தரும் இன்னொரு சொல்லை நேர்ச்சொல் (synonym) என்கிறோம். இம்மாதிரி ஒரு பொருளைத் தரும் பல சொற்களைத் திரட்டினால் அதை நேர்ச்சொல் தொகுப்பு (synonym set or synset) எனலாம். பெயர்ச்சொற்கள், வினைச்சொற்கள், பெயரடை மற்றும் வினையடை சொற்கள் நேர்ச்சொல் தொகுப்புகளாகப் (synsets) பிரிக்கப்படுகின்றன. ஒவ்வொறு நேர்ச்சொல் தொகுப்பும் ஒரு தனித்துவமான கருத்தை வெளிப்படுத்துகிறது.

பழந்தமிழரின் சொற்களின் தரவுத்தளங்கள்

உரிச்சொல் அல்லது உரிச்சொற் பனுவல் என்பவை சொற்களுக்கு விளக்கம் தரும் நூல்களைக் குறிக்கும். இவை நிகண்டுகளுக்கும், அகரமுதலிகளுக்கும் முன்னோடியாகக் கருதப்படுகின்றன. நிகண்டுகளில் ஒருபொருட் பல்பெயர், ஒருசொற் பல்பொருள், தொகைப்பெயர் என்னும் மூன்று பெரும் பிரிவுகள் உண்டு. பிற்கால நிகண்டுகள் ஒரு பொருளைத் தரும் பலசொற்களையும் திரட்டித் தந்தன. திவாகர நிகண்டு என்னும் நிகண்டு நூல் கிபி 8 ஆம் நூற்றாண்டில் வாழ்ந்த திவாகர முனிவர் என்பவரால் இயற்றப்பட்டது. ஒத்த கருத்துடைய சொற்களை ஓரிடத்தில் சேர்த்துக் கொடுப்பது, தெஸாரஸ்  (thesauras) ஆகும். திவாகர நிகண்டின் முதல் பத்துத் தொகுதிகளும் இவ்வமைப்பைக் கொண்டவை. சொற்களுக்குப் பொருள் கூறும் அகராதி நூல் கி.பி. 16 ஆம் நூற்றாண்டில் வாழ்ந்த இரேவண சித்தர் என்பவரால் இயற்றப்பட்டது. இதுவே அகரவரிசையில் அமைந்த முதல் அகராதி. இவை யாவும் செய்யுள் வடிவில் அமைந்தவை.

ஆங்கிலச் சொல்வலை

1985 இல் உளவியல் பேராசிரியரான ஜார்ஜ் ஆர்மிடேஜ் மில்லரின் தலைமையில் பிரின்ஸ்டன் பல்கலைக்கழக உணர்வு அறிவியல் ஆய்வகத்தில் முதல் ஆங்கிலச் சொல்வலை உருவாக்கப்பட்டது. நவம்பர் 2012 இல் ஆங்கிலச் சொல்வலை தரவுத்தளத்தில் மொத்தம் 155 ஆயிரம் சொற்கள் 175 ஆயிரம் நேர்ச்சொல் தொகுப்பில் 207 ஆயிரம் சொல்லுக்கான பொருள் இணைகளாக உள்ளன.

தமிழ்ச் சொல்வலை

நேர்ச்சொல் தொகுப்புகள் மற்ற நேர்ச்சொல் தொகுப்புகளுடன் உறவுகளை முறைப்படுத்தி கருத்துருக்களின் அடுக்குவரிசை அமைப்பை உருவாக்குகின்றன. எடுத்துக்காட்டாக,  ‘உயிரினம்’ போன்ற மிகவும் பொதுவான வகையிலிருந்து ஆரம்பித்து ‘விலங்கு’ போன்ற இடைப்பட்ட வகை, பின்னர் ‘எருமை மாடு’ போன்ற மிகவும் குறிப்பிட்ட வகை வரை.

பல உட்பிரிவுகளை உள்ளடக்கியப் பெரும்பிரிவுகள் (hypernyms) மிகவும் பொதுவானவை. துல்லியமாகக் குறிக்கப்படும் உட்பிரிவுகள் (hyponyms) மிகவும் குறிப்பிட்டவை. எருமை மாடு விலங்குகளின் ஒரு வகையாக இருக்கிறது என்று கூறலாம். இதை “ஒரு வகை (is a type of)” உறவு என்று கூறுகிறோம். Meronym என்பது மற்றொன்றின் ஒரு பகுதியைக் குறிக்கும் ஒரு சொல். மூக்கு (meronym) என்பது முகத்தில் “ஒரு பகுதி (is a part of)”. Holonym என்பது ஒரு முழுமையைக் குறிக்கும் சொல். வேறு சொற்கள் அதன் பகுதிகளைக் குறிக்கும். இந்த சிலை (holonym) களிமண்ணால் “செய்யப்பட்டது (is made of)”. சுருக்கமாகச் சொல்லப்போனால் சொல்வலை என்பது சொற்பொருள் உறவுகளால் ஒன்றாக இணைக்கப்பட்ட தமிழ் சொற்களின் தரவுத்தளமாகும். இது வரைபட அமைப்பிலுள்ள (graph structure) மிகையூட்டம் செய்யப்பட்ட அகராதி மற்றும் நிகண்டு போன்றது.

ஒத்த பொருட்களை அடிப்படையாகக் கொண்ட சொற்களை ஒன்றாகத் தொகுப்பதால் சொல்வலை ஒரு நிகண்டுவை (thesaurus) மேலோட்டமாக ஒத்திருக்கிறது. எனினும், சில முக்கியமான வேறுபாடுகள் உள்ளன. முதலாவதாக, சொல்வலையிலுள்ள சொற்களின் எழுத்துச் சரங்களை மட்டுமல்ல, சொற்களின் குறிப்பிட்ட பொருள் உணர்வையும் இணைக்கின்றன. இதன் விளைவாக, பிணையத்தில் ஒன்றோடு ஒன்று நெருங்கிய தொடர்பில் காணப்படும் சொற்கள் சொற்பொருளியல் ரீதியாக ஐயமகற்றப்படுகின்றன. இரண்டாவதாக, சொற்களில் சொற்பொருள் உறவுகளை சொல்வலை அடையாளப்படுத்துகிறது. ஆனால் நிகண்டுவில் உள்ள சொற்களின் தொகுப்புகள் பொருள் ஒற்றுமை தவிர வேறெந்த வெளிப்படையான வடிவத்தையும் பின்பற்றுவதில்லை.

சொல்வலையின் உறவுகளின் பெரும்பகுதி, ஒரே சொல்வகையிலுள்ள (POS) சொற்களை இணைக்கிறது. இவ்வாறு, சொல்வலையில் பெயர்ச்சொற்கள், வினைச்சொற்கள், பெயரடை மற்றும் வினையடை ஒவ்வொன்றுக்கும் உண்மையில் நான்கு துணை வலைகள் உள்ளன.

மும்பையிலுள்ள இந்திய தொழில்நுட்பக் பயிலகம் 18 இந்திய மொழிகளுக்கான சொல்வலைகளைத் தயாரித்திருக்கிறது. தமிழ்ச் சொல்வலையில் 16,312 பெயர்ச்சொற்கள், 2803 வினைச்சொற்கள், 5827 பெயரடைகள் மற்றும் 477 வினையடைகள் உள்ளன. இந்தி சொல்வலை மற்றும் அதன் நிரலாக்க இடைமுகம் குனு பொது உரிமம் (GPL) 3.0 மற்றும் சொற் களஞ்சியம் (Lexicon) குனு கட்டற்ற ஆவணங்கள் (FDL) உரிமம் கீழ் வெளியிடப்பட்டுள்ளன. மற்ற மொழிகளும் இதே உரிமங்களில்தான் இருக்க வேண்டும். இவற்றை பதிவிறக்கம் செய்ய இந்தப் படிவத்தை நிரப்பிக் கோரிக்கை அனுப்ப வேண்டும்.

இதன் இணையதளத்தில் ‘படி’ என்ற சொல்லைத் தேடினால் கீழ்க்கண்ட விவரம் கிடைக்கிறது:

Number of Synset for “படி”  : 12

Synset ID : 5954

POS : verb

Synonyms : படி,  வாசி, உச்சரி,

Gloss : புத்தகம்,கவிதை,கதை கடிதம் போன்றவற்றை உச்சரிப்பது

Example statement : “மோஹித் தன் அப்பாவின் கடித்தத்தை படித்துக் கொண்டிருந்தான்”

Gloss in English : interpret something that is written or printed; “read the advertisement”; “Have you read Salman Rushdie?”

Other Synsets: பயணப்படி, குளத்தின் படி, கற்றுக்கொள், பாலில் ஆடை படிந்துள்ளது, தானியத்தை அளக்கும் பாத்திரம், சட்டையில் கறை படிந்திருக்கிறது முதலியன.

சொல்லின் பொருளில் ஐயமகற்றல் (Word Sense Disambiguation – WSD)

இயந்திர மொழிபெயர்ப்பு, தகவல் மீட்பு, வினாவிற்கு விடை அளிப்பது போன்ற பயன்பாடுகளுக்கு சொல்லின் பொருளில் ஐயமகற்றல் மிகவும் முக்கியத்துவம் வாய்ந்தது. எடுத்துக்காட்டாக, தமிழில் இருந்து ஆங்கிலத்துக்கு இயந்திர மொழிபெயர்ப்பு செய்யும்போது ‘ஆறு’ என்ற சொல் வந்தால் முதலில் அது ‘நீர்வழி’ என்ற பொருளில் வந்ததா அல்லது ‘ஒரு எண்’ என்ற பொருளில் வந்ததா என்று தீர்மானிக்க வேண்டும். அதன் பின்னரே அதற்குச் சரியான ஆங்கிலச் சொல் தேர்ந்தெடுக்க முடியும்.

சொல்லின் பொருளில் ஐயமகற்றலுக்கு 1986 ஆம் ஆண்டில் மைக்கேல் லெஸ்க் (Michael Lesk) அறிமுகப்படுத்திய வினைச்சரம் முக்கியமானது. ஒரு சொல்லின் அக்கம்பக்கத்துச் சொற்கள் அதே பொதுவான தலைப்பைப் பகிர்ந்து கொள்கின்றன என்ற கருத்தை இந்த வினைச்சரம் அடிப்படையாகக் கொண்டது. இயல்மொழி கருவித்தொகுதி (Natural Language ToolKit – NLTK) என்பது பைதான் மொழியில் இயல்மொழி ஆய்வுக்கான கருவித்தொகுதி. இது சொல்லின் பொருளில் ஐயமகற்றலுக்கு சொல்வலை பயன்படுத்தி செம்மையான லெஸ்க் வழிமுறையை செயல்படுத்துகிறது. ஒரு தெளிவற்ற சொல்லையும் அதன் சூழல் வாக்கியத்தையும் கொடுத்தால், சூழல் வாக்கியத்திற்கும் நேர்ச்சொல் தொகுப்பின் சொற்பொருள் விளக்கத்துக்கும் இடையில் மிக அதிகமான சொற்களைப் பொதுவாகக் கொண்ட ஒரு நேர்ச்சொல் தொகுப்பை லெஸ்க் வினைச்சரம் தேர்வு செய்து தரும்.

ashokramach@gmail.com

——————–

இத்தொடரில் அடுத்த கட்டுரை: அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

சொற்பகுப்பியல் (morphology). அடிச்சொல் பிரிப்பி (Lemmatizer or Lemma extractor). ஆங்கில தண்டுச்சொல் பிரிப்பி (Stemmer). தமிழ் தண்டுச்சொல் பிரிப்பி. ஆங்கிலத்திலும் மற்ற மொழிகளிலும் சொற்பகுப்பாய்வு (morphological analysis). தமிழில் உருபனியல் ஆய்வு.

%d bloggers like this: