Tag Archives: தமிழ்

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 26. சொற்பிழைத் திருத்தி

தமிழுக்குச் சொல்திருத்தியே தேவையில்லை என்றொரு கருத்து ஆங்கிலத்தில் உச்சரிப்பை வைத்து எழுத்துக்கோர்வை சொல்ல முடியாது. ஆகவே எழுத்துப்பிழைகள் நிகழ்வதற்கான சாத்தியங்கள் உள்ளன. தமிழிலோ எப்படி உச்சரிப்போ அப்படியே எழுதுகிறோம் (Phonetic language). ஆகவே தமிழுக்குச் சொல்திருத்தியே தேவையில்லை என்றொரு கருத்து நிலவுகிறது.   ஆனால் மயங்கொலி என்று சொல்லப்படும் ல-ள-ழ, ண-ந-ன, ர-ற ஆகியவற்றில் எது சரி என்று தெரியாமல் நாம் தவறு செய்கிறோம். மேலும் ‘fat finger’ என்று ஆங்கிலத்தில் கூறப்படும் தவறான விசையை அழுத்துவதால்… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 25. தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

இயந்திர மொழிபெயர்ப்புக்கு மூன்று வகையான அணுகல்கள் உள்ளன. இவை விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு (Rule-Based Machine Translation – RBMT), புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு (Statistical Machine Translation – SMT) மற்றும் கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பு. விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு விதி சார்ந்த இயந்திர மொழிபெயர்ப்பில் இந்த இரண்டு வகைகள் உண்டு. மேலோட்டமான மொழிமாற்றம் (Shallow transfer) மற்றும் ஆழ்ந்த மொழிமாற்றம் (Deep transfer). அபெர்டியம் (Apertium) ஒரு கட்டற்ற திறந்த… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 24. இயல்மொழி ஆய்வு கருவித் தொடரி

இயல்மொழி ஆய்வில் எந்தவொரு வேலையை நிறைவேற்றவும் பல பணிகளை ஒன்றன்பின் ஒன்றாகச் செயல்படுத்த வேண்டும். எந்தவொரு சிறிய வேலைக்குக் கூட பெரும்பாலும் கீழ்க்கண்ட பணிகள் இன்றியமையாதவை: வாக்கியங்களைப் பிரித்தல் சொற்களைப் (நிறுத்தற் குறிகளையும் சேர்த்து) பிரித்தல் சொல்வகைக் குறியீடு செய்தல் அடிச்சொல்லையோ, தண்டுச்சொல்லையோ பிரித்தெடுத்தல் இதன் பின்னர், தேவையைப் பொருத்து, சார்புநிலைப் பிரிப்பியை வைத்து கிளைப்பட வங்கிகளாகவோ அல்லது சொற்பகுப்பியல் ஆய்வியை வைத்து உருபன்களாகவோ பிரிப்போம். ஆக, குறைந்த பட்சம் ஐந்தாறு பணிகளை ஒன்றன்பின் ஒன்றாகச் செயல்படுத்துவோம்.… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 23. சார்புநிலை பிரிப்பி, சுட்டுப்பெயர் தீர்வு, தலைப்பு பிரித்தெடுத்தல்

சார்புநிலை பிரிப்பி இயல்மொழியைப் புரிந்து கொள்வது கடினமானது!  “I saw a girl with a telescope” என்ற வாக்கியத்தைப் பாருங்கள். தொலைநோக்கி வைத்திருந்த பெண்ணை நீங்கள் பார்த்தீர்களா அல்லது நீங்கள் தொலைநோக்கி மூலம் பார்த்தீர்களா? இது ஆங்கில எடுத்துக்காட்டு. எனினும் தமிழிலும் இதே பிரச்சினை உள்ளது. “ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வத்தில் சட்டசபையில் காங்கிரஸ் உறுப்பினர்கள் பேச ஆரம்பித்ததும் அ.தி.மு.கவினர் குறுக்கீடு செய்தனர்.” என்று செய்தித் தலைப்பு. ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வம் காங்கிரஸுக்கா அல்லது அ.தி.மு.கவினருக்கா? இம்மாதிரி… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 22. அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

பகுதி விகுதி இடைநிலை சாரியை சந்தி விகாரம் ஆறினும் ஏற்பவை முன்னிப் புணர்ப்ப முடியும் எப்பதங்களும் நன்னூல். பதவியல் – 133 (13 ஆம் நூற்றாண்டில் பவணந்தி முனிவரால் எழுதப்பட்ட தமிழ் இலக்கண நூல்) சொற்பகுப்பியல் (morphology) சொற்கள் எப்படி சிறிய அலகுகளால் உருவாக்கப்படுகின்றன என்ற சொல் கட்டமைப்பு ஆய்வை சொற்பகுப்பியல் அல்லது உருபனியல் என்று சொல்கிறோம். சொல் என்பது என்ன? மொழியை எழுதும்போது, சொல் என்பது இரு இடைவெளிகளுக்கு இடையே இருப்பது என்று நாம் சொல்லலாம். ஆனால்… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 21. சொல்வலையும் சொல்லின் பொருளில் ஐயமகற்றலும்

அடுத்து வரும் நான்கு வாக்கியங்களைப் பாருங்கள். அவன் வீட்டிற்குச் சென்று இட்லி சாப்பிட்டான். பின்னர் அவன் சமையலறையைச் சுத்தம் செய்து விட்டு நாற்காலியில் அமர்ந்தான். சிறிது நேரம் கழித்து, அவன் இருக்கையில் இருந்து எழுந்தான். அவன் படுக்கைக்குச் சென்றான், சில நிமிடங்களில் அவன் சத்தமாகக் குறட்டை விட்டான். இயல்மொழி செயலாக்கத்தில், வாக்கியங்களின் பொருளை அறிய கணினி நிரல்களைப் பயன்படுத்துகிறோம். மேலே உள்ள நான்கு வாக்கியங்களில், சொல்வலை (wordnet) உதவியுடன், கணினி நிரலால் பின்வருவனவற்றை அடையாளம் காண முடியும்.… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 20. தமிழின் தனித்தன்மைகளை வைத்துக் குறியிட்ட உரைகள் தேவையைக் குறைக்க முடியுமா?

சொல்வகைக் குறியீடு ஒரு சவால் மிகுந்த சிக்கலான பணியாகும். ஏனெனில் அகராதியில் இல்லாத தனிப்பெயர்ச்சொற்கள், மற்ற மொழிச் சொற்கள், மாற்று எழுத்துக்கோர்வை, எழுத்துப் பிழைகள், தெரியாத சொற்கள் போன்றவை வரலாம். இயந்திரக் கற்றல் நுட்பங்களைப் பயன்படுத்தி ஆங்கிலத்துக்குப் பல சொல்வகைக் குறியீடு செய்யும் கருவிகள் உருவாக்கப்பட்டுள்ளன. இயந்திரக் கற்றல் நுட்பங்களுடன், விதிகள் சார்ந்த அணுகுமுறைகளைக் கலந்தும் சில கருவிகள் உள்ளன. எனினும், பெரும்பாலானவை உருபனியல் அல்லது சொற்பகுப்பியல் உத்திகளில் கவனம் செலுத்துவதில்லை. அதற்குப் பதிலாக அவர்கள் மிகுதியான… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 19. வாக்கியக் கூறு பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

நாம் எண்ணங்களை சொற்களாலும் வாக்கியங்களாலும் வெளிப்படுத்துகிறோம். எல்லா மொழிகளும் சொற்களையும் வாக்கியங்களையும் கொண்டிருக்கின்றன. ஆனால் அவை பல்வேறு வழிகளில் ஒழுங்கமைக்கப்படுகின்றன. தொடரியல் (syntax) தொடரியல் என்பது சொற்களை வைத்து எவ்வாறு வாக்கியங்களை அமைக்கிறோம் என்ற வாக்கியக் கட்டமைப்பு ஆய்வு. தமிழ் இலக்கணப்படி எழுவாய் என்பது ஒரு வாக்கியத்தில் செயலைக் காட்டும் சொல்மீது “யார், எது, எவை” என வினவும் போது கிடைக்கும் பதில் ஆகும். செயப்படுபொருள் என்பது “யாரை, எதை, எவற்றை” என்பதின் பதில் ஆகும். பொருள்… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 17. உரையும் பேச்சும் கொண்ட மொழித்தொகுப்பு

மொழியியல் பகுப்பாய்வுக்கு அடிப்படையாக இருக்கும், உரையும் பதிவு செய்த பேச்சும் கொண்ட தொகுப்புகளை, மொழித்தொகுப்பு (corpus) என்று சொல்கிறோம். ஆங்கில மொழித்தொகுப்புகளின் வரலாறு 100 மில்லியன் சொற்கள் கொண்ட பிரிட்டானிய நாட்டு மொழித்தொகுப்பு (BNC), பர்மிங்ஹாம் மொழித்தொகுப்பு, லன்காஸ்டர் ஆங்கில பேச்சுத் தொகுப்பு முதலிய தொகுப்புகள் ஆங்கில மொழிக்குப் பிரபலமானவை. இருமொழி மொழித்தொகுப்புகள் இரண்டு மொழிகளின் மொழிபெயர்ப்பைக் கொண்டிருக்கும். ஐரோப்பிய ஒன்றிய முன்முயற்சி (ECI) பலமொழித்தொகுப்பு ஆகும். இது துருக்கிய, ஜப்பானிய, ரஷ்ய, சீன மற்றும் பிற மொழிகளில்… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 16. தகவல் தொழில்நுட்ப உதவியுடன் நீங்களும் ஒரு எழுத்தாளராகலாம்

வெளியீடு செய்த எழுத்தாளராக ஆவதற்கு இதுதான் வரலாற்றிலேயே சிறந்த காலம் என்று நீங்கள் கேள்விப்பட்டிருக்கலாம். அது உண்மைதான். நூலாசிரியர்கள் முன்னர் இருந்ததை விட வாசகர்களை அடைய அதிக வாய்ப்புகளை கொண்டுள்ளனர். மேலும் தங்கள் படைப்புகளை வெளியீடு செய்வதில் முன்னை விட அதிகமான கட்டுப்பாட்டை எடுத்துக் கொள்ள விரும்பினால், அதுவும் சாத்தியமே. மேலும் புத்தகங்களை விநியோகம் செய்வதில் வந்த மாற்றங்களால் ஒவ்வொரு வாசகருக்கும் எந்தப் புத்தகமும் எங்கு வேண்டுமானாலும் எப்போது வேண்டுமானாலும் கிடைக்கும். இணையப்  புத்தகக் கடை அலமாரிகள்… Read More »