தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 22. அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

பகுதி விகுதி இடைநிலை சாரியை சந்தி விகாரம் ஆறினும் ஏற்பவை முன்னிப் புணர்ப்ப முடியும் எப்பதங்களும் நன்னூல். பதவியல் – 133 (13 ஆம் நூற்றாண்டில் பவணந்தி முனிவரால் எழுதப்பட்ட தமிழ் இலக்கண நூல்) சொற்பகுப்பியல் (morphology) சொற்கள் எப்படி சிறிய அலகுகளால் உருவாக்கப்படுகின்றன என்ற சொல் கட்டமைப்பு ஆய்வை சொற்பகுப்பியல் அல்லது உருபனியல் என்று சொல்கிறோம். சொல் என்பது என்ன? மொழியை எழுதும்போது, சொல் என்பது இரு இடைவெளிகளுக்கு இடையே இருப்பது என்று நாம் சொல்லலாம். ஆனால்… Read More »

அமேசான் இணையச்சேவைகள் – நேட் நுழைவாயில்கள்

தனிப்பட்ட துணைஇணையங்களிலுள்ள மேகக்கணினிகளுக்கு இணைய இணைப்பை வழங்குவதற்கு நேட் நுழைவாயில்கள் உதவுகின்றன. இணைய இணைப்பு கிடைத்துவிட்டால், பொதுத் துணைஇணையத்திற்கும் தனிப்பட்ட துணைஇணையத்திற்கும் வேறுபாடு இல்லாமல் போய்விடாதா? இணையத்திலிருக்கும் எவராலும், தனிப்பட்ட துணைஇணையத்தை நேட் நுழைவாயில் வழியாக அணுகமுடியுமா? இவற்றுக்கு விடைகாண்பதற்கு நேட் என்றால் என்னவென்று அறிந்துகொள்வது அவசியம். இணையமுகவரி மாற்றம் – Network Address Translation (NAT) சுருக்கமாகச் சொல்லவேண்டுமானால், நேட் என்பது இடைத்தரகர் போல. தனிப்பட்ட துணைஇணையத்திலிருக்கும் மேகக்கணினியிலிருந்து துவங்கப்படும் இணையப் போக்குவரத்து, நேட் சாதனங்கள்… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 21. சொல்வலையும் சொல்லின் பொருளில் ஐயமகற்றலும்

அடுத்து வரும் நான்கு வாக்கியங்களைப் பாருங்கள். அவன் வீட்டிற்குச் சென்று இட்லி சாப்பிட்டான். பின்னர் அவன் சமையலறையைச் சுத்தம் செய்து விட்டு நாற்காலியில் அமர்ந்தான். சிறிது நேரம் கழித்து, அவன் இருக்கையில் இருந்து எழுந்தான். அவன் படுக்கைக்குச் சென்றான், சில நிமிடங்களில் அவன் சத்தமாகக் குறட்டை விட்டான். இயல்மொழி செயலாக்கத்தில், வாக்கியங்களின் பொருளை அறிய கணினி நிரல்களைப் பயன்படுத்துகிறோம். மேலே உள்ள நான்கு வாக்கியங்களில், சொல்வலை (wordnet) உதவியுடன், கணினி நிரலால் பின்வருவனவற்றை அடையாளம் காண முடியும்.… Read More »

அமேசான் இணையச்சேவைகள் – தனிப்பயன் விபிசி

இதுவரையில் நாம் விபிசியின் கூறுகளைப் பற்றியும், ஒவ்வொரு கணக்கிற்கும் அமேசான் உருவாக்கிக் கொடுக்கிற இயல்நிலை விபிசி பற்றியும் அறிந்தோம். அமேசான் இணையச்சேவைகளை முதன்முதலாகப் பயன்படுத்துவோருக்கு, விபிசி பற்றிய எந்தவொரு சிக்கலும் நேராதவண்ணம் இயல்நிலை விபிசிக்கள் பார்த்துக்கொள்கின்றன. முன்னதாக நாம் ஒரு மேகக்கணினியை உருவாக்கியபோதும், அதிலிருந்து ஒரு வலைத்தளத்தை இயக்கியபோதும், விபிசியின் இருப்பைக் கூட நாம் அறிந்திருக்கவில்லை. தொடக்கநிலையில் இருப்போருக்கு இது போதுமானது. ஆனால், பல்வேறு பயனர்களைக் கொண்டவொரு வலைத்தளத்தையோ, செயலியையோ கட்டமைக்கும்போது, இயல்நிலை விபிசிக்கள் மட்டுமே போதுமானதாக… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 20. தமிழின் தனித்தன்மைகளை வைத்துக் குறியிட்ட உரைகள் தேவையைக் குறைக்க முடியுமா?

சொல்வகைக் குறியீடு ஒரு சவால் மிகுந்த சிக்கலான பணியாகும். ஏனெனில் அகராதியில் இல்லாத தனிப்பெயர்ச்சொற்கள், மற்ற மொழிச் சொற்கள், மாற்று எழுத்துக்கோர்வை, எழுத்துப் பிழைகள், தெரியாத சொற்கள் போன்றவை வரலாம். இயந்திரக் கற்றல் நுட்பங்களைப் பயன்படுத்தி ஆங்கிலத்துக்குப் பல சொல்வகைக் குறியீடு செய்யும் கருவிகள் உருவாக்கப்பட்டுள்ளன. இயந்திரக் கற்றல் நுட்பங்களுடன், விதிகள் சார்ந்த அணுகுமுறைகளைக் கலந்தும் சில கருவிகள் உள்ளன. எனினும், பெரும்பாலானவை உருபனியல் அல்லது சொற்பகுப்பியல் உத்திகளில் கவனம் செலுத்துவதில்லை. அதற்குப் பதிலாக அவர்கள் மிகுதியான… Read More »

அமேசான் இணையச்சேவைகள் – அணுக்கக் கட்டுப்பாட்டுப் பட்டியல்கள்

பாதுகாப்புக்குழுக்கள் என்பவை மேகக்கணினிகளின் தீச்சுவர்களாகச் (Firewalls) செயல்படுகின்றன என முந்தைய பதிவில் அறிந்தோம். அதைப்போலவே, ஒரு துணைஇணையத்தின் தீச்சுவராக, அணுக்கக் கட்டுப்பாட்டுப் பட்டியல்கள் (Access Control Lists) செயல்படுகின்றன. மேகக்கணினிகளைப் பொருத்தவரையில், பாதுகாப்புக்குழுக்களும், அணுக்கக் கட்டுப்பாட்டுப் பட்டியல்களும் இணைந்து இரண்டடுக்கு பாதுகாப்பினை வழங்குகிறது. தனக்குக் கொடுக்கப்பட்டுள்ள விதிகளின் அடிப்படையில், அணுக்கக் கட்டுப்பாட்டுப் பட்டியல்கள், துணைஇணையத்தின் உள்வருகிற மற்றும் வெளிச்செல்கிற இணையப் போக்குவரத்தினைக் கட்டுப்படுத்துகிறது. இவ்விதிகளை அதிநுணுக்கமாகக் கட்டமைக்கமுடியும். அதாவது, குறிப்பிட்ட நெறிமுறையைப் (Protocol) பயன்படுத்தி, குறிப்பிட்டத் துறை… Read More »

Machine Learning – 3 – PAC Method

Probably Approximately Correct (PAC Method) ஒரு கணிப்பான் மூலம் நிகழ்த்தப்படும் கணிப்பு எவ்வளவு தூரம் சரியானதாக இருக்கும், அதனை எவ்வளவு தூரம் நம்பலாம் என்பது போன்ற விஷயங்கள் எல்லாம் இந்த method-ல் கணக்கிடப்படுகிறது. முதலில் ஒரு கணிப்பானின் கணிப்பு probably approximately correct -ஆக அமைவதற்கு அவற்றில் என்னென்ன பண்புகளெல்லாம் இருக்க வேண்டும் என்பதை ஒருசில வரையறைகள் கொண்டு சோதிக்கிறது. அதாவது over-fitting இல்லாமல் இருக்கிறதா, inductive bias பெற்று விளங்குகிறதா,i.i.d  முறையில் பயிற்சித் தரவுகள் அளிக்கப்பட்டுள்ளதா,அதன் sample… Read More »

Machine Learning – 2 – Statistical Learning

Statistical Learning புள்ளி விவரங்களைக் கொண்டு கற்பதே இயந்திர வழிக்கற்றலின் அடிப்படை. எந்த ஒரு கணிப்பும் தரவுகளாக அளிக்கப்படும் புள்ளி விவரங்களின் அடிப்படையிலேயே அமைகிறது. இத்தகைய புள்ளி விவரங்களைத் திறம்படக் கையாண்டு கணினிக்குக் கற்றுக் கொடுப்பது எப்படி என்று இப்பகுதியில் காணலாம். இதுவே Statistical learning model என்று அழைக்கப்படும். Domain set: உள்ளீடாகத் தருகின்ற புள்ளி விவரங்களே இவ்வாறு அழைக்கப்படும். x={…..} என்பது domain set / instance space எனப்படும். இதிலுள்ள ஒவ்வொரு தனித்தனி… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 19. வாக்கியக் கூறு பிரித்தலும், பெயரிட்ட உருபொருள் அடையாளம் காணுதலும்

நாம் எண்ணங்களை சொற்களாலும் வாக்கியங்களாலும் வெளிப்படுத்துகிறோம். எல்லா மொழிகளும் சொற்களையும் வாக்கியங்களையும் கொண்டிருக்கின்றன. ஆனால் அவை பல்வேறு வழிகளில் ஒழுங்கமைக்கப்படுகின்றன. தொடரியல் (syntax) தொடரியல் என்பது சொற்களை வைத்து எவ்வாறு வாக்கியங்களை அமைக்கிறோம் என்ற வாக்கியக் கட்டமைப்பு ஆய்வு. தமிழ் இலக்கணப்படி எழுவாய் என்பது ஒரு வாக்கியத்தில் செயலைக் காட்டும் சொல்மீது “யார், எது, எவை” என வினவும் போது கிடைக்கும் பதில் ஆகும். செயப்படுபொருள் என்பது “யாரை, எதை, எவற்றை” என்பதின் பதில் ஆகும். பொருள்… Read More »