Category Archives: கணியம்

Machine Learning – 8 – Flask API

நமது algorithm கணிக்கும் மதிப்பினை ஒரு API-ஆக expose செய்வதற்கு Flask பயன்படுகிறது. இதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters Show hidden characters import… Read More »

Machine Learning – 7 – Prediction

நமது கோப்பில் உள்ள முதல் தரவினை மட்டும் கொடுத்து அதற்கான விலையை கணிக்கச் சொல்லுவோம். இது input.json எனும் கோப்பின் வழியே கொடுக்கப்படுகிறது. predict() செய்வதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional… Read More »

Machine Learning – 6 – Model Creation

sklearn (sk for scikit) என்பது python-ல் உள்ள இயந்திரவழிக் கற்றலுக்கான ஒரு library ஆகும். இதில் classification, regression ஆகிய வகைகளின் கீழ் அமையும் linear, ensemble, neural networks போன்ற அனைத்து விதமான model-க்கும் algorithms காணப்படும். இதிலிருந்து LinearRegression எனும் algorithm-ஐ எடுத்து அதற்கு நம்முடைய data-வைப் பற்றி நாம் கற்றுத் தருகிறோம். இதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled… Read More »

Machine Learning – 5 – Pandas

Pandas என்பது நிகழ்காலத் தரவுகளை அணுகி, அலசி நமக்கேற்றவாறு வடிவமைப்பதற்கு python வழங்குகின்ற ஒரு library ஆகும். இதன் மூலம் csv, txt, json போன்ற பல்வேறு வடிவங்களில் இருக்கும் மூலத் தரவுகளை எடுத்து ஒரு dataframe-ஆக மாற்றி நமக்கேற்றவாறு தரவுகளை தகவமைத்துக் கொள்ள முடியும். இங்கு நாம் பார்க்கப் போகும் உதாரணத்தில் ஒரு வீட்டின் விற்பனை விலையை நிர்ணயிப்பதற்கு உதவும் பல்வேறு காரணிகளும், அதன்படி நிர்ணயிக்கப்பட்ட விலைகளும் csv கோப்பாக கொடுக்கப்பட்டுள்ளன. இதுவே training data… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 27. உணர்வு பகுப்பாய்வும் சமூக ஊடகங்களும்

உணர்வு பகுப்பாய்வு (sentiment analysis) அல்லது கருத்து சுரங்க வேலை (opinion mining) என்பது ஒரு பேச்சாளரின் அல்லது எழுத்தாளரின் மனோபாவத்தைத் தீர்மானிப்பது. ஒரு தலைப்பைப் பற்றியோ அல்லது ஒரு ஆவணத்தை ஒட்டுமொத்தமாகவோ ‘நேர்மறை (positive)’ அல்லது ‘எதிர்மறை (negative)’ என்று கணிக்கிறோம். இம்மாதிரி நேரெதிரான இரண்டு தன்மைகள் இருந்தால் அவற்றை முனைவு (polarity) என்று சொல்கிறோம். சில வேலைகளுக்கு மூன்றாவதாக ‘நடுநிலை (neutral)’ என்றும் கணிக்க வேண்டியிருக்கலாம். இது தவிர உயர்நிலை உணர்வு பகுப்பாய்வில் “கோபம்”,… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 25. தமிழ் – ஆங்கிலம் இயந்திர மொழிபெயர்ப்பு

இயந்திர மொழிபெயர்ப்புக்கு மூன்று வகையான அணுகல்கள் உள்ளன. இவை விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு (Rule-Based Machine Translation – RBMT), புள்ளிவிவர இயந்திர மொழிபெயர்ப்பு (Statistical Machine Translation – SMT) மற்றும் கலப்பு (Hybrid) இயந்திர மொழிபெயர்ப்பு. விதி சார்ந்த இயந்திர மொழிபெயர்ப்பு விதி சார்ந்த இயந்திர மொழிபெயர்ப்பில் இந்த இரண்டு வகைகள் உண்டு. மேலோட்டமான மொழிமாற்றம் (Shallow transfer) மற்றும் ஆழ்ந்த மொழிமாற்றம் (Deep transfer). அபெர்டியம் (Apertium) ஒரு கட்டற்ற திறந்த… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 24. இயல்மொழி ஆய்வு கருவித் தொடரி

இயல்மொழி ஆய்வில் எந்தவொரு வேலையை நிறைவேற்றவும் பல பணிகளை ஒன்றன்பின் ஒன்றாகச் செயல்படுத்த வேண்டும். எந்தவொரு சிறிய வேலைக்குக் கூட பெரும்பாலும் கீழ்க்கண்ட பணிகள் இன்றியமையாதவை: வாக்கியங்களைப் பிரித்தல் சொற்களைப் (நிறுத்தற் குறிகளையும் சேர்த்து) பிரித்தல் சொல்வகைக் குறியீடு செய்தல் அடிச்சொல்லையோ, தண்டுச்சொல்லையோ பிரித்தெடுத்தல் இதன் பின்னர், தேவையைப் பொருத்து, சார்புநிலைப் பிரிப்பியை வைத்து கிளைப்பட வங்கிகளாகவோ அல்லது சொற்பகுப்பியல் ஆய்வியை வைத்து உருபன்களாகவோ பிரிப்போம். ஆக, குறைந்த பட்சம் ஐந்தாறு பணிகளை ஒன்றன்பின் ஒன்றாகச் செயல்படுத்துவோம்.… Read More »

Machine Learning – 4 – Linear Regression

Simple & Multiple Linear Regressions Simple Linear என்பது இயந்திர வழிக் கற்றலில் உள்ள ஒரு அடிப்படையான algorithm ஆகும். இதில் இரண்டு விவரங்கள் எவ்வாறு தொடர்பு படுத்தப்படுகின்றன, algorithm எவ்வாறு தனது புரிதலை மேற்கொள்கிறது, அந்தப் புரிதல் எந்த அளவுக்கு சரியாக உள்ளது என்பது போன்ற விஷயங்களையெல்லாம் ஒருசில தரவுகளை வைத்து செயல்முறையில் செய்து பார்க்கப் போகிறோம். உதாரணத்துக்கு ஒரு பிட்சாவின் அளவினைக் கொண்டு அதன் விலையை எவ்வாறு நிர்ணயிப்பது என இப்பகுதியில் காணலாம். இதுவரை… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 23. சார்புநிலை பிரிப்பி, சுட்டுப்பெயர் தீர்வு, தலைப்பு பிரித்தெடுத்தல்

சார்புநிலை பிரிப்பி இயல்மொழியைப் புரிந்து கொள்வது கடினமானது!  “I saw a girl with a telescope” என்ற வாக்கியத்தைப் பாருங்கள். தொலைநோக்கி வைத்திருந்த பெண்ணை நீங்கள் பார்த்தீர்களா அல்லது நீங்கள் தொலைநோக்கி மூலம் பார்த்தீர்களா? இது ஆங்கில எடுத்துக்காட்டு. எனினும் தமிழிலும் இதே பிரச்சினை உள்ளது. “ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வத்தில் சட்டசபையில் காங்கிரஸ் உறுப்பினர்கள் பேச ஆரம்பித்ததும் அ.தி.மு.கவினர் குறுக்கீடு செய்தனர்.” என்று செய்தித் தலைப்பு. ஜெயலலிதாவைத் திருப்திப்படுத்தும் ஆர்வம் காங்கிரஸுக்கா அல்லது அ.தி.மு.கவினருக்கா? இம்மாதிரி… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 22. அடிச்சொல், தண்டுச்சொல் மற்றும் சொற்பகுப்பாய்வு

பகுதி விகுதி இடைநிலை சாரியை சந்தி விகாரம் ஆறினும் ஏற்பவை முன்னிப் புணர்ப்ப முடியும் எப்பதங்களும் நன்னூல். பதவியல் – 133 (13 ஆம் நூற்றாண்டில் பவணந்தி முனிவரால் எழுதப்பட்ட தமிழ் இலக்கண நூல்) சொற்பகுப்பியல் (morphology) சொற்கள் எப்படி சிறிய அலகுகளால் உருவாக்கப்படுகின்றன என்ற சொல் கட்டமைப்பு ஆய்வை சொற்பகுப்பியல் அல்லது உருபனியல் என்று சொல்கிறோம். சொல் என்பது என்ன? மொழியை எழுதும்போது, சொல் என்பது இரு இடைவெளிகளுக்கு இடையே இருப்பது என்று நாம் சொல்லலாம். ஆனால்… Read More »