Category Archives: கணியம்

Machine Learning – 12 – Outliers, Removal ஐக் கண்டறிதல்

Outlier என்பது மற்ற தரவுகளிலிருந்து வேறுபட்டு சற்று தள்ளி இருக்கும் தரவு ஆகும். 5,10,15,20…75 எனும் மதிப்பினைக் கொண்டிருக்கும் தரவு வரிசைகளில் ஒன்றே ஒன்று மட்டும் 15676 எனும் எண்ணைக் கொண்டிருப்பின், அதுவே outlier ஆகும். இதைத் தான் நாம் கண்டறிந்து களைய வேண்டும். கீழ்க்கண்ட உதாரணத்தில், உள்ளீடாக உள்ள கோப்பிற்குள் இருக்கும் outliers ஒவ்வொரு column-லும் கண்டறியப்பட்டு  அவை ஒரு வரைபபடமாக வெளிப்படுத்தப்படுகின்றன. boxplot அல்லது violinplot இதற்குப் பயன்படுகின்றன. This file contains hidden or bidirectional… Read More »

Machine Learning – 11 – Trend, Parity & Data distribution plots

நாம் உருவாக்கிய model-ன் score-ஆனது மிகவும் குறைவாக இருக்கிறது எனில், அது எந்த இடத்தில் அதிகம் வேறுபடுகிறது எனக் கண்டறிய trend / parity போன்ற வரைபடங்களைப் போட்டுப் பார்க்க வேண்டும். கீழ்க்கண்ட உதாரணத்தில் ஒரு வீட்டின் விலையை நிர்ணயிப்பதற்கான பல்வேறு அம்சங்களும், அதனடிப்படையில் நிர்ணயிக்கப்பட்ட விற்பனை விலைகளும் பயிற்சிக்குக் கொடுக்கப்பட்டுள்ளன. இதை வைத்து நாம் உருவாக்கிய model-ன் score ஆனது 35 என வந்துள்ளது. எனவே எந்த இடத்தில் உண்மையான விலையும், கணிக்கப்படும் விலையும் அதிகம் வேறுபடுகிறது எனக்… Read More »

விக்கிப்பீடியா:ஆசிய மாதம்

மூலம் – ta.wikipedia.org/s/4r3v விக்கிப்பீடியாவின் ஆசிய மாதம் ஆசிய விக்கிப்பீடியக் குமுகங்களுக்கிடையில் புரிந்துணர்வை மேம்படுத்துவதை இலக்காகக் கொண்டு ஆசிய மாதம் (Asian Month) என்னும் தொடர்தொகுப்பு நிகழ்வு நடத்தப்படவுள்ளது. இந்நிகழ்வை 2018 நவம்பர் மாதத்தில் நடத்துவதாகத் திட்டமிடப்பட்டுள்ளது. இந்நிகழ்வு பல்வேறு மொழிகளில் அமைந்த விக்கிப்பீடியாக்களிலும் நடத்தப்படவுள்ளது. இந்நிகழ்வில் பங்குகொள்ளும் விக்கிப்பீடியர்கள் ஆசியா தொடர்பான தமிழ் விக்கிப்பீடியா கட்டுரைகளை உருவாக்க ஊக்குவிக்கப்படுகின்றனர். விக்கிப்பீடிய ஆசியக் குமுகத்தினர் தமது நட்புணர்வை வெளிப்படுத்தும் வகையில், கீழே குறிப்பிடப்பட்டுள்ள நெறிமுறைகளுக்கு அமைந்ததாய் குறைந்தது… Read More »

Machine Learning – 10 – Feature Selection

ஒரு கோப்பினுள் பல்வேறு columns இருக்கிறதெனில், அவற்றுள் எந்தெந்த column மதிப்புகளைப் பொறுத்து நாம் கணிக்கின்ற விஷயம் அமைகிறது எனக் கண்டுபிடிப்பதே feature selection ஆகும். உதாரணத்துக்கு 400, 500 columns-ஐக் கொண்டுள்ள கோப்பிலிருந்து, prediction-க்கு உதவும் ஒருசில முக்கிய columns-ஐத் தேர்வு செய்வது feature selection ஆகும். இதற்கு முதலில் நம்மிடமுள்ள columns-ஐ process variables, manipulated variables & disturbance variables எனும் 3 வகையின் கீழ் பிரிக்க வேண்டும். இதில் manipulated மற்றும் disturbance இரண்டும்… Read More »

பொறியியல் வரைபடம் – திறந்த மூல லிபர்கேட் (LibreCAD)

திறந்த மூல லிபர்கேட் மென்பொருளை உபுண்டு 16.04 இல் எப்படி நிறுவுவது என்று இங்கே பார்க்கலாம். இவர்கள் சொன்ன மூன்று கட்டளைகளையும் கொடுத்தவுடன் லிபர்கேட் 2.2.0 வை நிறுவியது. முதன்முதலாக ஓட்டும்போது மெட்ரிக் அளவை முறையில் மிமீ என்று தேர்ந்தெடுக்கவும். மொழித் தேர்வில் ஆங்கிலத்தை அப்படியே விட்டுவிடலாம். பின்னால் மாற்றவேண்டுமென்றால் தேர்வுப் பட்டியலில் Options (தேர்வுகள்) -> Current Drawing Preferences (இப்போதைய வரைபட விருப்பங்கள்) இல் சென்று, Units (அளவைகள்) என்ற தத்தலில் முக்கிய வரைபட… Read More »

Machine Learning – 9 – Model comparison

நமது model உருவாக்கத்திற்கு வெறும் linear regression-ஐ மட்டும் பயன்படுத்தாமல், வேறு சில algorithm-வுடனும் ஒப்பிட்டு எது சிறந்ததோ அதை பயன்படுத்த வேண்டும். இதற்கான நிரல் பின்வருமாறு. இது நமது தரவுகளை பல்வேறு algorithm-ல் பொருத்தி, ஒவ்வொன்றினுடைய Score மற்றும் RMSE மதிப்புகளை வெளிப்படுத்துகிறது. இவற்றில் சிறந்ததை நாம் தேர்வு செய்து கொள்ளலாம். This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what… Read More »

தமிழின் எதிர்காலமும் தகவல் தொழில்நுட்பமும் 28. மொழித் தொழில்நுட்பத்தில் வளங்கள் மிகுந்த மொழியாகத் தமிழை உயர்த்துவோம்

இயல் மொழியியலில் அண்மைய தொழில்நுட்பக் கலை பற்றிய ஆய்வு, தொகுதி 13-14 இலிருந்து கீழ்க்கண்ட மேற்கோள் எடுக்கப்பட்டது. “மொழித் தொழில்நுட்பத்தை பயன்படுத்துவதன் மூலம் பெறக்கூடிய நன்மைகள் இவை. கணினிகளின் பயன்மை (usability) அதிகரிக்கிறது. மேலும் கணினி பயன்பாட்டில் பாமர மக்கள் தன்மேம்பாடு பெறவும் (empowering) வழிவகுக்கிறது.” தமிழின் கடந்த முதன்மைத்துவத்தை மீண்டும் பெற முயல்வோம் 1805 இல் ராஜெட் ஆங்கிலத்தில் முதல் தெஸாரஸ் (Roget’s Thesaurus) உருவாக்கினார். இதன் மூலப் பதிப்பில் 15,000 சொற்கள் இருந்தன. அச்சிடல்… Read More »

Machine Learning – 8 – Flask API

நமது algorithm கணிக்கும் மதிப்பினை ஒரு API-ஆக expose செய்வதற்கு Flask பயன்படுகிறது. இதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters Show hidden characters import… Read More »

Machine Learning – 7 – Prediction

நமது கோப்பில் உள்ள முதல் தரவினை மட்டும் கொடுத்து அதற்கான விலையை கணிக்கச் சொல்லுவோம். இது input.json எனும் கோப்பின் வழியே கொடுக்கப்படுகிறது. predict() செய்வதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional… Read More »

Machine Learning – 6 – Model Creation

sklearn (sk for scikit) என்பது python-ல் உள்ள இயந்திரவழிக் கற்றலுக்கான ஒரு library ஆகும். இதில் classification, regression ஆகிய வகைகளின் கீழ் அமையும் linear, ensemble, neural networks போன்ற அனைத்து விதமான model-க்கும் algorithms காணப்படும். இதிலிருந்து LinearRegression எனும் algorithm-ஐ எடுத்து அதற்கு நம்முடைய data-வைப் பற்றி நாம் கற்றுத் தருகிறோம். இதற்கான நிரல் பின்வருமாறு. This file contains hidden or bidirectional Unicode text that may be interpreted or compiled… Read More »