இயந்திர கற்றல் (ML) வழிமுறைகளானவை செய்யறிவு(AI) அமைப்புகளின் முதுகெலும்பாக அமைகின்றன. இந்தக் கட்டுரையில், இயந்திர கற்றல் (ML) வழிமுறைகளின் அடிப்படை வகைகளான – மேற்பார்வையிடப்பட்ட, மேற்பார்வை செய்யப்படாத, வலுவூட்டல் (Reinforcement) கற்றல் ஆகியவை குறித்தும்– அவை எவ்வாறு செயல்படுகின்றன, அவற்றின் பயன்பாடுகள் , இந்த மாதிரிகளுக்கான தரவுத்தொகுப்புகளைத் தயாரிப்பதில் உள்ள முக்கிய படிமுறைகள் ஆகியவற்றை ஆய்வுசெய்திடுவோம்.
1. இயந்திர கற்றல் வழிமுறைகளின் வகைகள்
அ. மேற்பார்வையிடப்பட்ட கற்றல்
மேற்பார்வையிடப்பட்ட கற்றல் என்பது உள்ளீடு, வெளியீடு ஆகிய இரண்டும் அறியப்பட்ட அடையாளமிடப்பட்ட தரவைப் பயன்படுத்தி ஒரு மாதிரியைப் பயிற்றுவிப்பதை உள்ளடக்கியதாகும். மாதிரி உள்ளீடுகளை சரியான வெளியீட்டிற்கு வரைபடமாக்க கற்றுக்கொள்கிறது, புதிய தரவுகளுக்கான கணிப்புகளை உருவாக்குகிறது.
இவ்வழிமுறைகளின் எடுத்துக்காட்டுகள்:
Linear Regression: உள்ளீட்டு இயல்புகளின் அடிப்படையில் தொடர்ச்சியான மதிப்பைக் கணிக்கிறது.
Logistic Regression: இருமஎண்கள் வகையின் பணிகளுக்குப் பயன்படுத்தப்படுகிறது (எ.கா., குப்பையானது எதிர் . குப்பையானதன்று).
K-Nearest Neighbors (KNN): அண்டை நாடுகளுடன் அவற்றின் ஒற்றுமையின் அடிப்படையில் தரவு புள்ளிகளை வகைப்படுத்துகிறது.
பயன்பாடுகள்:
மின்னஞ்சல்களில் குப்பைமின்னஞ்சல்களை கண்டறிதல்.
அளவு , இருப்பிடம் போன்ற இயல்புகளின் அடிப்படையில் வீட்டு விலைகளை கணித்தல்.
ஆ. மேற்பார்வை செய்யப்படாத கற்றல்
மேற்பார்வை செய்யப்படாத கற்றலில், மாதிரியானது அடையாளமிடப்படாத தரவுகளுடன் செயல்படுகிறது, வெளிப்படையான வழிகாட்டுதல் இல்லாமல் வடிவங்கள், கொத்துகளை(clusters) அல்லது கட்டமைப்புகளை அடையாளம் காண்பிக்கிறது.
வழிமுறைகளின் எடுத்துக்காட்டுகள்:
Clustering (எ.கா., K-Means): ஒத்த தரவு புள்ளிகளை கொத்துகளாக(clusters) தொகுக்கிறது.
பரிமாணக் குறைப்பு (எ.கா., PCA): அத்தியாவசியத் தகவலைத் தக்கவைத்துக்கொண்டு இயல்புகளின் எண்ணிக்கையைக் குறைக்கிறது.
பயன்பாடுகள்:
சந்தைப்படுத்தலில் வாடிக்கையாளர் பிரிவு.
மோசடி கண்டறிதலில் ஒழுங்கின்மை கண்டறிதல்.
இ. வலுவூட்டல்(Reinforcement(RL)) கற்றல்
வலுவூட்டல் கற்றல் (RL) என்பது ஒரு பின்னூட்ட அடிப்படையிலான கற்றல் அணுகுமுறையாகும், அங்கு ஒரு முகவர் பரிசுகளை அதிகரிப்பதற்கான ஒரு சூழலுடன் தொடர்புகொள்வதன் மூலம் முடிவுகளை எடுக்கக் கற்றுக்கொள்கிறார்.
முக்கிய கூறுகள்:
முகவர்: முடிவெடுப்பவர்.
சூழல்: முகவர் தொடர்பு கொள்ளும் இடம்.
பரிசு: முகவரின் செயல்களை வழிநடத்தும் கருத்து.
வழிமுறைகளின் எடுத்துக்காட்டுகள்:
Q-கற்றல்.
ஆழ்ந்த Q-வலைபின்னல்கள் (DQN).
பயன்பாடுகள்:
விளையாட்டிற்கான செய்யறிவு (AI) (எ.கா., AlphaGo).
இயந்திரமனிதன் தானியங்கியான வாகனங்கள்.
2. பொதுவான வழிமுறைகள் அவை எவ்வாறு செயல்படுகின்றன
Linear Regression (மேற்பார்வையிடப்பட்டது)
Linear Regressionஆனது தொடர்ச்சியான வெளியீட்டை (எ.கா., விற்பனை அல்லது வெப்பநிலை) முன்னறிவிக்கிறது.
சூத்திரம்:
[
y = mx + b
]
இதில்:
( y ): கணிக்கப்பட்ட மதிப்பு.
( x ): உள்ளீட்டு இயல்பு.
( m ): சாய்வு (எடை).
( b ): இடைமறிப்பு (சார்பு).
எடுத்துக்காட்டு:
சதுர அடி அடிப்படையில் வீட்டு விலைகளைக் கணித்தல்.
K-Nearest Neighbors (KNN)) (மேற்பார்வையிடப்பட்டவை)
KNN என்பது ஒரு வகைப்பாட்டின் தருக்க வழிமுறையாகும், இது அதன் ( k ) மிகவும்அருகிலுள்ள மிகவும் பொதுவான இனத்திற்கு ஒரு தரவு புள்ளியை ஒதுக்குகிறது.
படிமுறைகள்:
தரவு புள்ளிகளுக்கு இடையிலான தூரத்தைக் கணக்கிடுக (எ.கா., Euclidean தூரம்).
( k ) மிகவும்அருகிலுள்ளவர்களை அடையாளம் காண்க.
பெரும்பான்மை இனத்திற்கான அடையாளத்தினை ஒதுக்குக.
எடுத்துக்காட்டு:
பூவினுடைய இதழின் நீளத்தின் , அகலத்தின் அடிப்படையில் ஒரு பூவானது Iris-setosa அல்லது Iris-versicolor என்பதை வகைப்படுத்துதல்.
K-Means (மேற்பார்வை செய்யப்படாதது) உடன் கொத்தாக இணைத்தல்
K-Meansஆனது தரவு புள்ளிகளை அவற்றின் ஒற்றுமையின் அடிப்படையில் ( k ) கொத்தாக தொகுக்கிறது.
படிமுறைகள்:
( k ) clusterஆன centroids களை சீரற்ற முறையில் துவக்கிடுக.
ஒவ்வொரு தரவு புள்ளியையும் அருகிலுள்ள centroids இக்கு ஒதுக்கிடுக.
ஒதுக்கப்பட்ட புள்ளிகளின் சராசரியின் அடிப்படையில் centroids களைப் புதுப்பித்திடுக.
இந்த பணிமுடியும் வரை மீண்டும்மீண்டும் செய்திடுக.
எடுத்துக்காட்டு:
வாங்கும் நடத்தையின் அடிப்படையில் வாடிக்கையாளர்களைப் பிரித்தல்.
3. ML மாதிரிகளுக்கான தரவுத்தொகுப்புகளைத் தயாரித்தல்
அ. தரவு சேகரிப்பு
தொடர்புடைய, உயர்தர தரவைச் சேகரித்திடுக. APIகள், வலைத்துணுக்குகள்(scraping), அல்லது பொது தரவுத்தொகுப்புகள் (எ.கா., Kaggle, UCI ML களஞ்சியம்) போன்ற மூலங்களைப் பயன்படுத்திடுக.
ஆ. தரவினை சுத்தம் செய்தல்
பொருத்தமற்ற அல்லது சிதைந்த தரவை அகற்றிடுக. இந்த படிமுறைகளில் பின்வருவன அடங்கும்:
காணாமல் போன மதிப்புகளைக் கையாளுதல் (எ.கா., சராசரி கணக்கீடு).
நகல்களை நீக்குதல்.
வகைப்படுத்தப்பட்ட தரவை எண் வடிவத்தில் மாற்றுதல் (எ.கா., உடனடியான–ஒரு குறியாக்கம்).
இ. தரவினை பிரித்தல்
தரவுத்தொகுப்பை பின்வருமாறு பிரித்திடுக:
பயிற்சி தொகுப்பு (70–80%): மாதிரியைப் பயிற்றுவிக்கப் பயன்படுகிறது.
சோதனைத் தொகுப்பு (20–30%): மாதிரி செயல்திறனை மதிப்பிடப் பயன்படுகிறது.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
இ. இயல்பினை அளவிடுதல்
அனைத்து தரவும் ஒரே அளவில் இருப்பதை உறுதிசெய்ய அதன் பண்புகளை இயல்பாக்குதல் அல்லது தரப்படுத்துதல்.
இயல்பாக்கம்: தரவை 0 முதல் 1 வரையிலான வரம்பிற்கு அளவிடுதல்.
தரப்படுத்தல்: 1 என்ற மையவிலகலுடன் தரவை 0 ஐச் சுற்றி மையப்படுத்துதல்.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
தொடரும்