இயந்திர கற்றல் மாதிரியை உருவாக்குவது என்பது இந்த பயணத்தின் ஒரு பகுதி மட்டுமே; அதை மதிப்பீடு செய்து நன்றாகச் சரிசெய்வதற்காக மாதிரியானது அதன் சிறந்த செயல்திறனை உறுதி செய்கிறது. மீஅளவுருஒத்திசைவு(hyperparameter tuning). மூலம் மாதிரியானது செயல்திறனை மேம்படுத்துவதற்கான மதிப்பீட்டு அளவீடுகள் , வழிமுறைகள் ஆகியவைகுறித்து இந்தக் கட்டுரை கவனம் செலுத்துகிறது.
1. மாதிரிகளை ஏன் மதிப்பீடு செய்து Tune செய்கிறது?
நன்கு பயிற்சி பெற்ற இயந்திர கற்றல் மாதிரி இன்னும் மோசமாகச் செயல்படக்கூடும்:
இது தரவை மிகைப்படுத்துகிறது அல்லது குறைவாகப் பொருத்துகிறது.
இது சரியான மீஅளவுருவின்( hyperparameter) உகப்பாக்கம் இல்லை.
பணிக்கு பொருத்தமற்ற அளவீடுகளில் இது மதிப்பீடு செய்யப்படுகிறது.
மாதிரியின் மதிப்பீடு இந்த சிக்கல்களை அடையாளம் காண உதவுகிறது, அதே நேரத்தில்ஒத்திசைவு(tuning.) மாதிரியானது அதன் அதிகபட்ச திறனை அடைவதை உறுதி செய்கிறது.
2. மாதிரியின் மதிப்பீட்டு அளவீடுகள்
2.1 வகைப்பாட்டு அளவீடுகள்
வகைப்படுத்தல் பணிகளுக்கு, பொதுவான அளவீடுகள் பின்வருமாறு:
தெளிவான சரியான கணிப்புகளின் சதவீதத்தை அளவிடுகிறது.
சூத்திரம்: [ \text{Accuracy} = \frac{\text{Number of Correct Predictions}}{\text{Total Number of Predictions}} ]
துல்லியமான அனைத்து நேர்மறை கணிப்புகளிலும் உண்மையான நேர்மறை கணிப்புகளின் விகிதத்தில் கவனம் செலுத்துகிறது.
சூத்திரம்:[ \text{Precision} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Positives}} ]
நினைவுகூரல் (உணர்திறன் அல்லது உண்மையான நேர்மறை விகிதம்)
அனைத்து தொடர்புடைய நிகழ்வுகளையும் அடையாளம் காணும் திறனை அளவிடுகிறது.
சூத்திரம்: \text{Recall} = \frac{\text{True Positives}}{\text{True Positives} + \text{False Negatives}} ]
F1-மதிப்பெண் துல்லியம் , நினைவுகூறுதலின் Harmonic சராசரி ஆகிய இரண்டையும் சமநிலைப்படுத்துதல்.
சூத்திரம்: [ \text{F1-Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} ]
ROC-AUC (பெறுநரின் செயல்பாட்டு சிறப்பியல்பு – வளைவின் கீழ் பகுதி)
வெவ்வேறு வரம்புகளில் இனங்களை வேறுபடுத்தி அறிய மாதிரியின் திறனை அளவிடுகிறது.
2.2 பின்னடைவு அளவீடுகள்
பின்னடைவு பணிகளுக்கு, இந்த அளவீடுகளைக் கவனித்திடுக:
சராசரி முழுமையான பிழை (MAE)
இது கணிக்கப்பட்ட, உண்மையான மதிப்புகளுக்கு இடையிலான சராசரி முழுமையான வேறுபாட்டை அளவிடுகிறது.
சூத்திரம்: [ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |\hat{y}i – y_i| ]
சராசரி நாற்கரப் பிழை (MSE)
பெரிய பிழைகளை நாற்கரமாக்குவதன் மூலம் தண்டிக்கின்றது.
சூத்திரம்:[ \text{MSE} = \frac{1}{n} \sum{i=1}^{n} (\hat{y}i – y_i)^2 ]
R-சதுரம் (( R^2 ))
மாதிரியால் விளக்கப்பட்ட சார்பு மாறியில் மாறுபாட்டின் விகிதத்தைக் குறிக்கிறது.
சூத்திரம்: [ R^2 = 1 – \frac{\text{SS}{\text{res}}}{\text{SS}{\text{tot}}} ]
3. குறுக்கு சரிபார்ப்பு
குறுக்கு சரிபார்ப்பு என்றால் என்ன?
மாதிரி செயல்திறனை மதிப்பிடுவதற்கு குறுக்கு சரிபார்ப்பு தரவை பல முறை பயிற்சி பரிசோதனை ஆகிய துணைக்குழுக்களாகப் பிரிக்கிறது.
பொதுவான குறுக்கு சரிபார்ப்பு நுட்பங்கள்
K-மடிப்பு குறுக்கு சரிபார்ப்பு: தரவை (K) துணைக்குழுக்களாகப் பிரிக்கிறது, (K-1) இல் பயிற்சி செய்கிறது , மீதமுள்ள மடிப்பில் பரிசோதனை செய்கிறது.
அடுக்காக்குகளாக்கப்பட்ட K-மடிப்பு: ஒவ்வொரு மடிப்பும் வகுப்பு முத்திரை தாட்களின் விகிதாசார பிரதிநிதித்துவத்தைக் கொண்டிருப்பதை உறுதி செய்கிறது.
Leave-One-Out (LOO): ஒரு நிகழ்வைத் தவிர மற்ற அனைத்திலும் மாதிரியைப் பயிற்றுவிக்கிறது விலக்கப்பட்ட நிகழ்வில் பரிசோதனை செய்கிறது.
4. மீஅளவுருவின் ஒத்திசைவுசெய்தல்
மீ அளவுருக்கள் (Hyperparameters) என்றால் என்ன?
மீஅளவுருக்கள் என்பது பயிற்சியின் போது கற்றுக்கொள்ளப்படாத அளவுருக்கள், ஆனால் கைமுறையாக அமைக்கப்படுகின்றன, அதாவது: கற்றல் விகிதம், அடுக்குகள்/ முனைமங்களின் எண்ணிக்கை, ஒழுங்குமுறை வலிமை ஆகியன.
4.1 மீஅளவுரு ஒத்திசைவிற்கான வழிமுறைகள்
தொகுப்புத் தேடலின் CV: மீஅளவுரு மதிப்புகளின் அனைத்து சேர்க்கைகளையும் ஆராய்கிறது. எடுத்துக்காட்டாக:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
params = {‘n_estimators’: [50, 100, 200], ‘max_depth’: [None, 10, 20]}
model = RandomForestClassifier()
grid_search = GridSearchCV(model, param_grid=params, cv=5, scoring=’accuracy’)
grid_search.fit(X_train, y_train)
print(grid_search.best_params)
சீரற்ற தேடலின்CV: மீஅளவுரு சேர்க்கைகளை சீரற்ற முறையில் மாதிரியாக்கி, விரைவான முடிவுகளை வழங்குகிறது.
எடுத்துக்காட்டு:
from sklearn.model_selection import RandomizedSearchCV
random_search = RandomizedSearchCV(model, param_distributions=params, n_iter=10, cv=5, scoring=’accuracy’)
random_search.fit(X_train, y_train)
print(random_search.best_params_)
Bayesian உகப்பாக்கம்: சிறந்த மீஅளவுருக்களைக் கண்டறிய நிகழ்தகவு மாதிரிகளைப் பயன்படுத்துகிறது.
நூலகங்களுடன் தானியங்கி ஒத்திசைவான: Optuna ,Hyperopt போன்ற நூலகங்கள் மீஅளவுரு உகப்பாக்கத்தை எளிதாக்குகின்றன.
5. மாதிரி ஒத்திசைவிகான நடைமுறையிலான படிமுறைகள்
இயல்புநிலை மீஅளவுருக்களுடன் தொடங்கிடுக: ஒரு அடிப்படை மாதிரியைப் பயிற்றுவித்து அதன் செயல்திறனை மதிப்பிடுக.
குறுக்கு-சரிபார்ப்பைப் பயன்படுத்திடுக: மாதிரியில் காணப்படாத தரவுகளுக்கு நன்கு பொதுமைப்படுத்தப்படுவதை உறுதிசெய்திடுக.
தொகுப்பினைத்தேடல் அல்லது சீரற்ற தேடலைப் பயன்படுத்தி நன்றாகச் சரிசெய்திடுக: சிறந்த செயல்திறனுக்காக முக்கிய மீஅளவுருக்களை மேம்படுத்திடுக.
மீபொருத்தத்திற்கான கண்காணிப்பு: முன்கூட்டியே நிறுத்துதல் அல்லது ஒழுங்குபடுத்துதல் போன்ற நுட்பங்களைப் பயன்படுத்திடுக.
மீண்டும் மீண்டும் ஒப்பிட்டுப் பார்த்திடுக: வெவ்வேறு வழிமுறைகள் , மிகை அளவுரு அமைப்புகளுடன் பரிசோதனை செய்திடுக.
6. நடப்பு-உலக எடுத்துக்காட்டு: வகைப்பாடு மாதிரியை சரிசெய்தல்
தரவுத்தொகுப்பு: வகைப்பாடு மாதிரியை உருவாக்கசரிசெய்ய பிரபலமான Irisஎனும் தரவுத்தொகுப்பைப் பயன்படுத்திகொள்க.
இதற்கான எடுத்துக்காட்டு குறிமுறைவரிகள் பின்வருமாறு
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report

Load data

data = load_iris()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Hyperparameter tuning with GridSearch

params = {‘n_estimators’: [10, 50, 100], ‘max_depth’: [None, 10, 20]}
model = RandomForestClassifier()
grid_search = GridSearchCV(model, param_grid=params, cv=5, scoring=’accuracy’)
grid_search.fit(X_train, y_train)

Evaluate

best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
print(classification_report(y_test, y_pred))
7. மதிப்பீடு ஒத்திசைவு ஆகியவற்றிற்கான கருவிகள்
Scikit-learn: உள்ளமைக்கப்பட்ட அளவீடுகள்,ஒத்திசைவு பயன்பாடுகளை வழங்குகிறது.
TensorFlow/Keras: பயிற்சியின் போது செயல்திறனைக் கண்காணிப்பதற்கான மீளழைப்புகளை வழங்குகிறது.
Optuna/Hyperopt: தானியங்கி மீஅளவுரு உகப்பாக்கத்திற்கான மேம்பட்ட நூலகங்கள்.
8. முடிவாக
உகந்த செயல்திறனை அடைவதற்கு ஒரு மாதிரியை மதிப்பீடு செய்து ஒத்திசைவு செய்வது மிக முக்கியம். அளவீடுகளை கவனமாகத் தேர்ந்தெடுத்து முறையான மீஅளவுரு ஒத்திசைவு வழிமுறைகளைப் பயன்படுத்துவதன் மூலம், இயந்திர கற்றல் மாதிரிகளின் துல்லியம் , நம்பகத்தன்மை ஆகியவற்றினை கணிசமாக மேம்படுத்தலாம்.
தொடரும்

Load data

Hyperparameter tuning with GridSearch

Evaluate

Like this:

Related

Leave a ReplyCancel reply

Load data

Hyperparameter tuning with GridSearch

Evaluate

பகிர்ந்து கொள்க

Like this:

Related

Leave a ReplyCancel reply