மேற்பார்வையிடப்பட்ட கற்றல் என்பது பல்வேறு AI , ML பயன்பாடுகளின் முனையிலுள்ளகல்லாகும், அங்கு மாதிரிகள் முன்கணிப்புகளைச் செய்ய பெயரிடப்பட்ட தரவுத்தொகுப்புகளில் பயிற்சியளிக்கப்படுகின்றன. இந்தக் கட்டுரையில், வகைப்படுத்தல் , பின்னோக்கு (Regression) ஆகிய இரண்டு முக்கிய வகையான மேற்பார்வையிடப்பட்ட கற்றல் பணிகளை நாம் ஆய்வுசெய்திடுவோம்–Logistic Regression, Decision Trees , திசையன் இயந்திரங்களின்ஆதரவு(Support Vector Machines (SVMs)), போன்ற பிரபலமான தருக்கங்களை ஆய்வுசெய்திடுவோம், மேலும் நடப்பு-உலகப் பயன்பாடுகளைக் கையாளுவதன் மூலம் காண்பிப்போம். எடுத்துக்காட்டா:குப்பை மின்னஞ்சல் வகைப்பாடு.
1. மேற்பார்வையிடப்பட்ட கற்றல் பணிகளைப் புரிந்துகொள்வது
அ. வகைப்பாடு பணிகள்
இலக்கு: உள்ளீட்டுத் தரவை முன் வரையறுக்கப்பட்ட இனங்கள் அல்லது பெயரிடப்பட்டவைகளாக வகைப்படுத்திடுக.
எடுத்துக்காட்டுகள்:
குப்பையானமின்னஞ்சல்கள்,குப்பையாக அல்லாதவை.
நோயாளிக்கு நோய் இருக்கிறதா என்று கணித்தல் (ஆம்/இல்லை).
பொதுவான அளவீடுகள்:
துல்லியம்: சரியாக வகைப்படுத்தப்பட்ட நிகழ்வுகளின் சதவீதம்.
துல்லியமானது , நினைவுகூருதல்: சமநிலையற்ற தரவுத்தொகுப்புகளுக்கு பயனுள்ளதாக இருக்கும்.
F1-மதிப்பெண்: துல்லியத்தின், . நினைவுகூரலின் இணக்கமான சராசரி.
ஆ. பின்னடைவு பணிகள்
இலக்கு: உள்ளீட்டு இயல்புகளின் அடிப்படையில் தொடர்ச்சியான எண்களின் மதிப்புகளைக் கணித்திடுக.
எடுத்துக்காட்டுகள்:
அளவு , இருப்பிடம் போன்ற இயல்புகளின் அடிப்படையில் வீட்டின் விலையை கணித்தல். பங்கு விலைகளை மதிப்பிடுதல்.
பொதுவான அளவீடுகள்:
சராசரியான முழுமையான பிழை(MAE):கணிக்கப்பட்ட, உண்மையான மதிப்புகளுக்கு இடையே சராசரியாக முழுமையான வேறுபாடு.
சராசரியான வர்க்க பிழை (MSE): சராசரி வர்க்க வேறுபாடு (பெரிய பிழைகளை அதிக அபராதம் விதிக்கிறது).
2. பிரபலமான மேற்பார்வை கற்றல் தருக்கங்கள்
அ. Logistic Regression
வகை: வகைப்பாடு.
இது எவ்வாறு இயங்குகிறது: Logistic (sigmoid) எனும்செயலியைப் பயன்படுத்தி பைனரி விளைவு (எ.கா.குப்பை அல்லது இல்லை) நிகழ்தகவை மதிப்பிடுகிறது.
சமன்பாடு: [ P(y=1|x) = \frac{1}{1 + e^{-(b_0 + b_1x_1 + b_2x_2 + … + b_nx_n)}} ]
நன்மைகள்: எளியது, விரைவானது, விளக்கக்கூடியது.
வரம்புகள்: நேரியல் அல்லாத உறவுகளுடன் போராடுதல்.
ஆ. Decision Trees
வகை: வகைப்பாடு , பின்னோக்கு.
இது எவ்வாறு செயல்படுகிறது: இயல்புநிலைமதிப்புகளின் அடிப்படையில் தரவை துணைக்குழுக்களாகப் பிரித்து, மரம் போன்ற கட்டமைப்பை உருவாக்குகிறது.
பிரித்தலின் எடுத்துக்காட்டு :
இயல்பு: மின்னஞ்சலில் “கட்டணமற்றதாக” உள்ளது.
ஆம் எனில் → குப்பையாக இருக்கலாம்.
இல்லை என்றால் → குப்பையல்லாததாக இருக்கலாம்.
நன்மைகள்: விளக்குவது எளிது, நேரியல் அல்லாத உறவுகளைக் கையாளுகிறது.
வரம்புகள்:அதிக பொருத்துதலுக்கு வாய்ப்புள்ளது (சீரற்ற காடுகள் போன்ற சீரமைப்பு அல்லது குழும முறைகளால் தீர்வுசெய்யப்படுகிறது).
இ. திசையன் இயந்திரங்களின்ஆதரவு (SVMs)
வகை: வகைப்பாடு , பின்னோக்கு.
இது எவ்வாறு இயங்குகிறது: இயல்புநிலைஇடத்தில் இனங்களை சிறப்பாகப் பிரிக்கும் மிகைசமதளத்தினைக் கண்டறிகின்றது.
முக்கிய கருத்தமைவுகள்:
விளிம்பு: மிகைசமதளத்தின், அருகிலுள்ள தரவு புள்ளிகளுக்கு இடையே உள்ள தூரம் (ஆதரவு திசையன்கள்).
உருவாக்கமைய தந்திரம்: சிக்கலான உறவுகளுக்கான உயர் பரிமாணங்களுக்கு தரவு வரைபடங்கள்.
நன்மைகள்: உயர் பரிமாண தரவுகளுக்கு பயனுள்ளதாக இருக்கும்.
வரம்புகள்: பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை அதிகம்.
3. மாதிரி செயல்திறனை மதிப்பீடு செய்தல்
அ. குறுக்குவழி சரிபார்ப்பு
எல்லா தரவுகளிலும் செயல்திறனைச் சரிபார்க்க தரவுத்தொகுப்பை பல்வேறு துணைக்குழுக்களாக (மடிப்புகள்) பிரிக்கிறது.
எடுத்துக்காட்டு: 5 மடங்கு குறுக்கு சரிபார்ப்பு அதற்கான குறிமுறைவரிகள் பின்வருமாறு.
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5)
print(“Accuracy:”, scores.mean())
ஆ. குழப்பமான அணிகள்
இது ஒரு வகைப்பாடு மாதிரிகளுக்கான சரியான, தவறான கணிப்புகளைக் காண்பிக்கின்ற அட்டவணை யாகும்.
எடுத்துக்காட்டு:குப்பையானவைகளின் வகைப்பாடு.

கணிக்கப்பட்ட/உண்மையான	குப்பையானவை	குப்பை அல்லாதவை
குப்பையானவை	90	10
குப்பை அல்லாதவை	5	95

4. நடப்பு உலக எடுத்துக்காட்டு:குப்பையான மின்னஞ்சலின் வகைப்பாடு

தரவுத்தொகுப்பு

“SMS Spam Collection” எனும் தரவுத்தொகுப்பைப் பயன்படுத்திடுக, அதில் பெயரிடப்பட்ட உரைச் செய்திகள் (குப்பை அல்லதுகுப்பை அன்று) உள்ளன.

படிமுறைகள்:

தரவுத்தொகுப்பை பதிவேற்றிடுக:தரவை ஒரு Pandas DataFrame இல் பதிவேற்றிடுக.

முன் செயலாக்க உரை: நிறுத்தஉரைகளை அகற்றி, சிற்றெழுத்துக்கு மாற்றி, நுழைவுசீட்டுவழங்கிடுக.

உரையை இயல்பாக மாற்றிடுக: Frequency-Inverse Document Frequency (TF-IDF) vectorization என்பதை பயன்படுத்திடுக.

தொடர்வண்டி மாதிரி: மின்னஞ்சல்களை வகைப்படுத்த Logistic Regression எனும் மாதிரியைப் பயன்படுத்திடுக.

செயல்திறனை மதிப்பிடுக: துல்லியம் , F1 மதிப்பெண் அளவீடுகளைப் பயன்படுத்திடுக.

இதற்கான குறிமுறைவரிகளின் எடுத்துக்காட்டு பின்வருமாறு:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

Load dataset

data = pd.read_csv(‘spam.csv’, encoding=’latin-1′)
data = data[[‘v1’, ‘v2’]].rename(columns={‘v1’: ‘label’, ‘v2’: ‘text’})
data[‘label’] = data[‘label’].map({‘ham’: 0, ‘spam’: 1})

Split data

X_train, X_test, y_train, y_test = train_test_split(data[‘text’], data[‘label’], test_size=0.2, random_state=42)

Text vectorization

vectorizer = TfidfVectorizer(stop_words=’english’)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

Train Logistic Regression model

model = LogisticRegression()
model.fit(X_train_tfidf, y_train)

Predictions and evaluation

y_pred = model.predict(X_test_tfidf)
print(“Accuracy:”, accuracy_score(y_test, y_pred))
print(“Classification Report:\n”, classification_report(y_test, y_pred))

தொடரும்

Load dataset

Split data

Text vectorization

Train Logistic Regression model

Predictions and evaluation

Like this:

Related

Leave a ReplyCancel reply

Load dataset

Split data

Text vectorization

Train Logistic Regression model

Predictions and evaluation

பகிர்ந்து கொள்க

Like this:

Related

Leave a ReplyCancel reply