பகுதி 4: நாமே நம்முடைய சொந்த செய்யறிவை(AI) உருவாக்குதல் -பயிற்சித்தொடர்– – மேற்பார்வையிடப்பட்ட கற்றலில் ஆழ்ந்து மூழ்குதல்

மேற்பார்வையிடப்பட்ட கற்றல் என்பது பல்வேறு AI , ML பயன்பாடுகளின் மூலக்கல்லாகும், அங்கு மாதிரிகள் முன்கணிப்புகளைச் செய்ய பெயரிடப்பட்ட தரவுத்தொகுப்புகளில் பயிற்சியளிக்கப்படுகின்றன. இந்தக் கட்டுரையில், இரண்டு முக்கிய வகையான மேற்பார்வையிடப்பட்ட கற்றல் பணிகளை நாம் ஆய்வுசெய்திடுவோம்-வகைப்படுத்தல் , பின்னடைவு-Logistic Regression, Decision Trees , SVMs போன்ற பிரபலமான தருக்கங்களை ஆய்வுசெய்திடுவோம், மேலும் கைகளின் மூலம் நடப்பு-உலகப் பயன்பாடுகளைக் காண்பிப்போம். உதாரணமாக:குப்பை மின்னஞ்சல் வகைப்பாடு.
1. மேற்பார்வையிடப்பட்ட கற்றல் பணிகளைப் புரிந்துகொள்ளுதல்
அ. வகைப்பாடு பணிகள்
இலக்கு: உள்ளீட்டுத் தரவை முன் வரையறுக்கப்பட்ட இனங்கள் அல்லது பெயரிடப்பட்டவைகளாக வகைப்படுத்திடுக.
எடுத்துக்காட்டுகள்:
குப்பையானமின்னஞ்சல்கள்,குப்பையாக அல்லாதவை.
நோயாளிக்கு நோய் இருக்கிறதா என்று கணித்தல் (ஆம்/இல்லை).
பொதுவான அளவீடுகள்:
துல்லியம்: சரியாக வகைப்படுத்தப்பட்ட நிகழ்வுகளின் சதவீதம்.
துல்லியமானது , நினைவுகூருதல்: சமநிலையற்ற தரவுத்தொகுப்புகளுக்கு பயனுள்ளதாக இருக்கும்.
F1-மதிப்பெண்: துல்லியம் . நினைவுகூரலின் இணக்கமான சராசரி.
ஆ. பின்னடைவு பணிகள்
இலக்கு: உள்ளீட்டு இயல்புகளின் அடிப்படையில் தொடர்ச்சியான எண் மதிப்புகளைக் கணித்திடுக.
எடுத்துக்காட்டுகள்:
அளவு , இருப்பிடம் போன்ற இயல்புகளின் அடிப்படையில் வீட்டின் விலையை கணித்தல். பங்கு விலைகளை மதிப்பிடுதல்.
பொதுவான அளவீடுகள்:
சராசரியான முழுமையான பிழை(MAE):கணிக்கப்பட்ட, உண்மையான மதிப்புகளுக்கு இடையே சராசரியாக முழுமையான வேறுபாடு.
சராசரியான வர்க்க பிழை (MSE): சராசரி வர்க்க வேறுபாடு (பெரிய பிழைகளை அதிக அபராதம் விதிக்கிறது).
2. பிரபலமான மேற்பார்வை கற்றல் தருக்கங்கள்
அ. Logistic பின்னடைவு
வகை: வகைப்பாடு.
இது எவ்வாறு இயங்குகிறது: Logistic (sigmoid) எனும்செயலியைப் பயன்படுத்தி பைனரி விளைவு (எ.கா.குப்பை அல்லது இல்லை) நிகழ்தகவை மதிப்பிடுகிறது.
சமன்பாடு: [ P(y=1|x) = \frac{1}{1 + e^{-(b_0 + b_1x_1 + b_2x_2 + … + b_nx_n)}} ]
நன்மைகள்: எளிய, வேகமான, விளக்கக்கூடியது.
வரம்புகள்: நேரியல் அல்லாத உறவுகளுடன் போராடுதல்.
ஆ. முடிவு மரங்கள்
வகை: வகைப்பாடு , பின்னோக்கு.
இது எவ்வாறு செயல்படுகிறது: இயல்புநிலைமதிப்புகளின் அடிப்படையில் தரவை துணைக்குழுக்களாகப் பிரித்து, மரம் போன்ற கட்டமைப்பை உருவாக்குகிறது.
எடுத்துக்காட்டு பிரிப்பு:
இயல்பு: மின்னஞ்சலில் “கட்டணமற்றதாக” உள்ளது.
ஆம் எனில் → குப்பையாக இருக்கலாம்.
இல்லை என்றால் → குப்பையல்லாததாக இருக்கலாம்.
நன்மைகள்: விளக்குவது எளிது, நேரியல் அல்லாத உறவுகளைக் கையாளுகிறது.
வரம்புகள்:அதிக பொருத்துதலுக்கு வாய்ப்புள்ளது (குறிப்பற்ற காடுகள் போன்ற சீரமைப்பு அல்லது குழும முறைகளால் தீர்க்கப்படுகிறது).
இ. ஆதரவு திசையன் இயந்திரங்கள் (SVMs)
வகை: வகைப்பாடு , பின்னடைவு.
இது எவ்வாறு இயங்குகிறது: இயல்புநிலைஇடத்தில் இனங்களை சிறப்பாகப் பிரிக்கும் மிகைசமதளத்தினைக் கண்டறிகின்றது.
முக்கிய கருத்தமைவுகள்:
விளிம்பு: மிகைசமதளத்தின், அருகிலுள்ள தரவு புள்ளிகளுக்கு இடையே உள்ள தூரம் (ஆதரவு திசையன்கள்).
உருவாக்கமைய தந்திரம்: சிக்கலான உறவுகளுக்கான உயர் பரிமாணங்களுக்கு தரவு வரைபடங்கள்.
நன்மைகள்: உயர் பரிமாண தரவுகளுக்கு பயனுள்ளதாக இருக்கும்.
வரம்புகள்: பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை அதிகம்.
3. மாதிரி செயல்திறனை மதிப்பீடு செய்தல்
அ. குறுக்குவழி சரிபார்ப்பு
எல்லா தரவுகளிலும் செயல்திறனைச் சரிபார்க்க தரவுத்தொகுப்பை பல்வேறு துணைக்குழுக்களாக (மடிப்புகள்) பிரிக்கிறது.
எடுத்துக்காட்டு: 5 மடங்கு குறுக்கு சரிபார்ப்பு அதற்கான குறிமுறைவரிகள் பின்வருமாறஉ.
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5)
print(“Accuracy:”, scores.mean())
ஆ. குழப்பமான அணிகள்
வகைப்பாடு மாதிரிகளுக்கான சரியான, தவறான கணிப்புகளைக் காண்பிக்கின்ற அட்டவணை.
எடுத்துக்காட்டு:குப்பை வகைப்பாடு.
கணிக்கப்பட்ட/உண்மையான குப்பையானவை குப்பை அல்ல

கணிக்கப்பட்ட/உண்மையான குப்பையானவை குப்பை அல்ல
குப்பையானவை 90 10
குப்பை அல்ல 5 95

4. நடப்பு உலக எடுத்துக்காட்டு:குப்பை மின்னஞ்சல் வகைப்பாடு
தரவுத்தொகுப்பு
“SMSகுப்பை சேகரிப்பு” தரவுத்தொகுப்பைப் பயன்படுத்திடுக, அதில் பெயரிடப்பட்ட உரைச் செய்திகள் (குப்பை அல்லதுகுப்பை அல்ல) உள்ளன.
படிமுறைகள்:
தரவுத்தொகுப்பை பதிவேற்றிடுக:தரவை ஒரு Pandas DataFrame இல் பதிவேற்றிடுக.
முன் செயலாக்க உரை: நிறுத்தஉரைகளை அகற்றி, சிற்றெழுத்துக்கு மாற்றி, நுழைவுசீட்டுவழங்கிடுக.
உரையை இயல்பாக மாற்றிடுக: கால அதிர்வெண்-தலைகீழ் ஆவண அதிர்வெண் (TF-IDF) vectorization பயன்படுத்திடுக.
தொடர்வண்டி மாதிரி: மின்னஞ்சல்களை வகைப்படுத்த Logisticபின்னோக்கு மாதிரியைப் பயன்படுத்திடுக.
செயல்திறனை மதிப்பிடுக: துல்லியம் , F1 மதிப்பெண் அளவீடுகளைப் பயன்படுத்திடுக.
இதற்கான குறிமுறைவரிகளின் எடுத்துக்காட்டு பின்வருமாறு:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

Load dataset

data = pd.read_csv(‘spam.csv’, encoding=’latin-1′)
data = data[[‘v1’, ‘v2’]].rename(columns={‘v1’: ‘label’, ‘v2’: ‘text’})
data[‘label’] = data[‘label’].map({‘ham’: 0, ‘spam’: 1})

Split data

X_train, X_test, y_train, y_test = train_test_split(data[‘text’], data[‘label’], test_size=0.2, random_state=42)

Text vectorization

vectorizer = TfidfVectorizer(stop_words=’english’)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

Train Logistic Regression model

model = LogisticRegression()
model.fit(X_train_tfidf, y_train)

Predictions and evaluation

y_pred = model.predict(X_test_tfidf)
print(“Accuracy:”, accuracy_score(y_test, y_pred))
print(“Classification Report:\n”, classification_report(y_test, y_pred))

தொடரும்