பகுதி 5: நாமே நம்முடைய சொந்த செய்யறிவை(AI) உருவாக்குதல் -பயிற்சித் தொடர்– – மேற்பார்வை செய்யப்படாத கற்றலையும் தொகுதியையும் ஆய்வுசெய்தல்

மேற்பார்வையிடப்படாத கற்றல், பெயரிடப்படாத தரவுகளிலிருந்து நுண்ணறிவுகளைப் பிரித்தெடுப்பதற்கான சக்திவாய்ந்த நுட்பங்களை வழங்குகிறது, இது மறைக்கப்பட்ட வடிவங்கள் , உறவுகளைக் கண்டறிவதற்கு அவசியமாகிறது. இந்தக் கட்டுரையில், K-Means , படிநிலை தொகுதி போன்ற தொகுதியின் தருக்கங்களில் கவனம் செலுத்துவோம் ,முதன்மை கூறு பகுப்பாய்வு (PCA) போன்ற பரிமாணக் குறைப்பு நுட்பங்களை அறிமுகப்படுத்துவோம். வாடிக்கையாளர் பிரிவு , ஒழுங்கின்மையை கண்டறிதல் போன்ற நடப்புஉலகப் பயன்பாடுகள், இந்த முறைகளின் நடைமுறைப் பயன்பாட்டை நிரூபிக்கின்றன.

1. மேற்பார்வை செய்யப்படாத கற்றல் என்றால் என்ன?

வரையறை: முன்பே இருக்கின்ற பெயர்கள் இல்லாமல் தரவிலிருந்து கற்றல் வழிமுறைகளாகும்.

குறிக்கோள்: குழு அல்லது கட்டமைப்பு தரவுஆனது அர்த்தமுள்ள வழிகளில், உள்ளார்ந்த கட்டமைப்புகளை வெளிப்படுத்துகிறது.

பயன்பாடுகள்: சந்தைப் பிரிவு., மோசடி கண்டறிதல்., பரிந்துரை அமைப்புகள்.

2. தொகுதியின் தருக்கங்கள்

. K- என்றால் தொகுதியாகும்(cluster)

இது எவ்வாறு செயல்படுகிறது:

தொகுதிகளின் எண்ணிக்கையைத் தேர்ந்தெடுத்திடுக ((k)).

cluster centroids தோராயமாக துவக்கிடுக.

அருகிலுள்ள centroids இற்கு தரவு புள்ளிகளை ஒதுக்குக.

பணிகளின் அடிப்படையில் centroids மீண்டும் கணக்கிடுக.

ஒன்றிணைக்கும் வரை மீண்டும் இந்த பணிகளை செய்திடுக.

எடுத்துக்காட்டு பயன்பாட்டு வழக்கம்: வாங்கும் நடத்தை அடிப்படையில் வாடிக்கையாளர்களைக் குழுவாக்குதல்.

நன்மைகள்: எளியது, விரைவானது, அளவிடக்கூடியது.

வரம்புகள்: முன்வரையறை தேவை (k); வெளியாட்களுக்கு உணர்திறன்.

எடுத்துக்காட்டு குறிமுறைவரிகள்:

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.datasets import make_blobs

# Generate synthetic data

X, _ = make_blobs(n_samples=300, centers=4, random_state=42, cluster_std=1.0)

# Apply K-Means

kmeans = KMeans(n_clusters=4, random_state=42)

kmeans.fit(X)

labels = kmeans.labels_

# Visualize clusters

sns.scatterplot(x=X[:, 0], y=X[:, 1], hue=labels, palette=’viridis’)

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c=’red’, label=’Centroids’)

plt.legend()

plt.show()

. படிநிலை தொகுதி

இது எவ்வாறு செயல்படுகிறது:

தரவுக் குழுக்களைப் பிரதிநிதித்துவப்படுத்த மரம் போன்ற அமைப்பை (dendrogram) உருவாக்குகிறது.

இரண்டு அணுகுமுறைகள்:

ஒருங்கிணைப்பு: மேலிருந்துகீழாக, ஒன்றிணைக்கும் தொகுதிகள்.

பிரித்தல்: மேலிருந்து கீழாக, பிளவுபடும் தொகுதிகள்.

எடுத்துக்காட்டு பயன்பாட்டு வழக்கம்: உயிர் தகவலியலில் மரபணு வெளிப்பாடு பகுப்பாய்வு.

நன்மைகள்: தொகுதிகளின் எண்ணிக்கையை முன்கூட்டியே வரையறுக்க வேண்டிய அவசியமில்லை.

வரம்புகள்: பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை அதிகம்.

எடுத்துக்காட்டு குறிமுறைவரிகள் :

from scipy.cluster.hierarchy import dendrogram, linkage

from sklearn.datasets import make_blobs

import matplotlib.pyplot as plt

# Generate synthetic data

X, _ = make_blobs(n_samples=150, centers=3, random_state=42, cluster_std=1.2)

# Apply hierarchical clustering

linked = linkage(X, method=’ward’)

# Plot dendrogram

plt.figure(figsize=(10, 7))

dendrogram(linked, truncate_mode=’lastp’, p=10, leaf_rotation=90, leaf_font_size=10)

plt.title(‘Hierarchical Clustering Dendrogram’)

plt.show()

3. Dimensionality Reduction

a. Principal Component Analysis (PCA)

Purpose: Reduce the number of dimensions while retaining most of the data’s variability.

How It Works:

Identifies principal components (orthogonal vectors) capturing maximum variance.

Projects data onto these components.

3. பரிமாணக் குறைப்பு

. முதன்மை கூறு பகுப்பாய்வு (PCA)

நோக்கம்: தரவுகளின் மாறுபாட்டைத் தக்கவைத்துக்கொண்டு பரிமாணங்களின் எண்ணிக்கையைக் குறைத்திடுக.

இது எவ்வாறு செயல்படுகிறது:

அதிகபட்ச மாறுபாட்டைக் கைப்பற்றும் முதன்மை கூறுகளை (orthogonal vectors) அடையாளம் காண்பிக்கிறது.

இந்த கூறுகள் மீதான செயல்திட்ட தரவு.

எடுத்துக்காட்டினைப் பயன்படுத்துதல்: உயர் பரிமாணத் தரவை இருபரிமாண(2D) அல்லது முப்பரிமாணத்தில்(3D) காட்சிப்படுத்துதல்.

நன்மைகள்: சத்தத்தை குறைக்கிறது , கணக்கீட்டு செயல்திறனை மேம்படுத்துகிறது.

வரம்புகள்: உண்மையான இயல்புகளின் விளக்கத்தை இழக்கலாம்.

எடுத்துக்காட்டு குறிமுறைவரிகள்:

from sklearn.decomposition import PCA

from sklearn.datasets import load_iris

import matplotlib.pyplot as plt

# Load Iris dataset

iris = load_iris()

X = iris.data

y = iris.target

# Apply PCA

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X)

# Plot PCA results

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap=’viridis’, edgecolor=’k’)

plt.xlabel(‘Principal Component 1’)

plt.ylabel(‘Principal Component 2’)

plt.title(‘PCA on Iris Dataset’)

plt.show()

4. நடப்பு உலக பயன்பாடுகள்

. வாடிக்கையாளர் பிரிவு

குறிக்கோள்: நடத்தை, செயல்விளக்கவரைகலை அல்லது விருப்பத்தேர்வுகளின் அடிப்படையில் வாடிக்கையாளர்களைக் குழுவாக்கிடுக.

அணுகுமுறை:

தொகுதியான கொள்முதல் தரவிற்கு K-Means ஐப் பயன்படுத்திடுக.

நுண்ணறிவுக்காக தொகுதிகளைக் காட்சிப்படுத்திடுக.

. ஒழுங்கின்மை கண்டறிதல்

இலக்கு: மோசடியான பரிமாற்றங்கள் போன்ற வெளியாட்களை அல்லது அசாதாரண வடிவங்களை அடையாளம் காண்க.

அணுகுமுறை:

சாதாரண தரவு வடிவங்களைக் கண்டறிய தொகுதியைப் பயன்படுத்திடுக.

cluster centroidsலிருந்து வெகு தொலைவில் உள்ள புள்ளிகள் முரண்பாடுகளாகக் கொடியிடப்படுகின்றன.

தொடரும்