மேற்பார்வையிடப்படாத கற்றல், பெயரிடப்படாத தரவுகளிலிருந்து நுண்ணறிவுகளைப் பிரித்தெடுப்பதற்கான சக்திவாய்ந்த நுட்பங்களை வழங்குகிறது, இது மறைக்கப்பட்ட வடிவங்கள் , உறவுகளைக் கண்டறிவதற்கு அவசியமாகிறது. இந்தக் கட்டுரையில், K-Means , படிநிலை தொகுதி போன்ற தொகுதியின் தருக்கங்களில் கவனம் செலுத்துவோம் ,முதன்மை கூறு பகுப்பாய்வு (PCA) போன்ற பரிமாணக் குறைப்பு நுட்பங்களை அறிமுகப்படுத்துவோம். வாடிக்கையாளர் பிரிவு , ஒழுங்கின்மையை கண்டறிதல் போன்ற நடப்பு–உலகப் பயன்பாடுகள், இந்த முறைகளின் நடைமுறைப் பயன்பாட்டை நிரூபிக்கின்றன.
1. மேற்பார்வை செய்யப்படாத கற்றல் என்றால் என்ன?
வரையறை: முன்பே இருக்கின்ற பெயர்கள் இல்லாமல் தரவிலிருந்து கற்றல் வழிமுறைகளாகும்.
குறிக்கோள்: குழு அல்லது கட்டமைப்பு தரவுஆனது அர்த்தமுள்ள வழிகளில், உள்ளார்ந்த கட்டமைப்புகளை வெளிப்படுத்துகிறது.
பயன்பாடுகள்: சந்தைப் பிரிவு., மோசடி கண்டறிதல்., பரிந்துரை அமைப்புகள்.
2. தொகுதியின் தருக்கங்கள்
அ. K- என்றால் தொகுதியாகும்(cluster)
இது எவ்வாறு செயல்படுகிறது:
தொகுதிகளின் எண்ணிக்கையைத் தேர்ந்தெடுத்திடுக ((k)).
cluster centroids தோராயமாக துவக்கிடுக.
அருகிலுள்ள centroids இற்கு தரவு புள்ளிகளை ஒதுக்குக.
பணிகளின் அடிப்படையில் centroidsஐ மீண்டும் கணக்கிடுக.
ஒன்றிணைக்கும் வரை மீண்டும் இந்த பணிகளை செய்திடுக.
எடுத்துக்காட்டு பயன்பாட்டு வழக்கம்: வாங்கும் நடத்தை அடிப்படையில் வாடிக்கையாளர்களைக் குழுவாக்குதல்.
நன்மைகள்: எளியது, விரைவானது, அளவிடக்கூடியது.
வரம்புகள்: முன்–வரையறை தேவை (k); வெளியாட்களுக்கு உணர்திறன்.
எடுத்துக்காட்டு குறிமுறைவரிகள்:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_blobs
# Generate synthetic data
X, _ = make_blobs(n_samples=300, centers=4, random_state=42, cluster_std=1.0)
# Apply K-Means
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_
# Visualize clusters
sns.scatterplot(x=X[:, 0], y=X[:, 1], hue=labels, palette=’viridis’)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c=’red’, label=’Centroids’)
plt.legend()
plt.show()
ஆ. படிநிலை தொகுதி
இது எவ்வாறு செயல்படுகிறது:
தரவுக் குழுக்களைப் பிரதிநிதித்துவப்படுத்த மரம் போன்ற அமைப்பை (dendrogram) உருவாக்குகிறது.
இரண்டு அணுகுமுறைகள்:
ஒருங்கிணைப்பு: மேலிருந்து–கீழாக, ஒன்றிணைக்கும் தொகுதிகள்.
பிரித்தல்: மேலிருந்து கீழாக, பிளவுபடும் தொகுதிகள்.
எடுத்துக்காட்டு பயன்பாட்டு வழக்கம்: உயிர் தகவலியலில் மரபணு வெளிப்பாடு பகுப்பாய்வு.
நன்மைகள்: தொகுதிகளின் எண்ணிக்கையை முன்கூட்டியே வரையறுக்க வேண்டிய அவசியமில்லை.
வரம்புகள்: பெரிய தரவுத்தொகுப்புகளுக்கு கணக்கீட்டு ரீதியாக விலை அதிகம்.
எடுத்துக்காட்டு குறிமுறைவரிகள் :
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
# Generate synthetic data
X, _ = make_blobs(n_samples=150, centers=3, random_state=42, cluster_std=1.2)
# Apply hierarchical clustering
linked = linkage(X, method=’ward’)
# Plot dendrogram
plt.figure(figsize=(10, 7))
dendrogram(linked, truncate_mode=’lastp’, p=10, leaf_rotation=90, leaf_font_size=10)
plt.title(‘Hierarchical Clustering Dendrogram’)
plt.show()
3. Dimensionality Reduction
a. Principal Component Analysis (PCA)
Purpose: Reduce the number of dimensions while retaining most of the data’s variability.
How It Works:
Identifies principal components (orthogonal vectors) capturing maximum variance.
Projects data onto these components.
3. பரிமாணக் குறைப்பு
அ. முதன்மை கூறு பகுப்பாய்வு (PCA)
நோக்கம்: தரவுகளின் மாறுபாட்டைத் தக்கவைத்துக்கொண்டு பரிமாணங்களின் எண்ணிக்கையைக் குறைத்திடுக.
இது எவ்வாறு செயல்படுகிறது:
அதிகபட்ச மாறுபாட்டைக் கைப்பற்றும் முதன்மை கூறுகளை (orthogonal vectors) அடையாளம் காண்பிக்கிறது.
இந்த கூறுகள் மீதான செயல்திட்ட தரவு.
எடுத்துக்காட்டினைப் பயன்படுத்துதல்: உயர் பரிமாணத் தரவை இருபரிமாண(2D) அல்லது முப்பரிமாணத்தில்(3D) காட்சிப்படுத்துதல்.
நன்மைகள்: சத்தத்தை குறைக்கிறது , கணக்கீட்டு செயல்திறனை மேம்படுத்துகிறது.
வரம்புகள்: உண்மையான இயல்புகளின் விளக்கத்தை இழக்கலாம்.
எடுத்துக்காட்டு குறிமுறைவரிகள்:
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
# Load Iris dataset
iris = load_iris()
X = iris.data
y = iris.target
# Apply PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
# Plot PCA results
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap=’viridis’, edgecolor=’k’)
plt.xlabel(‘Principal Component 1’)
plt.ylabel(‘Principal Component 2’)
plt.title(‘PCA on Iris Dataset’)
plt.show()
4. நடப்பு உலக பயன்பாடுகள்
அ. வாடிக்கையாளர் பிரிவு
குறிக்கோள்: நடத்தை, செயல்விளக்கவரைகலை அல்லது விருப்பத்தேர்வுகளின் அடிப்படையில் வாடிக்கையாளர்களைக் குழுவாக்கிடுக.
அணுகுமுறை:
தொகுதியான கொள்முதல் தரவிற்கு K-Means ஐப் பயன்படுத்திடுக.
நுண்ணறிவுக்காக தொகுதிகளைக் காட்சிப்படுத்திடுக.
ஆ. ஒழுங்கின்மை கண்டறிதல்
இலக்கு: மோசடியான பரிமாற்றங்கள் போன்ற வெளியாட்களை அல்லது அசாதாரண வடிவங்களை அடையாளம் காண்க.
அணுகுமுறை:
சாதாரண தரவு வடிவங்களைக் கண்டறிய தொகுதியைப் பயன்படுத்திடுக.
cluster centroidsஇலிருந்து வெகு தொலைவில் உள்ள புள்ளிகள் முரண்பாடுகளாகக் கொடியிடப்படுகின்றன.
தொடரும்