Machine Learning – 14 – Bivariate (Explanatory Data Analysis)

இரண்டு variables எவ்வாறு தொடர்பு கொண்டுள்ளன என வரைபடம் வரைந்து பார்ப்பது bi-variate analysis ஆகும். இதன் X-அச்சில் ஒன்றும் Y-அச்சில் மற்றொன்றும் வைத்து வரைபடம் வரையப்படும்.

இங்கு ஒவ்வொரு வீட்டினுடைய sqft அளவைப் பொறுத்து அதன் விற்பனை விலை எவ்வாறு மாறுபடுகிறது என்பது scatter plot, heatmap ஆகியவை மூலம் காட்டப்பட்டுள்ளன. HeatMap-ல் இரண்டு வரைபபடங்கள் உள்ளன. ஒன்று seaborn வழங்குகின்ற வரைபடமாகவும், மற்றொன்று matplotlib வழங்குகின்ற வரைபடமாகவும் உள்ளது.

Scatter plot என்பது தரவுகள் இருக்கும் இடத்தை தனித்தனி புள்ளிகளாகக் காட்டும். இதில் தரவுகளைக் குறிப்பிடுவதற்கு புள்ளிகளுக்கு பதிலாக, சிறுசிறு வட்டங்களையோ அல்லது வேறு சில வடிவங்களையோ கூட பயன்படுத்தலாம்.

Heatmap என்பது 2 dimensional data-வை வரைந்து காட்ட உதவும் வரைபபட வகை ஆகும். இங்கு 12*12 மதிப்பு கொண்ட வரைபடம் வரையப்பட்டுள்ளது. Matrix-ல் உள்ள ஒவ்வொரு தனித்தனி மதிப்பும் தனித்தனி நிறத்தால் குறிக்கப்படும். இது பொதுவாக நமது தரவுகள் எவ்விதத்தில் அமைந்துள்ளன எனக் காண உதவும். seaborn மற்றும் matplotlib வழங்குகின்ற இரண்டு வகையான heatmaps இங்கு கொடுக்கப்பட்டுள்ளன.

 


import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("14_input_data.csv")
df = df.fillna(0)
df = df[:500]
fig = plt.figure(figsize=(8,6))
ax = fig.add_subplot(111)
ax.set(title='Living area vs Price of the house',
xlabel='Price', ylabel='Area')
price = df['SalePrice'].tolist()
area = df['GrLivArea'].tolist()
ax.scatter(price,area)
plt.savefig('ScatterPlot.jpg')
df2 = pd.DataFrame()
df2['sale'] = df['SalePrice']
df2['area'] = df['GrLivArea']
fig = plt.figure(figsize=(12,12))
r = sns.heatmap(df2, cmap='BuPu')
plt.savefig('HeatMapSeaborn.jpg')
fig = plt.figure(figsize=(8,6))
ax = fig.add_subplot(111)
ax.set(title="Total Living Sq.Ft",
ylabel='No of Houses', xlabel='Living Sq.Ft')
ax.hist2d(price,area,bins=100)
plt.savefig('HeatMapMatplotlib.jpg')

view raw

bivariate.py

hosted with ❤ by GitHub

Scatter Plot

 

HeatMap – Seaborn

 

HeatMap – Matplotlib

 

 

 

 

%d bloggers like this: