multiplelinearregression


# B) MULTIPLE REGRESSION
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv('BostonHousing.csv')
data.head()

#data=pd.read_csv('BostonHousing.csv')
# X= pd.DataFrame(data.iloc[:,:-1])
# y= pd.DataFrame(data.iloc[:,-1])
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values
print(X)

print(y)

sns.heatmap(data.corr())

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3, random_state=50)

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train,y_train)

y_pred = lr.predict(X_test)
print(y_pred)

from sklearn.metrics import r2_score
r2_score(y_test,y_pred)

plt.scatter(y_test,y_pred)
plt.xlabel('actual')
plt.ylabel('predicted')
plt.title('actual vs predicted')
plt.show()

pred_y_dataset = pd.DataFrame({'Actual':y_test,'Predicted':y_pred,'Difference': y_test-y_pred})
pred_y_dataset[0:10]

y_pred=lr.predict(X_test)
y_pred=pd.DataFrame(y_pred,columns=['Predicted value'])
y_pred

y_test

#coeff_df=pd.concat([w,v],axis=1,join='inner')
#coeff_df

from sklearn import metrics
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Resultant Mean Square Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))