sklearn.datasetsのload_bostonからデータフレームを準備するところまで

some pair plot of boston data

sklean.datasetsのload_boston()で取り出したデータをデータフレームにするところまでのメモです。

import pandas as pd
from sklearn.datasets import load_boston

data = load_boston()
X = data["data"]
y = data["target"]
feature_names = data["feature_names"]
boston_df = pd.DataFrame(data=X, columns=feature_names)
boston_df.head()

出力はこちら。

CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTAT
00.0063218.02.310.00.5386.57565.24.09001.0296.015.3396.904.98
10.027310.07.070.00.4696.42178.94.96712.0242.017.8396.909.14
20.027290.07.070.00.4697.18561.14.96712.0242.017.8392.834.03
30.032370.02.180.00.4586.99845.86.06223.0222.018.7394.632.94
40.069050.02.180.00.4587.14754.26.06223.0222.018.7396.905.33

このテーブルにない系列であるMEDVが現在”y”に入っている”target”の値です。

特になんの工夫もありませんが、いちいち調べるのもどうかと思うので書き置きまで。

ついでに、いくつか系列をとってseabornで可視化しておきます。

import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.rcParams["font.size"] = 14

use_df = boston_df.copy()
use_df["MEDV"] = y
use_cols = ["NOX", "AGE", "TAX","LSTAT","MEDV"]
plt.rcParams["font.size"] = 14

sns.pairplot(data = use_df, vars=use_cols)

some pair plot of boston data

参考資料

sklearn.datasets.load_boston — scikit-learn 0.23.2 documentation
scikit-learn: machine learning in Python