PCA (Principal Component Analysis) は、機械学習やデータ分析でよく使われる次元削減の手法です。Pythonでは、sklearn.decompositionモジュールのPCAクラスを使ってPCAを実行することができます。
以下は、PCAを用いてデータセットをフィットさせ、変換する方法を示す簡単な例です。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | from sklearn.decomposition import PCA import numpy as np # Generate a sample dataset np.random.seed(0) X = np.random.randn(100, 5) # Create a PCA object pca = PCA(n_components=2) # Fit the PCA model to the data pca.fit(X) # Transform the data to the first two principal components X_pca = pca.transform(X) |
この例では、100個のサンプルと5個の特徴からなるサンプルデータセットXを生成し、n_components=2、つまり最初の2主成分のみを残したいという条件でPCAモデルを当てはめます。fitメソッドはPCAモデルをデータにフィットさせるために使われ、transformメソッドはデータを最初の2つの主成分に変換するために使われます。変換されたデータはX_pca変数に格納されます。