Untitled

pca = ('reduce_dim', PCA(n_components = N_features / 2))
svc = ('svc', SVC(kernel = 'poly', C = 10, degree = 4, max_iter = 10000000))
kmeans = ('kmeans', KMeans(n_clusters = 5))
tree = ('tree', DecisionTreeClassifier())
transform = ('anova', feature_selection.SelectPercentile(feature_selection.f_classif, percentile = 50))

parameters = {
    "reduce_dim__n_components": [N_features / 2, N_features / 3, N_features / 4],
    "kmeans__n_clusters": [3, 6, 8, 10]
}

estimators = [
    pca,
    kmeans,
    tree
]
pipe = Pipeline(estimators)
grid = GridSearchCV(pipe, param_grid = parameters, n_jobs=-1, cv = KFold(n_splits=3, random_state = 42))
clf = grid


# Example starting point. Try investigating other evaluation techniques!
from sklearn.model_selection import train_test_split
features_train, features_test, labels_train, labels_test = \
    train_test_split(features, labels, test_size=0.3, random_state=42, shuffle = False)

clf.fit(features, labels)
print clf.best_score_