Untitled

import numpy
from pyspark import SQLContext as sqlContext
from pyspark.ml.feature import StopWordsRemover

sentenceData = sqlContext.createDataFrame([
    (0, ["I", "saw", "the", "red", "baloon"]),
    (1, ["Mary", "had", "a", "little", "lamb"])
], ["label", "raw"])

remover = StopWordsRemover(inputCol="raw", outputCol="filtered")
remover.transform(sentenceData).show(truncate=False)