Untitled

from pyspark import SparkContext
from pyspark.sql import SparkSession

sc = SparkContext.getOrCreate()
spark = SparkSession(sc)

spark.read.load( "users.csv", format="csv", sep="|" ) \
      .toDF( "id","age","gender","occupation","zip" ) \
      .groupby( "gender" ) \
      .count().show()