SHOW:
|
|
- or go back to the newest paste.
| 1 | - | --Изучите статистические выбросы. В переменной result сохраните результат запроса, который выберет даты с числом заказов такси у терминала №5, расположив их от большего к меньшему. Выведите на экран первые пять строк, используя функцию show. |
| 1 | + | --Найдите все даты, на которые пришлось более 200 заказов такси за любой период в 30 минут в этот день. Напечатайте на экране количество таких дней, сохранив результат в переменную result. |
| 2 | ||
| 3 | from pyspark.sql import SparkSession | |
| 4 | ||
| 5 | APP_NAME = "DataFrames" | |
| 6 | SPARK_URL = "local[*]" | |
| 7 | ||
| 8 | spark = SparkSession.builder.appName(APP_NAME) \ | |
| 9 | .config('spark.ui.showConsoleProgress', 'false') \
| |
| 10 | .getOrCreate() | |
| 11 | ||
| 12 | taxi = spark.read.load('/datasets/pickups_terminal_5.csv',
| |
| 13 | format='csv', header='true', inferSchema='true') | |
| 14 | ||
| 15 | taxi = taxi.fillna(0) | |
| 16 | ||
| 17 | taxi.registerTempTable("taxi")
| |
| 18 | ||
| 19 | - | result = spark.sql("SELECT (*) FROM taxi ORDER BY pickups DESC")
|
| 19 | + | result = spark.sql("SELECT count(distinct(date)) FROM taxi WHERE pickups > 200")
|
| 20 | - | print(result.show(5)) |
| 20 | + | print(result.show()) |