Advertisement
AntonHuretskyi

Untitled

Jan 10th, 2023
527
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
SPARK 2.67 KB | None | 0 0
  1. import findspark
  2. findspark.init()
  3. findspark.find()
  4. import os
  5. os.environ['HADOOP_CONF_DIR'] = '/etc/hadoop/conf'
  6. os.environ['YARN_CONF_DIR'] = '/etc/hadoop/conf'
  7.  
  8. import pyspark
  9. from pyspark.sql import SparkSession
  10. from pyspark.context import SparkContext
  11.  
  12. # импортируем оконную функцию и модуль Spark Functions
  13. from pyspark.sql.window import Window
  14. import pyspark.sql.functions as F
  15.  
  16. spark = SparkSession \
  17.         .builder \
  18.         .master("yarn") \
  19.         .config("spark.driver.cores", "4") \
  20.         .config("spark.driver.memory", "4g") \
  21.         .appName("CreateJob") \
  22.         .getOrCreate()
  23.  
  24. # Прочитайте таблицу событий из слоя сырых данных.
  25. events = spark.read.json("hdfs://rc1a-dataproc-m-dg5lgqqm7jju58f9.mdb.yandexcloud.net/user/master/data/events")
  26.  
  27. # При этом сохраните сырые JSON-файлы в формат Parquet, чтобы ускорить процесс чтения данных.
  28. events.write.option("header",True).partitionBy("date", "event_type").mode("overwrite").parquet("hdfs://rc1a-dataproc-m-dg5lgqqm7jju58f9.mdb.yandexcloud.net/user/ahuretskyi/data/events")
  29.  
  30. events.select('event', 'date', 'event_type').orderBy(F.col('date').desc()).show(10)
  31.  
  32. Вывод:
  33. +--------------------+----------+----------+
  34. |               event|      date|event_type|
  35. +--------------------+----------+----------+
  36. |[,,,, anyone how ...|2022-06-21|   message|
  37. |[,,,, How to acce...|2022-06-21|   message|
  38. |[,,,, ok somebody...|2022-06-21|   message|
  39. |[,,,, any good in...|2022-06-20|   message|
  40. |[,,,, I have been...|2022-06-20|   message|
  41. |[,,,, yes,, 17336...|2022-06-20|   message|
  42. |[,,,, hi!,, 63830...|2022-06-20|   message|
  43. |[,,,, it is just ...|2022-06-20|   message|
  44. |[,,,, alguem a,, ...|2022-06-20|   message|
  45. |[,,,, AFAIK not p...|2022-06-20|   message|
  46. +--------------------+----------+----------+
  47. only showing top 10 rows
  48.  
  49.  
  50. Ожидаемый вывод:
  51.    +--------------------+----------+------------+
  52.    |               event|      date|  event_type|
  53.    +--------------------+----------+------------+
  54.    |[[19342], 987160,...|2022-05-31|     message|
  55.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  56.    |[[26358], 247511,...|2022-05-31|     message|
  57.    |[[79792], 748847,...|2022-05-31|     message|
  58.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  59.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  60.    |[[151897], 396845...|2022-05-31|     message|
  61.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  62.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  63.    |[,, 2022-05-31 23...|2022-05-31|subscription|
  64.    +--------------------+----------+------------+
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement