clevernessisamyth

Exam big data pour l'entreprise

Feb 13th, 2022 (edited)
1,028
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Bash 1.38 KB | None | 0 0
  1. exam: 'https://drive.google.com/file/d/1L0x0myiJGDxzzZbc0DwJr2_POwgj5--o/view'
  2.  
  3. # Hive
  4. 1) tables managés (internes), tables unmanagés (externes)
  5.  
  6. 2) SHOW DATABASES LIKE 'p*';
  7.  
  8. 3) On ne doit pas ajouter la clause 'LOCAL', et on doit [prepend?] le chemin vers le fichier avec 'hdfs://'.
  9. i.e: LOAD DATA INPATH 'hdfs://ip:port/chemin_vers_fichier' INTO TABLE ...
  10.  
  11. 4) Il s'agit d'un partitionnement dynamique, la requête crée des partitions (repértoires) avec des valeurs provenant des colonnes (resp. Country, State) de la clause SELECT, et puis alimenter (et écraser) le tableau avec les valeurs des colonnes (...) qui correspondent aux valeurs de Country et State.
  12.  
  13. 5) Le chemin interne doit contenir un fichier et non pas un répertoire, sinon on doit selectionner tous les fichiers dans ce repértoire avec '.../state/*'
  14.  
  15. # Pig
  16. 1)
  17. details = FOREACH student_details GENERATE CONCAT(firstname, ' ', lastname) as nom, age, city as ville;
  18.  
  19. 2)
  20. details_grouped = GROUP student_details BY (age, city);
  21.  
  22. schema:
  23. details_grouped: {
  24.     group: (age: int,city: chararray), student_details: {(lname: chararray,age: int,city: chararray)}
  25. }
  26.  
  27. 3)
  28. details_ordered = ORDER student_details BY age;
  29.  
  30. 4)
  31. avg_ageVille = FOREACH (GROUP student_details BY city) GENERATE group as ville, AVG(student_details.age) as avg_age;
  32.  
  33. 5)
  34. grouped_details = JOIN student_details BY age, employee_details BY age;
Add Comment
Please, Sign In to add comment