Exam big data pour l'entreprise

exam: 'https://drive.google.com/file/d/1L0x0myiJGDxzzZbc0DwJr2_POwgj5--o/view'

# Hive
1) tables managés (internes), tables unmanagés (externes)

2) SHOW DATABASES LIKE 'p*';

3) On ne doit pas ajouter la clause 'LOCAL', et on doit [prepend?] le chemin vers le fichier avec 'hdfs://'.
i.e: LOAD DATA INPATH 'hdfs://ip:port/chemin_vers_fichier' INTO TABLE ...

4) Il s'agit d'un partitionnement dynamique, la requête crée des partitions (repértoires) avec des valeurs provenant des colonnes (resp. Country, State) de la clause SELECT, et puis alimenter (et écraser) le tableau avec les valeurs des colonnes (...) qui correspondent aux valeurs de Country et State.

5) Le chemin interne doit contenir un fichier et non pas un répertoire, sinon on doit selectionner tous les fichiers dans ce repértoire avec '.../state/*'

# Pig
1)
details = FOREACH student_details GENERATE CONCAT(firstname, ' ', lastname) as nom, age, city as ville;

2)
details_grouped = GROUP student_details BY (age, city);

schema:
details_grouped: {
    group: (age: int,city: chararray), student_details: {(lname: chararray,age: int,city: chararray)}
}

3)
details_ordered = ORDER student_details BY age;

4)
avg_ageVille = FOREACH (GROUP student_details BY city) GENERATE group as ville, AVG(student_details.age) as avg_age;

5)
grouped_details = JOIN student_details BY age, employee_details BY age;