pikabuka

Theme 7 _ Lesson 6

Feb 9th, 2022
924
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 6.90 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9.  
  10. using namespace std;
  11.  
  12.  
  13. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  14.  
  15. string ReadLine() {
  16.     string s;
  17.     getline(cin, s);
  18.     return s;
  19. }
  20.  
  21. int ReadLineWithNumber() {
  22.     int result;
  23.     cin >> result;
  24.     ReadLine();
  25.     return result;
  26. }
  27.  
  28. vector<string> SplitIntoWords(const string& text) {
  29.     vector<string> words;
  30.     string word;
  31.     for (const char c : text) {
  32.         if (c == ' ') {
  33.             if (!word.empty()) {
  34.                 words.push_back(word);
  35.                 word.clear();
  36.             }
  37.         } else {
  38.             word += c;
  39.         }
  40.     }
  41.     if (!word.empty()) {
  42.         words.push_back(word);
  43.     }
  44.  
  45.     return words;
  46. }
  47.    
  48. struct Document {
  49.     int id;
  50.     double relevance;
  51.     int rating;
  52. };
  53.  
  54. enum class DocumentStatus {
  55.     ACTUAL,
  56.     IRRELEVANT,
  57.     BANNED,
  58.     REMOVED,
  59. };
  60.  
  61. class SearchServer {
  62. public:
  63.     void SetStopWords(const string& text) {
  64.         for (const string& word : SplitIntoWords(text)) {
  65.             stop_words_.insert(word);
  66.         }
  67.     }    
  68.    
  69.     void AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  70.         const vector<string> words = SplitIntoWordsNoStop(document);
  71.         const double inv_word_count = 1.0 / words.size();
  72.         for (const string& word : words) {
  73.             word_to_document_freqs_[word][document_id] += inv_word_count;
  74.         }
  75.         documents_.emplace(document_id,
  76.             DocumentData{
  77.                 ComputeAverageRating(ratings),
  78.                 status
  79.             });
  80.     }
  81.  
  82.     vector<Document> FindTopDocuments(const string& raw_query, DocumentStatus status = DocumentStatus::ACTUAL) const {            
  83.         const Query query = ParseQuery(raw_query);
  84.         auto matched_documents = FindAllDocuments(query, status);
  85.        
  86.         sort(matched_documents.begin(), matched_documents.end(),
  87.              [](const Document& lhs, const Document& rhs) {
  88.                  return lhs.relevance > rhs.relevance;
  89.              });
  90.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  91.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  92.         }
  93.         return matched_documents;
  94.     }
  95.    
  96.     //ДОБАВИЛ ПО ОБСУЖДЕНИЮ В ТРЕДЕ СЛАКА
  97.     int GetDocumentCount() const {
  98.         return documents_.size();
  99.     }
  100.    
  101. private:
  102.     struct DocumentData {
  103.         int rating;
  104.         DocumentStatus status;
  105.     };
  106.  
  107.     set<string> stop_words_;
  108.     map<string, map<int, double>> word_to_document_freqs_;
  109.     map<int, DocumentData> documents_;
  110.    
  111.     bool IsStopWord(const string& word) const {
  112.         return stop_words_.count(word) > 0;
  113.     }
  114.    
  115.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  116.         vector<string> words;
  117.         for (const string& word : SplitIntoWords(text)) {
  118.             if (!IsStopWord(word)) {
  119.                 words.push_back(word);
  120.             }
  121.         }
  122.         return words;
  123.     }
  124.    
  125.     static int ComputeAverageRating(const vector<int>& ratings) {
  126.         if (ratings.empty()) {
  127.             return 0;
  128.         }
  129.         int rating_sum = 0;
  130.         for (const int rating : ratings) {
  131.             rating_sum += rating;
  132.         }
  133.         return rating_sum / static_cast<int>(ratings.size());
  134.     }
  135.    
  136.     struct QueryWord {
  137.         string data;
  138.         bool is_minus;
  139.         bool is_stop;
  140.     };
  141.    
  142.     QueryWord ParseQueryWord(string text) const {
  143.         bool is_minus = false;
  144.         // Word shouldn't be empty
  145.         if (text[0] == '-') {
  146.             is_minus = true;
  147.             text = text.substr(1);
  148.         }
  149.         return {
  150.             text,
  151.             is_minus,
  152.             IsStopWord(text)
  153.         };
  154.     }
  155.    
  156.     struct Query {
  157.         set<string> plus_words;
  158.         set<string> minus_words;
  159.     };
  160.    
  161.     Query ParseQuery(const string& text) const {
  162.         Query query;
  163.         for (const string& word : SplitIntoWords(text)) {
  164.             const QueryWord query_word = ParseQueryWord(word);
  165.             if (!query_word.is_stop) {
  166.                 if (query_word.is_minus) {
  167.                     query.minus_words.insert(query_word.data);
  168.                 } else {
  169.                     query.plus_words.insert(query_word.data);
  170.                 }
  171.             }
  172.         }
  173.         return query;
  174.     }
  175.    
  176.     // Existence required
  177.     double ComputeWordInverseDocumentFreq(const string& word) const {
  178.         return log(documents_.size() * 1.0 / word_to_document_freqs_.at(word).size());
  179.     }
  180.  
  181.     vector<Document> FindAllDocuments(const Query& query, DocumentStatus status) const {
  182.         map<int, double> document_to_relevance;
  183.         for (const string& word : query.plus_words) {
  184.             if (word_to_document_freqs_.count(word) == 0) {
  185.                 continue;
  186.             }
  187.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  188.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  189.                 if (documents_.at(document_id).status == status) {
  190.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  191.                 }
  192.             }
  193.         }
  194.        
  195.         for (const string& word : query.minus_words) {
  196.             if (word_to_document_freqs_.count(word) == 0) {
  197.                 continue;
  198.             }
  199.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  200.                 document_to_relevance.erase(document_id);
  201.             }
  202.         }
  203.  
  204.         vector<Document> matched_documents;
  205.         for (const auto [document_id, relevance] : document_to_relevance) {
  206.             matched_documents.push_back({
  207.                 document_id,
  208.                 relevance,
  209.                 documents_.at(document_id).rating
  210.             });
  211.         }
  212.         return matched_documents;
  213.     }
  214.    
  215.     //ДОБАВЛЕННЫЙ МЕТОД
  216.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query, int document_id) const {
  217.         Query query = ParseQuery(raw_query);
  218.         vector<string> words;
  219.         DocumentStatus status = documents_.at(document_id).status;
  220.        
  221.         for (const string& word : query.minus_words) {
  222.             if (word_to_document_freqs_.count(word) > 0 && word_to_document_freqs_.at(word).count(document_id) > 0) {
  223.                 return tuple(words, status);
  224.             }
  225.         }
  226.        
  227.         for (const string& word : query.plus_words) {
  228.             if (word_to_document_freqs_.count(word) > 0 &&                                           word_to_document_freqs_.at(word).count(document_id) > 0) {
  229.                 words.push_back(word);
  230.             }
  231.         }
  232.        
  233.         return tuple(words, status);
  234.     }
  235. };
Advertisement
Add Comment
Please, Sign In to add comment