Advertisement
gurenko

Untitled

May 20th, 2024
503
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 14.85 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <numeric>
  6. #include <set>
  7. #include <string>
  8. #include <utility>
  9. #include <vector>
  10.  
  11. using namespace std;
  12.  
  13. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  14.  
  15. string ReadLine() {
  16.     string s;
  17.     getline(cin, s);
  18.     return s;
  19. }
  20.  
  21. int ReadLineWithNumber() {
  22.     int result;
  23.     cin >> result;
  24.     ReadLine();
  25.     return result;
  26. }
  27.  
  28. vector<string> SplitIntoWords(const string& text) {
  29.     vector<string> words;
  30.     string word;
  31.     for (const char c : text) {
  32.         if (c == ' ') {
  33.             if (!word.empty()) {
  34.                 words.push_back(word);
  35.                 word.clear();
  36.             }
  37.         } else {
  38.             word += c;
  39.         }
  40.     }
  41.     if (!word.empty()) {
  42.         words.push_back(word);
  43.     }
  44.  
  45.     return words;
  46. }
  47.  
  48. struct Document {
  49.     Document()= default;
  50.  
  51.     Document(int id, double rel, int rat):
  52.     id(id), relevance(rel), rating(rat)
  53.     {}
  54.     int id = 0;
  55.     double relevance = 0;
  56.     int rating = 0;
  57. };
  58.  
  59. enum class DocumentStatus {
  60.     ACTUAL,
  61.     IRRELEVANT,
  62.     BANNED,
  63.     REMOVED,
  64. };
  65.  
  66. class SearchServer {
  67. public:
  68.  
  69.     // Defines an invalid document id
  70.     // You can refer to this constant as SearchServer::INVALID_DOCUMENT_ID
  71.     inline static constexpr int INVALID_DOCUMENT_ID = -1;
  72.  
  73.     SearchServer(){
  74.         stop_words_.insert("");
  75.     }
  76.  
  77.     template <typename StringCollection>
  78.         explicit SearchServer(const StringCollection& stop_words) {
  79.         for (const auto& element: stop_words){
  80.             stop_words_.emplace(element);
  81.         }
  82.     }
  83.  
  84.     explicit SearchServer(const string& stop_words_text):SearchServer(SplitIntoWords(stop_words_text)){}
  85.  
  86.     void SetStopWords(const string& text) {
  87.         for (const string& word : SplitIntoWords(text)) {
  88.             stop_words_.insert(word);
  89.         }
  90.     }
  91.  
  92.     [[nodiscard]] bool AddDocument(int document_id, const string& document, DocumentStatus status, const vector<int>& ratings) {
  93.        
  94.         if (document_id < 0 || documents_.count(document_id) > 0) {
  95.             return false;
  96.         }
  97.  
  98.         const vector<string> words = SplitIntoWordsNoStop(document);
  99.         const double inv_word_count = 1.0 / words.size();
  100.         for (const string& word : words) {
  101.             if (!IsValidWord(word)) {
  102.                 return false;
  103.             }
  104.             word_to_document_freqs_[word][document_id] += inv_word_count;
  105.         }
  106.         documents_.emplace(document_id, DocumentData{ComputeAverageRating(ratings), status});
  107.  
  108.         document_index_.push_back(document_id);
  109.         ++document_count_;
  110.         return true;
  111.     }
  112.  
  113.     //  [[nodiscard]] bool FindTopDocuments(const string& raw_query, DocumentStatus doc_status = DocumentStatus::ACTUAL,  vector<Document>& result) const{
  114.            
  115.     //         if (FindTopDocuments(
  116.     //         raw_query, [doc_status](int document_id, DocumentStatus document_status, int rating) {
  117.     //             return document_status == doc_status;
  118.     //         }, result)) {
  119.     //             return true;
  120.     //         }
  121.     //     // return false;
  122.     //     //     return FindTopDocuments(raw_query, [doc_status](int document_id, DocumentStatus status, int rating,  vector<Document>& result) { return status == doc_status; });
  123.     // }
  124.  
  125.     // vector<Document> FindTopDocuments(const string& raw_query) const {
  126.     //     return FindTopDocuments(raw_query, [](int document_id, DocumentStatus status, int rating) { return status == DocumentStatus::ACTUAL; });
  127.     // }
  128.  
  129.     template <typename DocumentPredicate>
  130.     [[nodiscard]] bool FindTopDocuments(const string& raw_query, DocumentPredicate document_predicate,
  131.                                         vector<Document>& result) const {
  132.         Query query;
  133.         bool query_parsing_result = ParseQuery(raw_query, query);
  134.         if (!query_parsing_result) {
  135.             return false;
  136.         }
  137.         //const Query query = ParseQuery(raw_query);
  138.         auto matched_documents = FindAllDocuments(query, document_predicate);
  139.  
  140.         sort(matched_documents.begin(), matched_documents.end(),
  141.              [](const Document& lhs, const Document& rhs) {
  142.                 if (abs(lhs.relevance - rhs.relevance) < std::numeric_limits<double>::epsilon()) {
  143.                     return lhs.rating > rhs.rating;
  144.                 }
  145.                 return lhs.relevance > rhs.relevance;
  146.                  
  147.              });
  148.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  149.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  150.         }
  151.         // return matched_documents;
  152.        
  153.         if (matched_documents.empty()) {
  154.             return false;
  155.         }
  156.         result = matched_documents;
  157.         return true;
  158.     }
  159.  
  160.     [[nodiscard]] bool FindTopDocuments(const string& raw_query, DocumentStatus status,
  161.                                         vector<Document>& result) const {
  162.         if (FindTopDocuments(
  163.             raw_query, [status](int document_id, DocumentStatus document_status, int rating) {
  164.                 return document_status == status;
  165.             }, result)) {
  166.                 return true;
  167.             }
  168.         return false;
  169.     }
  170.     [[nodiscard]] bool FindTopDocuments(const string& raw_query, vector<Document>& result) const {
  171.         DocumentStatus status = DocumentStatus::ACTUAL;
  172.         if (FindTopDocuments(
  173.             raw_query, [status](int document_id, DocumentStatus document_status, int rating) {
  174.                 return document_status == status;
  175.             }, result)) {
  176.                 return true;
  177.             }
  178.         return false;
  179.     }
  180.  
  181.     int GetDocumentCount() const {
  182.         return documents_.size();
  183.     }
  184.  
  185.     [[nodiscard]] bool MatchDocument(const string& raw_query, int document_id,
  186.                                      tuple<vector<string>, DocumentStatus>& result) const {
  187.        
  188.         //const Query query = ParseQuery(raw_query);
  189.         Query query;
  190.         bool query_parsing_result = ParseQuery(raw_query, query);
  191.         if (!query_parsing_result) {
  192.             return false;
  193.         }
  194.         vector<string> matched_words;
  195.         for (const string& word : query.plus_words) {
  196.             if (word_to_document_freqs_.count(word) == 0) {
  197.                 continue;
  198.             }
  199.             if (word_to_document_freqs_.at(word).count(document_id)) {
  200.                 matched_words.push_back(word);
  201.             }
  202.         }
  203.         for (const string& word : query.minus_words) {
  204.             if (word_to_document_freqs_.count(word) == 0) {
  205.                 continue;
  206.             }
  207.             if (word_to_document_freqs_.at(word).count(document_id)) {
  208.                 matched_words.clear();
  209.                 break;
  210.             }
  211.         }
  212.         //return {matched_words, documents_.at(document_id).status};
  213.  
  214.        
  215.         if (matched_words.empty()) {
  216.             return false;
  217.         }
  218.         result = {matched_words, documents_.at(document_id).status};
  219.         return true;
  220.     }
  221.  
  222.     int GetDocumentId(int index) const {
  223.    
  224.         if ((index<0 || index >= document_count_) || document_index_.empty()){
  225.             // cerr << "Индекс переданного документа выходит за пределы допустимого диапазона (0; количество документов)"s << endl;
  226.             return SearchServer::INVALID_DOCUMENT_ID;
  227.  
  228.         } else{
  229.             return document_index_.at(index);
  230.         }
  231.     }
  232.  
  233. private:
  234.     struct DocumentData {
  235.         int rating;
  236.         DocumentStatus status;
  237.     };
  238.  
  239.     set<string> stop_words_;
  240.     map<string, map<int, double>> word_to_document_freqs_;
  241.     map<int, DocumentData> documents_;
  242.  
  243.     bool IsStopWord(const string& word) const {
  244.         return stop_words_.count(word) > 0;
  245.     }
  246.  
  247.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  248.         vector<string> words;
  249.         for (const string& word : SplitIntoWords(text)) {
  250.             if (!IsStopWord(word)) {
  251.                 // if (!IsValidWord(word)){
  252.                 //     cerr << "Документ содержит недопустимы символы" << endl;
  253.  
  254.                 // }
  255.                 words.push_back(word);
  256.             }
  257.         }
  258.         return words;
  259.     }
  260.  
  261.     static int ComputeAverageRating(const vector<int>& ratings) {
  262.         if (ratings.empty()) {
  263.             return 0;
  264.         }
  265.         //cd int rating_sum = accumulate(ratings.begin(), ratings.end(), 0);
  266.         // for (const int rating : ratings) {
  267.         //     rating_sum += rating;
  268.         // }
  269.  
  270.         return accumulate(ratings.begin(), ratings.end(), 0) / static_cast<int>(ratings.size());
  271.     }
  272.  
  273.     static bool IsValidWord(const string& word) {
  274.         // A valid word must not contain special characters
  275.         return none_of(word.begin(), word.end(), [](char c) {
  276.             return c >= '\0' && c < ' ';
  277.         });
  278.     }
  279.  
  280.     struct QueryWord {
  281.         string data;
  282.         bool is_minus;
  283.         bool is_stop;
  284.     };
  285.  
  286.     [[nodiscard]] bool ParseQueryWord(string text, QueryWord& result) const {
  287.         bool is_minus = false;
  288.         // Word shouldn't be empty
  289.         if (text[0] == '-') {
  290.             is_minus = true;
  291.             text = text.substr(1);
  292.         }
  293.     if (text.empty()){
  294.         // cerr << "Задано пустое минус-слово кот -"s << endl;
  295.         return false;
  296.     }
  297.     if (text.at(0) == '-'){
  298.         // cerr << "Минус слова заданы не верно --кот"s << endl;
  299.         return false;
  300.     }
  301.         result.data = text;
  302.         result.is_minus = is_minus;
  303.         result.is_stop = IsStopWord(text);
  304.         // return {text, is_minus, IsStopWord(text)};
  305.         return true;
  306.     }
  307.  
  308.     struct Query {
  309.         set<string> plus_words;
  310.         set<string> minus_words;
  311.     };
  312.  
  313.     int document_count_ = 0;
  314.     std::vector <int> document_index_;
  315.  
  316.     [[nodiscard]] bool ParseQuery(const string& text, Query &parse_query_result) const {
  317.         //Query query;
  318.         for (const string& word : SplitIntoWords(text)) {
  319.             if (!IsValidWord(word)){
  320.                 return false;
  321.                 // cerr << "Некорректный символ в запросе"s << endl;
  322.              }
  323.             QueryWord query_word;
  324.             bool query_parsing_result = ParseQueryWord(word, query_word);
  325.             if (!IsValidWord(query_word.data) || !query_parsing_result) {
  326.                 return false;
  327.             }
  328.             if (!query_word.is_stop) {
  329.                 if (query_word.is_minus) {
  330.                     parse_query_result.minus_words.insert(query_word.data);
  331.                 } else {
  332.                     parse_query_result.plus_words.insert(query_word.data);
  333.                 }
  334.             }
  335.         }
  336.         //return query;
  337.         return true;
  338.     }
  339.  
  340.     // Existence required
  341.     double ComputeWordInverseDocumentFreq(const string& word) const {
  342.         return log(GetDocumentCount() * 1.0 / word_to_document_freqs_.at(word).size());
  343.     }
  344.  
  345.    
  346.    // Шаблонная функция с функциональным параметром
  347.     template <typename Predicate>
  348.     vector<Document> FindAllDocuments(const Query& query, Predicate predicate) const {
  349.         map<int, double> document_to_relevance;
  350.         for (const string& word : query.plus_words) {
  351.             if (word_to_document_freqs_.count(word) == 0) {
  352.                 continue;
  353.             }
  354.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  355.             for (const auto &[document_id, term_freq] : word_to_document_freqs_.at(word)) {
  356.                
  357.                 // Будем считать TF-IDF только для документов, удовлетвлетворяющие предикату
  358.                 auto doc_status = documents_.at(document_id).status;
  359.                 auto doc_rating = documents_.at(document_id).rating;
  360.  
  361.                 if (predicate(document_id, doc_status, doc_rating)) {
  362.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  363.                 }
  364.             }
  365.         }
  366.  
  367.         for (const string& word : query.minus_words) {
  368.             if (word_to_document_freqs_.count(word) == 0) {
  369.                 continue;
  370.             }
  371.             for (const auto &[document_id, _] : word_to_document_freqs_.at(word)) {
  372.                 document_to_relevance.erase(document_id);
  373.             }
  374.         }
  375.  
  376.         vector<Document> matched_documents;
  377.         for (const auto &[document_id, relevance] : document_to_relevance) {
  378.             matched_documents.push_back(
  379.                 {document_id, relevance, documents_.at(document_id).rating});
  380.         }
  381.         return matched_documents;
  382.     }
  383. };
  384.  
  385. void PrintDocument(const Document& document) {
  386.     cout << "{ "s
  387.          << "document_id = "s << document.id << ", "s
  388.          << "relevance = "s << document.relevance << ", "s
  389.          << "rating = "s << document.rating
  390.          << " }"s << endl;
  391. }
  392.  
  393.  
  394.  
  395. int main() {
  396.     SearchServer search_server("и в на"s);
  397.     // Явно игнорируем результат метода AddDocument, чтобы избежать предупреждения
  398.     // о неиспользуемом результате его вызова
  399.     (void) search_server.AddDocument(1, "пушистый кот пушистый хвост"s, DocumentStatus::ACTUAL, {7, 2, 7});
  400.  
  401.  
  402.    
  403.     if (!search_server.AddDocument(1, "пушистый пёс и модный ошейник"s, DocumentStatus::ACTUAL, {1, 2})) {
  404.         cout << "Документ не был добавлен, так как его id совпадает с уже имеющимся"s << endl;
  405.     }
  406.     if (!search_server.AddDocument(-1, "пушистый пёс и модный ошейник"s, DocumentStatus::ACTUAL, {1, 2})) {
  407.         cout << "Документ не был добавлен, так как его id отрицательный"s << endl;
  408.     }
  409.     if (!search_server.AddDocument(3, "большой пёс скво\x12рец"s, DocumentStatus::ACTUAL, {1, 3, 2})) {
  410.         cout << "Документ не был добавлен, так как содержит спецсимволы"s << endl;
  411.     }
  412.     // vector<Document> documents;
  413.     // if (search_server.FindTopDocuments("--пушистый"s, documents)) {
  414.     //     for (const Document& document : documents) {
  415.     //         PrintDocument(document);
  416.     //     }
  417.     // } else {
  418.     //     cout << "Ошибка в поисковом запросе"s << endl;
  419.     // }
  420.  
  421.     vector<Document> documents;
  422.     if (search_server.FindTopDocuments(" на"s, documents)) {
  423.         for (const Document& document : documents) {
  424.             PrintDocument(document);
  425.         }
  426.     } else {
  427.         cout << "Ошибка в поисковом запросе"s << endl;
  428.     }
  429. }
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement