chevengur

ИТОГОВЫЙ ПРОЕКТ 3 СПРИНТА

Nov 16th, 2023 (edited)
141
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
C++ 15.47 KB | None | 0 0
  1. #include <algorithm>
  2. #include <cmath>
  3. #include <iostream>
  4. #include <map>
  5. #include <set>
  6. #include <string>
  7. #include <utility>
  8. #include <vector>
  9. #include <cassert>
  10.  
  11. using namespace std;
  12.  
  13. const int MAX_RESULT_DOCUMENT_COUNT = 5;
  14.  
  15. string ReadLine() {
  16.     string s;
  17.     getline(cin, s);
  18.     return s;
  19. }
  20.  
  21. int ReadLineWithNumber() {
  22.     int result;
  23.     cin >> result;
  24.     ReadLine();
  25.     return result;
  26. }
  27.  
  28. vector<string> SplitIntoWords(const string& text) {
  29.     vector<string> words;
  30.     string word;
  31.     for (const char c : text) {
  32.         if (c == ' ') {
  33.             if (!word.empty()) {
  34.                 words.push_back(word);
  35.                 word.clear();
  36.             }
  37.         }
  38.         else {
  39.             word += c;
  40.         }
  41.     }
  42.     if (!word.empty()) {
  43.         words.push_back(word);
  44.     }
  45.  
  46.     return words;
  47. }
  48.  
  49. struct Document {
  50.     int id;
  51.     double relevance;
  52.     int rating;
  53. };
  54.  
  55. enum class DocumentStatus {
  56.     ACTUAL,
  57.     IRRELEVANT,
  58.     BANNED,
  59.     REMOVED,
  60. };
  61.  
  62. class SearchServer {
  63. public:
  64.     void SetStopWords(const string& text) {
  65.         for (const string& word : SplitIntoWords(text)) {
  66.             stop_words_.insert(word);
  67.         }
  68.     }
  69.  
  70.     void AddDocument(int document_id, const string& document, DocumentStatus status,
  71.         const vector<int>& ratings) {
  72.         const vector<string> words = SplitIntoWordsNoStop(document);
  73.         const double inv_word_count = 1.0 / words.size();
  74.         for (const string& word : words) {
  75.             word_to_document_freqs_[word][document_id] += inv_word_count;
  76.         }
  77.         documents_.emplace(document_id, DocumentData{ ComputeAverageRating(ratings), status });
  78.     }
  79.  
  80.     vector<Document> FindTopDocuments(const string& raw_query, DocumentStatus status) const {
  81.         return FindTopDocuments(raw_query, [status](int document_id, DocumentStatus doc_status, int rating) { return doc_status == status; });
  82.     }
  83.  
  84.  
  85.     vector<Document> FindTopDocuments(const string& raw_query) const {
  86.         return FindTopDocuments(raw_query, DocumentStatus::ACTUAL);
  87.     }
  88.  
  89.     template<typename Predicate>
  90.     vector<Document> FindTopDocuments(const string& raw_query, Predicate predicate) const {
  91.         const Query query = ParseQuery(raw_query);
  92.         auto matched_documents = FindAllDocuments(query, predicate);
  93.  
  94.         sort(matched_documents.begin(), matched_documents.end(),
  95.             [](const Document& lhs, const Document& rhs) {
  96.                 if (abs(lhs.relevance - rhs.relevance) < 1e-6) {
  97.                     return lhs.rating > rhs.rating;
  98.                 }
  99.                 else {
  100.                     return lhs.relevance > rhs.relevance;
  101.                 }
  102.             });
  103.         if (matched_documents.size() > MAX_RESULT_DOCUMENT_COUNT) {
  104.             matched_documents.resize(MAX_RESULT_DOCUMENT_COUNT);
  105.         }
  106.         return matched_documents;
  107.     }
  108.  
  109.     int GetDocumentCount() const {
  110.         return documents_.size();
  111.     }
  112.  
  113.     tuple<vector<string>, DocumentStatus> MatchDocument(const string& raw_query,
  114.         int document_id) const {
  115.         const Query query = ParseQuery(raw_query);
  116.         vector<string> matched_words;
  117.         for (const string& word : query.plus_words) {
  118.             if (word_to_document_freqs_.count(word) == 0) {
  119.                 continue;
  120.             }
  121.             if (word_to_document_freqs_.at(word).count(document_id)) {
  122.                 matched_words.push_back(word);
  123.             }
  124.         }
  125.         for (const string& word : query.minus_words) {
  126.             if (word_to_document_freqs_.count(word) == 0) {
  127.                 continue;
  128.             }
  129.             if (word_to_document_freqs_.at(word).count(document_id)) {
  130.                 matched_words.clear();
  131.                 break;
  132.             }
  133.         }
  134.         return { matched_words, documents_.at(document_id).status };
  135.     }
  136.  
  137. private:
  138.     struct DocumentData {
  139.         int rating;
  140.         DocumentStatus status;
  141.     };
  142.  
  143.     set<string> stop_words_;
  144.     map<string, map<int, double>> word_to_document_freqs_;
  145.     map<int, DocumentData> documents_;
  146.  
  147.     bool IsStopWord(const string& word) const {
  148.         return stop_words_.count(word) > 0;
  149.     }
  150.  
  151.     vector<string> SplitIntoWordsNoStop(const string& text) const {
  152.         vector<string> words;
  153.         for (const string& word : SplitIntoWords(text)) {
  154.             if (!IsStopWord(word)) {
  155.                 words.push_back(word);
  156.             }
  157.         }
  158.         return words;
  159.     }
  160.  
  161.     static int ComputeAverageRating(const vector<int>& ratings) {
  162.         if (ratings.empty()) {
  163.             return 0;
  164.         }
  165.         int rating_sum = 0;
  166.         for (const int rating : ratings) {
  167.             rating_sum += rating;
  168.         }
  169.         return rating_sum / static_cast<int>(ratings.size());
  170.     }
  171.  
  172.     struct QueryWord {
  173.         string data;
  174.         bool is_minus;
  175.         bool is_stop;
  176.     };
  177.  
  178.     QueryWord ParseQueryWord(string text) const {
  179.         bool is_minus = false;
  180.         // Word shouldn't be empty
  181.         if (text[0] == '-') {
  182.             is_minus = true;
  183.             text = text.substr(1);
  184.         }
  185.         return { text, is_minus, IsStopWord(text) };
  186.     }
  187.  
  188.     struct Query {
  189.         set<string> plus_words;
  190.         set<string> minus_words;
  191.     };
  192.  
  193.     Query ParseQuery(const string& text) const {
  194.         Query query;
  195.         for (const string& word : SplitIntoWords(text)) {
  196.             const QueryWord query_word = ParseQueryWord(word);
  197.             if (!query_word.is_stop) {
  198.                 if (query_word.is_minus) {
  199.                     query.minus_words.insert(query_word.data);
  200.                 }
  201.                 else {
  202.                     query.plus_words.insert(query_word.data);
  203.                 }
  204.             }
  205.         }
  206.         return query;
  207.     }
  208.  
  209.     // Existence required
  210.     double ComputeWordInverseDocumentFreq(const string& word) const {
  211.         return log(GetDocumentCount() * 1.0 / word_to_document_freqs_.at(word).size());
  212.     }
  213.  
  214.     template<typename Docpredicate>
  215.     vector<Document> FindAllDocuments(const Query& query, Docpredicate predicate) const {
  216.         map<int, double> document_to_relevance;
  217.         for (const string& word : query.plus_words) {
  218.             if (word_to_document_freqs_.count(word) == 0) {
  219.                 continue;
  220.             }
  221.             const double inverse_document_freq = ComputeWordInverseDocumentFreq(word);
  222.             for (const auto [document_id, term_freq] : word_to_document_freqs_.at(word)) {
  223.                 if (predicate(document_id, documents_.at(document_id).status, documents_.at(document_id).rating)) {
  224.                     document_to_relevance[document_id] += term_freq * inverse_document_freq;
  225.                 }
  226.             }
  227.         }
  228.  
  229.         for (const string& word : query.minus_words) {
  230.             if (word_to_document_freqs_.count(word) == 0) {
  231.                 continue;
  232.             }
  233.             for (const auto [document_id, _] : word_to_document_freqs_.at(word)) {
  234.                 document_to_relevance.erase(document_id);
  235.             }
  236.         }
  237.  
  238.         vector<Document> matched_documents;
  239.         for (const auto [document_id, relevance] : document_to_relevance) {
  240.             matched_documents.push_back(
  241.                 { document_id, relevance, documents_.at(document_id).rating });
  242.         }
  243.         return matched_documents;
  244.     }
  245. };
  246.  
  247. void PrintDocument(const Document& document) {
  248.     cout << "{ "s
  249.         << "document_id = "s << document.id << ", "s
  250.         << "relevance = "s << document.relevance << ", "s
  251.         << "rating = "s << document.rating
  252.         << " }"s << endl;
  253. }
  254.  
  255. // Тест проверяет, что поисковая система исключает стоп-слова при добавлении документов
  256. void TestExcludeStopWordsFromAddedDocumentContent() {
  257.     const int doc_id = 42;
  258.     const string content = "cat in the city"s;
  259.     const vector<int> ratings = {1, 2, 3};
  260.     {
  261.         SearchServer server;
  262.         server.AddDocument(doc_id, content, DocumentStatus::ACTUAL, ratings);
  263.         const auto found_docs = server.FindTopDocuments("in"s);
  264.         ASSERT_EQUAL(found_docs.size(), 1u);
  265.         const Document& doc0 = found_docs[0];
  266.         ASSERT_EQUAL(doc0.id, doc_id);
  267.     }
  268.    
  269.     {
  270.         SearchServer server;
  271.         server.SetStopWords("in the"s);
  272.         server.AddDocument(doc_id, content, DocumentStatus::ACTUAL, ratings);
  273.         ASSERT_HINT(server.FindTopDocuments("in"s).empty(),
  274.                     "Stop words must be excluded from documents"s);
  275.     }
  276. }
  277.  
  278. void TestAddDocument(){
  279.     const int doc_id = 25;
  280.     const string content = "shaman - i'm russian";
  281.     const vector<int>ratings = {0, 1, 2};
  282.     const vector<int>ratings1 = {1};
  283.     {
  284.         SearchServer server;
  285.         server.AddDocument(doc_id, content, DocumentStatus::ACTUAL, ratings);
  286.         server.AddDocument(1, "FUCK THE POLICE"s, DocumentStatus::ACTUAL, ratings1);
  287.         server.AddDocument(2, "shaman forever"s, DocumentStatus::ACTUAL, {0});
  288.         ASSERT(!server.FindTopDocuments("shaman").empty());
  289.         ASSERT_EQUAL_HINT(server.GetDocumentCount(), 3, "Not found this doc");
  290.     }
  291.    
  292. }
  293.  
  294. void TestMinusWords(){
  295.     {
  296.         SearchServer server;
  297.         server.AddDocument(1, "shaman isn't the russian"s, DocumentStatus::ACTUAL, {2,3,1});
  298.         server.AddDocument(2, "killreal this the superman"s, DocumentStatus::ACTUAL, {5,12,3,1,1});
  299.         server.AddDocument(3, "the famous people of great britain", DocumentStatus::ACTUAL, {3,1,2,3,1,1});
  300.         server.AddDocument(4, "lalipop bob dad the", DocumentStatus::ACTUAL, {5});
  301.        
  302.         assert(server.GetDocumentCount() == 4);
  303.         auto doc_vec = server.FindTopDocuments("-shaman -killreal the"s);
  304.         ASSERT_EQUAL(doc_vec[0].id, 4);
  305.         ASSERT_EQUAL(doc_vec[1].id, 3);
  306.     }
  307.    
  308. }
  309.  
  310. void TestMatchDoc(){
  311.     const int doc_id = 1;
  312.     const string content = "just look in my eyes and you'll see russian paradise"s;
  313.     const string content2 = "just russian paradise"s;
  314.     vector<int>rating {1,3,4};
  315.     {
  316.         SearchServer server;
  317.         server.AddDocument(doc_id, content, DocumentStatus::ACTUAL, rating);
  318.         server.AddDocument(2, content2, DocumentStatus::ACTUAL, {1,3,4});
  319.         const string raw_query = "just moment russian";
  320.         const string min_raw_query = "-see";
  321.        
  322.         auto match_doc = server.MatchDocument(min_raw_query, doc_id);
  323.         const auto [str, doc_st] = match_doc;
  324.         ASSERT(str.empty());
  325.        
  326.         auto pl_match_doc = server.MatchDocument(raw_query, 2);
  327.         const auto [s, dt] = pl_match_doc;
  328.         ASSERT(!s.empty());
  329.     }
  330. }
  331.  
  332. void TestRelevance(){
  333.     {
  334.         SearchServer server;
  335.         server.AddDocument(3, "hello world i'm from Pesua"s, DocumentStatus::ACTUAL, {2,3,4});
  336.         server.AddDocument(2, "hello world i'm"s, DocumentStatus::ACTUAL, {2,3,4});
  337.         server.AddDocument(1, "hello world"s, DocumentStatus::ACTUAL, {2,3,4});
  338.        
  339.         auto find_top = server.FindTopDocuments("hello world i'm from Pesua", DocumentStatus::ACTUAL);
  340.        
  341.         ASSERT_EQUAL(find_top[0].id, 3);
  342.         ASSERT_EQUAL(find_top[1].id, 2);
  343.         ASSERT_EQUAL(find_top[2].id, 1);
  344.     }
  345. }
  346.  
  347. void TestByRating(){
  348.    
  349.     {
  350.         SearchServer server;
  351.         server.AddDocument(3, "hello world i'm from Pesua"s, DocumentStatus::ACTUAL, {2,3,4});
  352.         server.AddDocument(4, "sss psss add"s, DocumentStatus::ACTUAL, {6,1,2,7});
  353.         auto find_top = server.FindTopDocuments("hello world i'm from Pesua sss", DocumentStatus::ACTUAL);
  354.        
  355.         ASSERT_EQUAL(find_top[0].rating, 3);
  356.         ASSERT_EQUAL(find_top[1].rating, 4);
  357.     }
  358.    
  359. }
  360.  
  361. void TestStatus(){
  362.    
  363.     const int doc_id = 1;
  364.     const string content = "blue cat and red dog";
  365.     vector<int>rating = {1, 1, 2, 3, 4};
  366.    
  367.     const int doc_id2 = 2;
  368.     const string content2 = "yellow rabbit blue cat matrix";
  369.     vector<int>rating2 = {2, 2, 3, 3, 1};
  370.    
  371.     const int doc_id3 = 3;
  372.     const string content3 = "slut and river blue cat minner";
  373.     vector<int>rating3 = {2, 0, 1, 2, 3, 1};
  374.    
  375.     const int doc_id4 = 4;
  376.     const string content4 = "upload blue image";
  377.     vector<int>rating4 = {1, 2, 3};
  378.    
  379.     const string raw_query = "blue cat";
  380.    
  381.     {
  382.         SearchServer server;
  383.         server.AddDocument(doc_id, content, DocumentStatus::ACTUAL, rating);
  384.         server.AddDocument(doc_id2, content2, DocumentStatus::BANNED, rating2);
  385.         server.AddDocument(doc_id3, content3, DocumentStatus::IRRELEVANT, rating3);
  386.         server.AddDocument(doc_id4, content4, DocumentStatus::REMOVED, rating4);
  387.        
  388.         auto doc_act = server.FindTopDocuments(raw_query, DocumentStatus::ACTUAL);
  389.         auto doc_ban = server.FindTopDocuments(raw_query, DocumentStatus::BANNED);
  390.         auto doc_irr = server.FindTopDocuments(raw_query, DocumentStatus::IRRELEVANT);
  391.         auto doc_rem = server.FindTopDocuments(raw_query, DocumentStatus::REMOVED);
  392.        
  393.         ASSERT_EQUAL(doc_act[0].id, 1);
  394.         ASSERT_EQUAL(doc_ban[0].id, 2);
  395.         ASSERT_EQUAL(doc_irr[0].id, 3);
  396.         ASSERT_EQUAL(doc_rem[0].id, 4);
  397.     }
  398. }
  399.  
  400. void TestPredicate(){
  401.     {
  402.         SearchServer server;
  403.         server.AddDocument(1, "blue green red bad"s, DocumentStatus::ACTUAL, {0});
  404.         server.AddDocument(2, "sick peek world word"s, DocumentStatus::BANNED, {2});
  405.        
  406.         server.FindTopDocuments("peek"s);
  407.         server.FindTopDocuments("raw"s, DocumentStatus::BANNED);
  408.         server.FindTopDocuments("sick", [](int document_id, DocumentStatus doc_status, int rating){ return doc_status == DocumentStatus::BANNED;
  409.            
  410.         });
  411.        
  412.        
  413.     }
  414. }
  415.  
  416. void TestRelevanceNum(){
  417.     SearchServer search_server;
  418.     int document_id = 1;
  419.     vector<int> rating1 = {1, 7, 13};
  420.     DocumentStatus status = DocumentStatus::ACTUAL;
  421.     string document1 = "tabby cat with big eyes"s;
  422.     search_server.AddDocument(document_id, document1, status, rating1);
  423.    
  424.     document_id = 2;
  425.     vector<int> rating2 = {2, 4, 10};
  426.     string document2 = "small dog and tabby bird"s;
  427.     search_server.AddDocument(document_id, document2, status, rating2);
  428.    
  429.     vector<Document> document = search_server.FindTopDocuments("cat"s);
  430.     ASSERT_EQUAL(round(document[0].relevance*1000000)/1000000, 0.138629);
  431.    
  432. }
  433.  
  434. /*
  435. Разместите код остальных тестов здесь
  436. */
  437.  
  438. // Функция TestSearchServer является точкой входа для запуска тестов
  439. void TestSearchServer() {
  440.     RUN_TEST(TestExcludeStopWordsFromAddedDocumentContent);
  441.     RUN_TEST(TestAddDocument);
  442.     RUN_TEST(TestMinusWords);
  443.     RUN_TEST(TestStatus);
  444.     RUN_TEST(TestMatchDoc);
  445.     RUN_TEST(TestRelevance);
  446.     RUN_TEST(TestByRating);
  447.     RUN_TEST(TestPredicate);
  448.     RUN_TEST(TestRelevanceNum);
  449.     // Не забудьте вызывать остальные тесты здесь
  450. }
  451.  
  452. // --------- Окончание модульных тестов поисковой системы -----------
  453.  
  454. int main() {
  455.     TestSearchServer();
  456.     // Если вы видите эту строку, значит все тесты прошли успешно
  457.     cout << "Search server testing finished"s << endl;
  458. }
Add Comment
Please, Sign In to add comment