imdb

from sklearn.datasets import load_files
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# Load the dataset
movie_reviews_data = load_files('path_to_dataset', encoding='utf-8')

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(
    movie_reviews_data.data, movie_reviews_data.target, test_size=0.2, random_state=42)

# Vectorize the text data
vectorizer = TfidfVectorizer(max_features=5000)
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)

# Train the classifier
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Predict on the test set
y_pred = classifier.predict(X_test)

# Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Example usage
def classify_review(review):
    review_vectorized = vectorizer.transform([review])
    prediction = classifier.predict(review_vectorized)
    if prediction[0] == 1:
        return "Positive"
    else:
        return "Negative"

# Example usage
review = "This movie was fantastic! I loved every moment of it."
classification = classify_review(review)
print("Review:", review)
print("Classification:", classification)

review = "The movie was terrible. I wouldn't recommend it to anyone."
classification = classify_review(review)
print("Review:", review)
print("Classification:", classification)