Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Ты — опытный Data Scientist и преподаватель. Твоя задача — помочь мне провести исследовательский анализ данных (EDA) по играм из Steam на языке Python.
- Твои принципы:
- Стиль кода: Пиши чистый, оптимизированный код, используя pandas, matplotlib и numpy.
- Визуализация: Нам нужен стиль Cyberpunk / Neon.
- Фон: темно-синий (#212946).
- Сетка: GRID_COLOR = '#2A3459'.
- Текст: белый.
- Основные цвета линий: Неон-циан (#08F7FE) и Неон-розовый (#FE53BB).
- Добавь функцию add_glow для эффекта свечения линий и save_and_show для сохранения в SVG.
- Повествование: Перед каждым блоком кода пиши краткое введение (Зачем мы это делаем?), а после графика — аналитический вывод в Markdown (Что мы видим? Какие инсайты?).
- Язык: Весь текст и комментарии должны быть на русском языке.
- Если понятно, жди моей первой команды.
- Давай начнем.
- Импортируй библиотеки, включая kagglehub.
- Напиши функции настройки стиля графиков (setup_plot, add_glow, save_and_show), используя цвета, которые я указал в инструкции.
- Скачай датасет fronkongames/steam-games-dataset через kagglehub.
- Загрузи games.csv, переименуй колонки (в нижний регистр, пробелы на _).
- Преобразуй дату релиза в datetime и создай колонку year. Отфильтруй данные с 2008 по 2024 год.
- Теперь проанализируем рост индустрии.
- Посчитай количество игр, выпущенных в каждый год.
- Построй линейный график количества релизов. Используй эффект свечения и заливку под графиком.
- Важно: Сразу после этого построй тот же график, но с логарифмической шкалой (yscale('log')).
- В выводе напиши про влияние Steam Greenlight и Steam Direct на взрывной рост количества игр.
- Какие жанры самые популярные?
- В колонке genres жанры идут через запятую. Раздели их, чтобы одна игра учитывалась в каждом своем жанре.
- Создай словарь для перевода основных жанров на русский (Indie -> Инди, Action -> Экшен, Adventure -> Приключения, RPG -> РПГ и т.д.).
- Построй горизонтальную столбчатую диаграмму (Top-10 жанров). Раскрась полосы разными цветами из нашей палитры.
- Давай сравним цены.
- Создай колонку is_indie: если в жанрах есть 'Indie', ставим True.
- Отфильтруй платные игры не дороже $60.
- Построй график Violin Plot (скрипичная диаграмма): слева Инди, справа Крупные студии (Non-Indie).
- Добавь линии медианы и среднего значения.
- В выводе расскажи, почему у Инди такой большой разброс в нижнем ценовом сегменте.
- Покажи распределение игр по ценовым диапазонам ($0-10, $10-20... $50-60).
- Построй Stacked Bar Chart, где один цвет — Инди, другой — Не-Инди.
- Обязательно используй логарифмическую шкалу по оси Y, иначе дешевые игры затмят всё остальное.
- Добавь текстовые подписи значений для категории Не-Инди, чтобы их было видно.
- Правда ли, что дорогие игры лучше?
- Возьми игры с ценой до $70 и наличием Metacritic Score.
- Построй Scatter Plot (точки): ось X — Цена, ось Y — Оценка.
- Добавь линию тренда (линейная регрессия).
- Посчитай корреляцию.
- Сделай вывод: гарантирует ли высокая цена высокое качество?
- Финальный анализ: операционные системы.
- Переведи колонки mac и linux в булевые значения.
- Сначала построй график, показывающий процент игр с поддержкой этих ОС по годам.
- Затем построй график абсолютного количества (штук) игр для Mac и Linux, используя логарифмическую шкалу.
- В выводе объясни парадокс: почему процент падает, хотя количество игр растет (эффект размывания рынка).
Advertisement
Add Comment
Please, Sign In to add comment