Подключите нашего Telegram-бота для уведомлений о новых проектах
машинное обучение python 4 этапа
Разместить заказ

t
Заказчик
Отзывы фрилансеров:
+ 1
- 0
Зарегистрирован на сайте 4 месяца
Бюджет:
1200 руб
14.79 $ — 13.01 €
Исполнитель определен:
Владислав Снитько
1 этап сдать надо уже через 2 дня
ПРОЕКТ выполняется в течение семестра,
4 контрольные точки.
Цель: провести полный цикл анализа данных и разработки
модели машинного обучения, начиная от предварительной
обработки данных и заканчивая интерпретацией
результатов работы модели. Проект разделен на четыре
этапа с соответствующими заданиями, которые охватывают
все ключевые аспекты работы с данными и построения
модели машинного обучения.
Задание 1 Максимум 15 баллов.
Формат файлов, в которых сдается проект: .ipynb + файл с
датасетом. Обязательно все выводы писать в разметке markdown.
1. Найти датасет (не меньше 1000 строк, данные в столбцах
должны быть категориальные и числовые). Обратите внимание
на открытые источники данных, такие как Kaggle, UCI Machine
Learning Repository, или использовать API для получения данных.
a. Оценить качество данных, их актуальность и достаточность
для решения поставленной задачи. – 1 балл
2. Описание задачи.
a. Описать, какая задача решается. Какая целевая
переменная. Что предсказываем. 2 балла
b. Описать, какая ML задача решается. Классификация,
регрессия, кластеризация и т.д. 2 балла
3. Исследовать данные.
a. Построить релевантные графики (в обязательном порядке
рассмотреть таргет, построить матрицу корреляций). 3
балла
b. Посмотреть основные статистики данных. 2 балла
c. Посмотреть срезы данных. 2 балла
d. Подготовить краткие выводы о структуре данных,
обнаруженных зависимостях и аномалиях. 3 балла
Задание 2 Максимум 15 баллов.
1. Подготовить данные для дальнейшего обучения.
a. Заполнить пропуски, если требуется. Обосновать. 4 балла
b. Убрать выбросы, если они есть, если их нужно убрать.
Обосновать. 4 балла
2. Выбрать метрику и обосновать свой выбор. 3 балла
3. Перекодировать категориальные данные. 2 балла
a. Обосновать выбор метода кодирования. 2 балла
Задание 3 Максимум 15 баллов.
1. Разбить данные для тренировки и теста (отложенная выборка или
кросс-валидация). Объяснить выбор метода и его
преимущества. 3 балла
2. Провести необходимую предобработку данных, если нужно.
a. Применить методы масштабирования, нормализации
или стандартизации при необходимости. 2 балла
b. Обосновать выбор метода предобработки. Или
обосновать, почему она не нужна. 2 балла
3. Обучить базовую модель. 4 балла
4. Обучить простую модель (одну или две), сравнить метрику с
базовой моделью. 4 балла
Задание 4 Максимум 15 баллов.
1. Выбрать сложную модель. Обучить и сравнить качество с
более простыми моделями. 2 балла
2. Подобрать гиперпараметры для сложной модели. 2 балла
3. Проверить качество работы модели с подобранными
параметрами. 2 балла
4. Интерпретировать результаты работы финальной (лучшей)
модели.
a. Интерпретировать важность признаков/работу модели
при помощи 2 виджетов на выбор. 3 балла
b. Объяснить модель с помощью библиотеки shap. 3 балла
c. Прокомментировать интерпретацию результатов с
экспертной точки зрения. За время работы над данными
вы уже можете понять какие-то зависимости, статистики.
В данном пункте надо описать, совпадает ли работа
модели с вашими выводами о данных. 1 балла
d. Написать выводы. 2 балла
ПОДХОДЯЩИЙ ВЫБОР МЕТОДОВ И ИХ ОБОСНОВАНИЕ В КАЖДОМ ЭТАПЕ ПОМОГУТ
ВЫПОЛНИТЬ ЗАДАНИЯ ЭФФЕКТИВНО И ПОЛУЧИТЬ МАКСИМАЛЬНОЕ КОЛИЧЕСТВО
БАЛЛОВ.Т.к. у нас только начинаются семинары, предлагаю сдвинуть дедлайны по проекту так, чтобы все было понятно, но при этом весь проект был готов к зачету.
1 часть – 1 декабря
2 часть – 8 декабря
3 часть – 15 декабря
4 часть – 22 декабря.
Дедлайны жесткие, до 23.59 по МСК.
Напоминаю, что проект сдается в формате .ipynb + файл с данными. Обязательно оформление проекта с описанием и анализом каждого пункта. Весь текст оформляется в ячейках Markdown
ПРОЕКТ выполняется в течение семестра,
4 контрольные точки.
Цель: провести полный цикл анализа данных и разработки
модели машинного обучения, начиная от предварительной
обработки данных и заканчивая интерпретацией
результатов работы модели. Проект разделен на четыре
этапа с соответствующими заданиями, которые охватывают
все ключевые аспекты работы с данными и построения
модели машинного обучения.
Задание 1 Максимум 15 баллов.
Формат файлов, в которых сдается проект: .ipynb + файл с
датасетом. Обязательно все выводы писать в разметке markdown.
1. Найти датасет (не меньше 1000 строк, данные в столбцах
должны быть категориальные и числовые). Обратите внимание
на открытые источники данных, такие как Kaggle, UCI Machine
Learning Repository, или использовать API для получения данных.
a. Оценить качество данных, их актуальность и достаточность
для решения поставленной задачи. – 1 балл
2. Описание задачи.
a. Описать, какая задача решается. Какая целевая
переменная. Что предсказываем. 2 балла
b. Описать, какая ML задача решается. Классификация,
регрессия, кластеризация и т.д. 2 балла
3. Исследовать данные.
a. Построить релевантные графики (в обязательном порядке
рассмотреть таргет, построить матрицу корреляций). 3
балла
b. Посмотреть основные статистики данных. 2 балла
c. Посмотреть срезы данных. 2 балла
d. Подготовить краткие выводы о структуре данных,
обнаруженных зависимостях и аномалиях. 3 балла
Задание 2 Максимум 15 баллов.
1. Подготовить данные для дальнейшего обучения.
a. Заполнить пропуски, если требуется. Обосновать. 4 балла
b. Убрать выбросы, если они есть, если их нужно убрать.
Обосновать. 4 балла
2. Выбрать метрику и обосновать свой выбор. 3 балла
3. Перекодировать категориальные данные. 2 балла
a. Обосновать выбор метода кодирования. 2 балла
Задание 3 Максимум 15 баллов.
1. Разбить данные для тренировки и теста (отложенная выборка или
кросс-валидация). Объяснить выбор метода и его
преимущества. 3 балла
2. Провести необходимую предобработку данных, если нужно.
a. Применить методы масштабирования, нормализации
или стандартизации при необходимости. 2 балла
b. Обосновать выбор метода предобработки. Или
обосновать, почему она не нужна. 2 балла
3. Обучить базовую модель. 4 балла
4. Обучить простую модель (одну или две), сравнить метрику с
базовой моделью. 4 балла
Задание 4 Максимум 15 баллов.
1. Выбрать сложную модель. Обучить и сравнить качество с
более простыми моделями. 2 балла
2. Подобрать гиперпараметры для сложной модели. 2 балла
3. Проверить качество работы модели с подобранными
параметрами. 2 балла
4. Интерпретировать результаты работы финальной (лучшей)
модели.
a. Интерпретировать важность признаков/работу модели
при помощи 2 виджетов на выбор. 3 балла
b. Объяснить модель с помощью библиотеки shap. 3 балла
c. Прокомментировать интерпретацию результатов с
экспертной точки зрения. За время работы над данными
вы уже можете понять какие-то зависимости, статистики.
В данном пункте надо описать, совпадает ли работа
модели с вашими выводами о данных. 1 балла
d. Написать выводы. 2 балла
ПОДХОДЯЩИЙ ВЫБОР МЕТОДОВ И ИХ ОБОСНОВАНИЕ В КАЖДОМ ЭТАПЕ ПОМОГУТ
ВЫПОЛНИТЬ ЗАДАНИЯ ЭФФЕКТИВНО И ПОЛУЧИТЬ МАКСИМАЛЬНОЕ КОЛИЧЕСТВО
БАЛЛОВ.Т.к. у нас только начинаются семинары, предлагаю сдвинуть дедлайны по проекту так, чтобы все было понятно, но при этом весь проект был готов к зачету.
1 часть – 1 декабря
2 часть – 8 декабря
3 часть – 15 декабря
4 часть – 22 декабря.
Дедлайны жесткие, до 23.59 по МСК.
Напоминаю, что проект сдается в формате .ipynb + файл с данными. Обязательно оформление проекта с описанием и анализом каждого пункта. Весь текст оформляется в ячейках Markdown
Разделы:
Опубликован:
27.11.2024 | 15:10 [поднят: 27.11.2024 | 15:10] [последние изменения: 26.11.2024 | 15:59]