Ваши результаты после курса: Научитесь строить ML модели на Python и подготовитесь к ML-секции собеседования на Junior Data Scientist.
Для кого этот курс
Полные новички и Junior в ML
аналитики
Сможешь решать рабочие задачи с применением ML, создавать собственные проекты
разработчики
Быстрее и качественнее будешь приходить к результату, возглавишь ML отдел
Менеджеры
Сможешь свободно общаться с командой на одном языке, самостоятельно оценивать сроки и результаты работы
перед курсом освежите знания
или попробуйте разобраться с нуля в необходимой для старта базе:
1.
Что такое матрицы и как их перемножать
2.
Что такое производная и как ее считать
3.
Что такое градиент функции, и куда он направлен
4.
Что такое матожидание и дисперсия и как их оценивать по выборке
5.
Что такое нормальное распределение, откуда оно берется и зачем нужно
6.
Как поставить себе на компьютер Jupyter Notebook и как писать на Python циклы, условные операторы, вывод на печать, как и зачем импортировать библиотеки
Формат курса
На сколько по времени рассчитан курс?
В каком формате проходит обучение?
Какие каналы коммуникации используются?
Что клиенты получат после прохождения курса?
На сколько по времени рассчитан курс?
Видеолекции (1-2 часа в неделю) и вебинары с ответами на вопросы (1-1,5 часа в неделю).
Общая длительность курса зависит от выбранного тарифа.
1 месяц уделяется на Модуль подготовительный: математика и основы Python. 3 месяца проходит обучение базовому ML. 2 месяца выделяется на Модуль собеседований: решение задач, подготовка к интервью и другое.
Соответственно: Тариф Подготовительный + База ML - 4 месяца; Тариф Подготовительный + База ML + Собеседования - 6 месяцев; Тариф Подготовительный + База ML + Собеседования + Карьерное сопровождение - 6 месяцев.
В каком формате проходит обучение?
Формат лекций и семинаров: Видеолекции и вебинары с ответами преподавателей на вопросы
Есть ли домашки, в каком формате? Задания на программирование в Jupyter Notebook: предобработка данных, построение и валидация модели, анализ поведения модели в случае переобучения и недообучения
Соревнования по машинному обучению в рамках учебной группы: решение фиксированной задачи на конкретной выборке данных с наилучшим возможным качеством (программа-минимум: превзойти бейзлайны, программа-максимум: обогнать в Leaderboard других слушателей курса)
Небольшие «теоретические» задания: вывести формулу, расписать шаг алгоритма. У нас нет цели сделать из слушателей ученых или замучать математическими задачками, но есть желание сделать так, чтобы после курса простой вопрос на ROC-AUC на собеседовании не отправил вас в нокаут
Какие каналы коммуникации используются?
Где проходят занятия? Платформа обучения GetCourse
Где происходит общение студентов курса? В закрытом Телеграм-чате группы и в Телеграм-чате выпускников после успешной сдачи нужного количества домашек выше порога
Где проходит оповещение о выходе новых лекций? В Телеграм-канале курса
Что вы получите после прохождения курса?
Научитесь строить ML модели на Python и подготовитесь к ML-секции собеседования на Junior Data Scientist.
Программа курса
Модуль 1
/
Предварительные сведения из математики и программирования
2 недели
Основы программирования на Python
Как выглядит машинное обучение на Python
Google Colab и локальная установка Python
Работа в Jupyter notebook и запуск Python скриптов через консоль
Синтаксис Python и смысл основных конструкций
Типы данных в Python
Функции
Рекурсия
Циклы: простые применения и избавление от рекурсии
Графики в Python: основы (matplotlib и plotly)
Сложность алгоритмов: что такое O-нотация
Сложность алгоритмов: рекурсия против циклов (с графической иллюстрацией)
Классы
Чтение данных и pandas
Работа с репозиторием: основы
Ваша первая модель и первое соревнование по машинному обучению
Учимся применять LLM в программировании
Математический анализ
Математический анализ в машинном обучении
Функции и их свойства
Предел и производная
Геометрический смысл производной и поиск экстремума
Производная сложной функции
Доп. видео: Как считать производные
Производная и первообразная
Первообразная и интеграл
Линейная алгебра и многомерный анализ
Линейная алгебра в машинном обучении
Векторы
Норма, метрика и скалярное произведение
Матрицы
Операции с матрицами
Матричная запись модели
Многомерный анализ: частные производные и градиент
Применение градиента
Дифференцирование матричных выражений
Теория вероятностей
Дискретная вероятность
Свойства вероятности и условная вероятность
Дискретные случайные величины
Математическое ожидание
Дисперсия
Доп. видео: геометрическая вероятность и непрерывные случайные величины
Непрерывные случайные величины
Центральная предельная теорема
Дмитрий Лялин
Виктор Кантор
Модуль 2
/
Алгоритмы машинного обучения
Линейные модели 1: лекции
Линейная классификация
Обучение линейных моделей
Борьба с переобучением: регуляризация
Линейные модели в задаче регрессии
Доп. видео 1: Метод опорных векторов (SVM)
Доп. видео 2: Ядра в SVM (Kernel trick)
Доп. видео 3: Двойственная задача в SVM
Линейные модели 2: семинары
Шпаргалка по метрикам
Линейные модели -- 5 строк кода и вы DS
GD для линейной регресии
SGD для классификации
Зачем модифицировать loss? Huber regression
Регуляризация линейных моделей
SVM
Итого, преимущества линейных моделей
Пример линейной модели на текстовой задаче
Статистические тесты
Предпосылки линейной регрессии
Пропуски в фичах
Выбросы и модификация таргета
Робастые регрессии
Деревья и ансамбли 1: лекции
Решающие деревья и ансамбли
Бэггинг над деревьями и случайный лес
Градиентный бустинг
Дополнительное чтение
Деревья и ансамбли 2: семинары
Решающее дерево
Устойчивость решающего дерева
Бэггинг над решающими деревьями
Бустинг vs RandomForest
Bias-variance trade off на практике
Простые методы машинного обучения
Метод k ближайших соседей (kNN)
Наивный байесовский классификатор
Знакомство с обучением без учителя (unsupervised learning)
Задача кластеризации
Метод K средних (K-means)
Иерархическая кластеризация
Понижение размерности пространства признаков
Дополнительное чтение
Знакомство с нейросетями: лекции
Что такое нейронные сети
Обучение нейросетей с помощью SGD
Математическое дополнение: граф вычислений и автоматическое дифференцирование
Обучение нейросетей: backpropagation
Проблемы обучения нейросетей
Введение в нейронные сети: семинары
Подготовка блоков и однослойная сеть
Двухслойная сеть
Pytorch для простой сети и выбор оптимизатора
Виктор Кантор
Никита Зелинский
Модуль 3
/
Оценка качества
2 недели
Метрики: лекции Лекция: вступление Лекция: классификация Лекция: регрессия Лекция: пример подбора метрики Лекция: валидация моделей Лекция: переход в онлайн Правильные ответы на тест Дополнительное чтение Метрики классификации: семинары Семинар: основные метрики Семинар: кривые качества Семинар: log loss Метрики регрессии: семинары Семинар: основные метрики Семинар: свойства оптимизации Семинар: усложненные версии оптимизации
Валидация: семинары Семинар: переобучение Семинар: подбор гиперпараметров A/B-тестирование: лекции Лекция: вступление Лекция: математический аппарат и основы Лекция: примеры критериев Лекция: реалии A/B-тестирования Лекция: бакетное сэмплирование Правильные ответы на тест A/B-тестирование: семинары Семинар: вступление Семинар: ЦПТ Семинар: scipy Семинар: pvalue Семинар: сим тесты Семинар: бакетное сэмплирование
Илья Ирхин
Модуль 4
/
Разбор и практика решений задач с собеседований
4 недели
Лекции: Вопросы на вывод классических методов машинного обучения и поведение метрик (вопросы вида "объясните почему оптимизация log loss приводит к оценкам вероятностей")
Семинары: Задачи про классические методы и метрики (задачи вида "XGBoost дает негативные прогнозы в регрессии, обучившись только на позитивных примерах, как такое возможно?")
Задания: финальное соревнование по ML и тесты с задачами с собеседований
4 недели
Семинары: Задачи на теорию вероятностей и математическую статистику (задачи вида "посчитайте вероятность", "посчитайте матожидание", "примените статистический критерий" и др.)
подробнее о курсе от Виктора кантора
Главные результаты
Научитесь строить модели машинного обучения на языке программирования Python
Узнаете основные понятия и принципы машинного обучения
Разберетесь с тем, как работают ключевые алгоритмы классического машинного обучения и начнете знакомиться с глубоким обучением
Научитесь оценивать качество построенных моделей на исторических данных и будете понимать, как оценивать его «в продакшене»
Овладеете знаниями и навыками, необходимыми в ML-секции собеседования на Junior Data Scientist
Видеолекция 10 непопулярных, но эффективных способов найти работу
Тариф 1
Разбор 10 выборочных резюме
Разбор задач с собеседований
Общий карьерный разбор с преподавателями курса
Бессрочный доступ к обновленным материалам
Тариф 2 + Собеседования с преподавателями + Сопровождение по трудоустройству
Подготовительный + База ML + Подготовка к трудоустройству
Подготовительный + База ML
Преподаватели
Виктор Кантор
Работает с большими данными и искусственным интеллектом с 2010 года
Прошел путь от Data Scientist'а до топ-менеджера (Big Data VP)
Построил службу машинного обучения в «Яндекс.Такси» (ex-CDS Яндекс.Такси)
Запустил Академию больших данных Mail.Ru
Руководил Big Data в МТС (600+ сотрудников)
Автор специализации «Машинное обучение и анализ данных» МФТИ и Яндекса на Coursera (200+ тысяч слушателей с 2016 года)
Читает лекции по машинному обучению в МФТИ и ВШЭ
Лауреат Forbes «30 до 30» 2020 года
Илья Ирхин
CDO Yandex.Eats (руководитель аналитики)
Окончил с отличием Факультет Инноваций и Высоких Технологий МФТИ
Окончил с отличием Школу Анализа Данных Яндекса
Соавтор и преподаватель DMIA
Ex-CDS Yandex.Go
Кандидат физико-математических наук
Никита Зелинский
Прошёл путь от Junior до C-level сервиса в Яндексе за 8 лет
CDS МТС
Ex-CDO Сбербанк в корпоративном блоке (B2B)
Участвовал в запуске процесса Кредит за 7 минут, отвечая за моделирование PD и внедрение этих моделей в промышленную эксплуатацию, проектирование части с оценкой риск-параметров