Онлайн курс "Обработка и анализ данных"
Михайлова Елена, университет ИТМО

Блок дисциплин «Цифровая культура»
университет ИТМО, магистратура
Назначение блока дисциплин:

Под цифровой культурой понимаются совокупности компетенций, характеризующие способность использования информационно-коммуникационных технологий для комфортной жизни в цифровой среде, для взаимодействия с обществом и решения цифровых задач в профессиональной деятельности.

Состав блока дисциплин:

1.Обработка и анализ данных (1 семестр)
2.Прикладной искусственный интеллект (2 семестр)
Целевая аудитория:

Студенты магистратуры университета ИТМО, все направления подготовки

Пререквизиты:

Высшая математика в объема программы бакалавриата

Обработка и анализ данных
Цель создания курса:

Потребности цифровой экономики ->
Знание подходов и технологий для работы с данными и умение их использовать в любой профессиональной деятельности

Задачи дисциплины:

•Получить представление об основных понятиях научной деятельности
•Изучить подходы и алгоритмы обработки данных.
•Изучить основные задачи анализа данных.
•Освоить различные инструменты и технологии для обработки и анализа данных.
•Научиться использовать инструментов анализа данных для решения прикладных задач.
  • Описание курса для регистрации:
Этот курс направлен на изучение приемов работы с данными - от самых простых: загрузка, очистка, структурирование - до сложных: методы машинного обучения. Изучив этот курс, вы будете знать статистические алгоритмы работы с данными, будете уметь правильно использовать визуализацию данных. Вы будете знать, какие задачи можно ставить к данным, как их решать, и какие технологии для этого подходят. В процессе изучения курса вы будете выполнять задания при помощи различных инструментов: Excel, Rapid Miner и пр. Если вы умеет программировать, то вместо этих инструментов вы сможете реализовывать алгоритмы на любом языке программирования (мы рекомендуем Phyton или R) и обрабатывать данные при помощи самостоятельно созданных программ. Кроме этого, вы узнаете, как устроена научная публикация, как вести научное исследование, как составить заявку, найти нужные материалы и потом правильно составить отчет. Чтобы освоить курс, вам понадобится знание линейной алгебры и дифференциального исчисления (высшая математика) для бакалавриата.
Длительность курса: 12 недель

Трудоемкость в неделю: 3-4 часа

Общая трудоемкость: 3 зачетных единицы

Визуальная концепция: https://youtu.be/ZNJhk1x8A1g

Запуск курса: ежегодно с 1 сентября
Каждую неделю открывается новая лекция курса. При выполнении заданий в срок (неделя после опубликования) задание после каждой лекции оценивается максимально в 10 баллов. Выполнение после этого срока снижает оценку на 10%.


Реализация дисциплины:

1) Лекции – дистанционно
2) Практические занятия: (а) дистанционно, (б) мастер-класс (в форме консультаций – обеспечиваются сотрудниками образовательной программы или централизованно).
3) Инфраструктура для практических занятий:
(а) Для «программирующих»: Python/R
(б) Для «непрограммирующих»: GUI (Excel/PostgreSQL/RapidMiner/Weka)
4) ФОС:
(а) чек-листы (формальный опросник) в части работы с ПО, и владения системным восприятием предмета
(б) лабораторные работы с количественно проверяемыми параметрами (автомат). После каждой лекции максимальная оценка 10 баллов за выполнение задания.
5) Форма контроля – зачет (по факту выполнения всех заданий на 60% и более)
6) Пререквизиты: линейная алгебра, дифф. и инт. исчисление

Содержание курса - модули (каждый модуль из трех лекций)
1.Научное исследование
2.Хранение и первичная обработка данных
3.Статистическая обработка данных
4.Машинное обучение
Модуль 1.
1.Основные понятия научной деятельности. Виды, формы, методы исследований и разработок. Порядок выполнения НИОКТР. Результаты интеллектуальной деятельности.
2.Представление результатов научных исследований. Виды научно-технических отчетов. Техническая документация. Публичная апробация результатов. Правила подготовки и прохождения научных публикаций.
3.Источники научно-технической информации. Публикационная наукометрия. Реферативные базы публикаций. Патентные базы. Открытые источники количественных данных.
Модуль 2.
1.Основные модели работы с данными. Виды и источники данных. Загрузка, разделение и нормализация данных. Очистка данных и заполнение пропусков. Контроль диапазонов. Объединение данных из разных источников.
2.Первичная обработка и визуализация данных. Преобразования данных. Формы представления количественных и качественных данных. Когнитивная визуализация данных.
3. Хранение и доступ к данным. Виды баз данных. Реляционные, NoSQL, объектные базы данных. Большие данные. Информационные системы.
Модуль 3.
1.Статистика одномерной случайной величины. Точечные и интервальные оценки. Статистическое оценивание распределений и проверка гипотез.
2.Статистика многомерной случайной величины. Снижение размерности, оценивание х зависимостей. Регрессионный, дисперсионный анализ, факторный анализ.
3.Статистика временных рядов и полей. Корреляционные и спектральные модели. Фильтрация. Динамические системы и вероятностное прогнозирование.
Модуль 4.
1.Задачи машинного обучения (обучение с учителем, без учителя, с подкреплением). Классификация моделей и методов машинного обучения. Методы кластер-анализа, дискриминантного анализа, распознавания образов.
2.Предсказательные модели. Методы построения, преобразования и отбора признаков. Обобщающая способность модели. Логистическая регрессия, методы она основе деревьев решений, бустинг.
3.Искусственные нейронные сети. Методы обучения нейронных сетей Классификация и прогнозирование на нейронных сетях. Эволюционные алгоритмы для работы с нейронными сетями.
План лекции: "Визуализация данных"
1. Базовые определения
2. Визуализация одномерных и двумерных данных
3. Многомерные данные
4. Инфографика
5. Рекомендации и
Частые ошибки
6. Обзор инструментов для визуализации
7. Практическое выполнение различных способов визуализации в Excel
8. Практическое выполнение различных способов визуализации в онлайн инструменте
Формат лекции
Каждая лекция состоит из приветствия лектора и 5-7 минутных фрагментов.
Суммарная продолжительность – 50 минут.
Приветствие лектора (3-5 минут) – запись лектора в технологии «зеленый экран» с динамической заставкой на заднем фоне. Лектор произносит стандартное унифицированное приветствие, анонсирует и актуализирует свой курс
Остальные фрагменты – анимированный фильм без лица автора. В каждом 5-7 минутном фрагменте предусмотрено 6-9 кадров презентации, которые в конце фрагмента вместе выводятся на экран.
После каждого фрагмента неоцениваемый (-ые) вопрос (-ы).
В конце лекции задание.
По окончании курса тест на комплексные задания
Срок годности курса:
Некоторые элементы курса будут нуждаться в актуализации. Особенно после первого запуска. Но основные элементы курса являются базовыми алгоритмами, поэтому полной переработки курс не потребует.
Способы использования курса
Первый запуск курса будет только для магистров университета ИТМО. В последствии возможен массовый запуск курса для студентов магистратуры любых технических вузов.
Авторский коллектив курса

Михайлова Елена Георгиевна, ответственный автор
Бухановский Александр Валерьевич, главный эксперт
По модулям:

1.Климова Александра Сергеевна, к.т.н., Инженер кафедры высокопроизводительных вычислений, Ассистент кафедры компьютерной фотоники и видеоинформатики ИТМО
2.Графеева Наталья Генриховна, к.ф.-м.н., доцент кафедры ИАС СПбГУ
Михайлова Елена Георгиевна, к.ф.-м.н., ИО зав.каф. кафедры ИАС СПбГУ
3.Бухановский Александр Валерьевич, д.т.н., директор мегафакультета трансляционных информационных технологий, Директор, главный научный сотрудник научно-исследовательского института наукоемких компьютерных технологий ИТМО
4.Боченина Клавдия, к.т.н., Старший научный сотрудник научно-исследовательского института наукоемких компьютерных технологий, доцент кафедры высокопроизводительных вычислений
Команда реализации курса
1.Центр дистанционного обучения университета ИТМО – видеосъемка лекторов, запись голоса, составление анимации из подготовленных презентаций, запись голоса
2.Кафедра графических технологий университета ИТМО – оформление презентаций, перерисовка картинок и пр.
3.Директор направления «Цифровая культура» университета ИТМО – общий контроль и координация проекта

Этапы реализации
1.Подготовка/редактирование/правка текста и презентаций видеолекций
до 15 апреля
1.Создание сценариев видеофильмов с указанием на каждую сцену/кадр:
a.Аудио контента;
b.Видеоконтента;
c.Хронометража.
До 15 мая
2.Организация и проведение съемки "приветственного видео" для всех лекторов
до 15 июня
1.Организация и проведение аудиозаписи лекций. Аудио-монтаж и сведение.
до 15 июня
1.Создание анимированного видеоконтента для каждой лекции.
2.Финальный монтаж до 30 июля

Фотографии вставлены для примера, тексты и информация о компании вымышленные. Пожалуйста, не используйте контент шаблона в коммерческих целях.