Тема 5. Методы кластеризации
Тема 4. Методы ассоциация
Тема 3. Методы предподготовки данных
Тема 2. Основные понятия математической статистики
Тема 1. Введение в анализ данных
С ОБЕСПЕЧИВАЕМЫМИ ДИСЦИПЛИНАМИ
ОБЪЁМ ДИСЦИПЛИНЫ И ВИДЫ УЧЕБНОЙ РАБОТЫ
Общая трудоёмкость дисциплины составляет 4 зачётных единиц.
Вид промежуточной аттестации – тестирование
Вид итоговой аттестации - зачет.
Вид учебной работы | Часы | Семестры |
Общая трудоёмкость дисциплины | ||
Аудиторные занятия | ||
Лекции (Л) | ||
Практические занятия (ПЗ) | ||
Самостоятельная работа | ||
В семестре | ||
В сессию |
МЕЖДИСЦИПЛИНАРНЫЕ СВЯЗИ РАЗДЕЛОВ И ТЕМ ДИСЦИПЛИНЫ
№п/п | Наименование обеспечиваемых (последующих) дисциплин базовой части | Номера разделов данной дисциплины, необходимых для изучения обеспечиваемых (последующих) дисциплин базовой части | ||||
Математика | * | * | * | * | * | |
Теория вероятностей и математическая статистика | * | * | * | * | ||
Эконометрика | * | * | * |
СТРУКТУРА ДИСЦИПЛИНЫ (ТЕМАТИЧЕСКИЙ ПЛАН)
№ п/п | Наименование раздела и темы дисциплины | Трудоёмкость в часах | ||||
Всего часов | Аудиторная работа | Внеауди-торная (самостоя-тельная) работа | ||||
Общая | Лек-ции | Семинары и/или практичес- кие занятия | Общая | |||
Введение в анализ данных | ||||||
Основные понятия математической статистики. | ||||||
Методы предподготовки данных | ||||||
Методы ассоциация | ||||||
Методы кластеризации | ||||||
Методы классификации и регрессии | ||||||
Анализ и прогнозирование временных рядов | ||||||
Ансамбли моделей | ||||||
Всего |
СОДЕРЖАНИЕ ДИСЦИПЛИНЫ
Введение в анализ данных. Проблема обработки данных. Матрица данных. Гипотезы компактности и скрытых факторов. Структура матрицы данных и задачи обработки. Матрица объект-объект и признак-признак. Расстояние и близость. Измерение признаков. Отношения и их представление. Основные проблемы измерений. Основные типы шкал. Проблема адекватности. Основные задачи анализа и интерпретации данных
Основные понятия теории вероятности. Понятие случайной величины. Распределения. Выборочный метод. Оценка параметров распределения. Проверка статистических гипотез.
Оценка качества данных. Технологии и методы оценки качества данных. Очистка и предобработка. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков.
Ассоциативные правила. Алгоритм Apriori. Иерархические ассоциативные правила. Последовательные шаблоны. Примеры применения методов ассоциации в анализе бизнес-информации.
Кластеризация. Алгорим кластеризации k-means. Сети Кохонена. Карты Кохонена. Проблемы алгоритмов кластеризации. Примеры применения методов кластеризации в анализе бизнес-информации.
Тема 6. Методы классификации и регрессии
Введение в классификацию и регрессию. Статистические методы. Линейная регрессионная модель. Множественная регрессия. Логистическая регрессия. Деревья решений. Алгоритм ID3, C4.5, CART. Нейронные сети. Алгоритмы обучения нейронных сетей. Алгоритм обратного распространения ошибки. Примеры применения методов классификации в анализе бизнес-информации. Примеры применения методов регрессии в анализе бизнес-информации.