Тема 5. Методы кластеризации

Тема 4. Методы ассоциация

Тема 3. Методы предподготовки данных

Тема 2. Основные понятия математической статистики

Тема 1. Введение в анализ данных

С ОБЕСПЕЧИВАЕМЫМИ ДИСЦИПЛИНАМИ

ОБЪЁМ ДИСЦИПЛИНЫ И ВИДЫ УЧЕБНОЙ РАБОТЫ

 

Общая трудоёмкость дисциплины составляет 4 зачётных единиц.

Вид промежуточной аттестации – тестирование

Вид итоговой аттестации - зачет.

Вид учебной работы Часы Семестры
Общая трудоёмкость дисциплины
Аудиторные занятия
Лекции (Л)  
Практические занятия (ПЗ)  
Самостоятельная работа
В семестре  
В сессию  

МЕЖДИСЦИПЛИНАРНЫЕ СВЯЗИ РАЗДЕЛОВ И ТЕМ ДИСЦИПЛИНЫ

№п/п Наименование обеспечиваемых (последующих) дисциплин базовой части Номера разделов данной дисциплины, необходимых для изучения обеспечиваемых (последующих) дисциплин базовой части
Математика * * * * *
Теория вероятностей и математическая статистика * * * *  
Эконометрика * * *    

СТРУКТУРА ДИСЦИПЛИНЫ (ТЕМАТИЧЕСКИЙ ПЛАН)

  № п/п   Наименование раздела и темы дисциплины Трудоёмкость в часах
  Всего часов   Аудиторная работа Внеауди-торная (самостоя-тельная) работа
  Общая   Лек-ции Семинары и/или практичес- кие занятия   Общая
Введение в анализ данных  
Основные понятия математической статистики.  
Методы предподготовки данных
Методы ассоциация
Методы кластеризации
Методы классификации и регрессии
Анализ и прогнозирование временных рядов  
Ансамбли моделей  
  Всего

СОДЕРЖАНИЕ ДИСЦИПЛИНЫ

Введение в анализ данных. Проблема обработки данных. Матрица данных. Гипотезы компактности и скрытых факторов. Структура матрицы данных и задачи обработки. Матрица объект-объект и признак-признак. Расстояние и близость. Измерение признаков. Отношения и их представление. Основные проблемы измерений. Основные типы шкал. Проблема адекватности. Основные задачи анализа и интерпретации данных

 

Основные понятия теории вероятности. Понятие случайной величины. Распределения. Выборочный метод. Оценка параметров распределения. Проверка статистических гипотез.

 

 

Оценка качества данных. Технологии и методы оценки качества данных. Очистка и предобработка. Фильтрация данных. Обработка дубликатов и противоречий. Выявление аномальных значений. Восстановление пропущенных значений. Введение в сокращение размерности. Сокращение числа признаков.

 

 

Ассоциативные правила. Алгоритм Apriori. Иерархические ассоциативные правила. Последовательные шаблоны. Примеры применения методов ассоциации в анализе бизнес-информации.

 

 

Кластеризация. Алгорим кластеризации k-means. Сети Кохонена. Карты Кохонена. Проблемы алгоритмов кластеризации. Примеры применения методов кластеризации в анализе бизнес-информации.

 

Тема 6. Методы классификации и регрессии

 

Введение в классификацию и регрессию. Статистические методы. Линейная регрессионная модель. Множественная регрессия. Логистическая регрессия. Деревья решений. Алгоритм ID3, C4.5, CART. Нейронные сети. Алгоритмы обучения нейронных сетей. Алгоритм обратного распространения ошибки. Примеры применения методов классификации в анализе бизнес-информации. Примеры применения методов регрессии в анализе бизнес-информации.