Этапы проверки статистических гипотез

1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.

2. Задание уровня значимости , на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.

3. Расчёт статистики критерия такой, что:

o её величина зависит от исходной выборки ;

o по её значению можно делать выводы об истинности гипотезы ;

o сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности .

4. Построение критической области. Из области значений выделяется подмножество таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.

5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы .

Выделяют три вида критических областей:

  • Двусторонняя критическая область определяется двумя интервалами , где находят из условий .
  • Левосторонняя критическая область определяется интервалом , где находят из условия .
  • Правосторонняя критическая область определяется интервалом , где находят из условия .

Прогнозный анализ фокусируется на применении статистических или структурных моделей для предсказания или классификации, а анализ текста применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников принадлежащих к неструктурированным данным.

Прогнозная аналитика охватывает множество методов из статистики, интеллектуального анализа данных и теории игр, анализирует текущие и исторические факты для составления предсказаний о будущих событиях. В бизнесе, прогнозные модели используют паттерны, найденные в исторических и выполняемых данных, чтобы идентифицировать риски и возможности. Модели фиксируют связи среди многих факторов, чтобы сделать возможной оценку рисков или потенциала, связанного с конкретным набором условий, руководя принятием решений о возможных сделках.

Прогнозная аналитика используется в актуарных расчётах, финансовых услугах, страховании, телекоммуникациях, розничной торговле, туризме, здравоохранении, фармацевтике и других областях.

Одно из хорошо известных применений — кредитный скоринг, который используется в финансовых услугах. Модели скоринга обрабатывают кредитную историю потребителя, займы, потребительские данные и т. д., в порядке ранжирования лиц по вероятности выплаты по кредитам в сроки.

Интеграция данных это предшественник анализа данных, а сам анализ данных тесно связан с визуализацией данных и распространению данных. Термин «Анализ данных» иногда используется как синоним к моделированию данных

Интеграция данных включает объединение данных, находящихся в различных источниках и предоставление данных пользователям в унифицированном виде. Этот процесс становится существенным как в коммерческих задачах (когда двум похожим компаниям необходимо объединить их базы данных), так и в научных (комбинирование результатов исследования из различных биоинформационных репозиториев, для примера). Роль интеграции данных возрастает, когда увеличивается объём и необходимость совместного использования данных. Это стало фокусом обширной теоретической работы, а многочисленные проблемы остаются нерешёнными