Этапы проверки статистических гипотез
1. Формулировка основной гипотезы и конкурирующей гипотезы . Гипотезы должны быть чётко формализованы в математических терминах.
2. Задание уровня значимости , на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
3. Расчёт статистики критерия такой, что:
o её величина зависит от исходной выборки ;
o по её значению можно делать выводы об истинности гипотезы ;
o сама статистика должна подчиняться какому-то известному закону распределения, так как сама является случайной в силу случайности .
4. Построение критической области. Из области значений выделяется подмножество таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство . Это множество и называется критической областью.
5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую область выносится решение об отвержении (или принятии) выдвинутой гипотезы .
Выделяют три вида критических областей:
- Двусторонняя критическая область определяется двумя интервалами , где находят из условий .
- Левосторонняя критическая область определяется интервалом , где находят из условия .
- Правосторонняя критическая область определяется интервалом , где находят из условия .
Прогнозный анализ фокусируется на применении статистических или структурных моделей для предсказания или классификации, а анализ текста применяет статистические, лингвистические и структурные методы для извлечения и классификации информации из текстовых источников принадлежащих к неструктурированным данным.
Прогнозная аналитика охватывает множество методов из статистики, интеллектуального анализа данных и теории игр, анализирует текущие и исторические факты для составления предсказаний о будущих событиях. В бизнесе, прогнозные модели используют паттерны, найденные в исторических и выполняемых данных, чтобы идентифицировать риски и возможности. Модели фиксируют связи среди многих факторов, чтобы сделать возможной оценку рисков или потенциала, связанного с конкретным набором условий, руководя принятием решений о возможных сделках.
Прогнозная аналитика используется в актуарных расчётах, финансовых услугах, страховании, телекоммуникациях, розничной торговле, туризме, здравоохранении, фармацевтике и других областях.
Одно из хорошо известных применений — кредитный скоринг, который используется в финансовых услугах. Модели скоринга обрабатывают кредитную историю потребителя, займы, потребительские данные и т. д., в порядке ранжирования лиц по вероятности выплаты по кредитам в сроки.
Интеграция данных это предшественник анализа данных, а сам анализ данных тесно связан с визуализацией данных и распространению данных. Термин «Анализ данных» иногда используется как синоним к моделированию данных
Интеграция данных включает объединение данных, находящихся в различных источниках и предоставление данных пользователям в унифицированном виде. Этот процесс становится существенным как в коммерческих задачах (когда двум похожим компаниям необходимо объединить их базы данных), так и в научных (комбинирование результатов исследования из различных биоинформационных репозиториев, для примера). Роль интеграции данных возрастает, когда увеличивается объём и необходимость совместного использования данных. Это стало фокусом обширной теоретической работы, а многочисленные проблемы остаются нерешёнными