Графический анализ данных (гистограммы)
Квартет Энскомба — четыре набора числовых данных, у которых простые статистический свойства очень похожи, но их графики существенно отличаются.
Методы графического анализа данных
1 метод – Эмпирическая функция распределения
Эмпирическая функция распределения выборочный аналог функции распределения, который мы можем построить по имеющейся у нас выборке. Функция распределения показывает вероятность попадания случайной величины в интервал от -∞ до x.
Fξ(x) = P{ξ ≤ x}, x∈R
Пример как подсчитать:
Дано количество кликов по фирме в день
- Стоим вариационный ряд, Упорядочиваем по возрастанию
- Считаем для каждого значения количество наблюдений, которые меньше или равны текущему.
2 метод – Гистограммы
Гистограмма – это геометрическое изображение эмпирической функции плотности вероятности некоторой случайной величины, построенное по выборке.
Как построить гистограмму?
- Поделить область значений на k равных интегралов
- Подсчитать количество наблюдений в каждом интервале
- Чтобы получить функцию плотности с интегралом площади под графиком равным 1, высчитаем высоту столбцов по формуле ниже
Как правильно выбрать количество интервалов?
1 метод. Метод Стёрджесса (для определния количетсва интервалов)
k = 1 + [log2n]
2 метод. (для определния количетсва интервалов)
k = [√n]
3 метод. Метод Скотта(для определния ширины интервалов)
Рассчитан на нормальность данных, так как использует среднее квадратичное отклонение.
4 метода. Фридмана – Диакониса
Испольует межквартильный размах и не рассчитан на нормальность данных.
Примеры гистограмм на больших выборках
Без выбросов хорошо работают Скотт и Диаконис. Первые два метода, ломаются и дают очень небольшое количество интервалов. Из за чего теряют в информативности.
Если брать выборки с выбросами, то нормально работает только метод Фридмана – Диакониса.
Гистограммы плохо работают на небольшом объеме данных. Мы не можем сказать какие у нас данные: нормальные, логнормальные, экспоненциальные, есть или нет выбросов.
Как интерпретировать результаты гистограмм?
Для нахождения смесей выборки.