Как оценить по выборке генеральную совокупность? (Меры центральной тенденции)
Чтобы оценить по выборочным данным генеральную совокупность,
Как подсчитать меры среднего?
1. Среднее арифметическое
Подходит для нормальных распределений, где нет выдающихся значений.
2. Рассчитать усечённые статистики
Пример: есть компания, где зарплаты распределены с 15 000 до 50 000 руб. Среднее арифметическое = 23 000 руб. И тут появляется работник, которому начинают платить 150 000 руб. Среднее арифметическое станет в районе = 33 000 руб, со стороны это может дать сигнал, что в компании люди стали получать больше, но на самом деле это не так.
Если есть выбросы и распределение “Паранормальное”, то мы можем рассчитать усеченные статистики. Тоже арифметическое среднее, но мы отбросим самый маленький и самый большой результаты. Так делают в спорте, когда судьи оценивают, две крайние оценки отбрасывают при расчете.
3. Робастные статистики
Тоже вариант расчета для паранормальных распределений с выбросами. Это статистики, которые сами по себе не чувствительны к выбросам.
3.1 Моду – это самое распространенное значение
Мода незаменима для номинальных распределений, на непрерывных, дискретных и порядковых она дает не самые лучшие результаты. Если посмотреть на выборку зарплат, то единственное значение, которое встречается 2 раза – это 15 000 руб. Это и есть Мода.
Мода подходит для бимодальных распределений. Например, когда есть данные по расходу бензина в городе (для пробок) и на трассе (тогда распределение будет выглядеть именно так). Или когда есть средний бал ЕГЭ в российских школах и есть 2 типа школ: обычные и специальные и в подготовке детей в обоих школах большой разрыв.
Такое распределение говорит о том, что есть какие то группы, которые возможно есть смысл рассматривать отдельно.
3.2 Медиана (подкласс робастных статистик)
Если мы возьмем вариационный ряд, то в нем легко найти медиану.
Пример на зарплатах в компании:
Для значений с выбросом: 12000 15000 15000 16000 20000 25000 27000 28000 30000 50000 150000
- Мода = 15000
- Медиана = 25000
- Среднее = 35272
Итого, если есть выбросы, то лучше использовать Усеченные или робастные статистики.