Типы данных в анализе данных и вычисление выборочной квантили
Номинальные – содержат меньше всего информации, принадлежность объектов к определенной группе. Мужчины, женщины; совы, жаворонки;
Порядковые – тоже содержит принадлежность к группе, но кроме того определено и отношение порядка между значениями. Насколько вы счастливы по шкале от 1 до 9.
Дискретные (интервальные) – и отношение к группе и порядок, но еще цифры означают сами себя и кроме порядка у нас определено расстояние между значениями. Не просто 2 < 5, но еще и 2 меньше 5 ровно на 3. И 4 меньше 7 ровно на те же 3.
Непрерывные – дни, часы, секунды, рубли, копейки миллионы.
Выборка
Допустим у нас есть случайная величина ξ (кси) и у нее есть некоторый закон распределения ξ = Fξ(x). Мы работаем не со случайной величиной, а с некоторым набором реализации данной случайной величины.
Наблюдения X1,…,Xn должны удовлетворять следующим правилам, чтобы предотвратить смесь выборки (типа смесь выборки очень плохо).
1. Независимы друг от друга
2. Одинаково распределены
Смесь выборки – это ситуация, когда в выборке есть набор реализаций двух или более случайных величин с разными распределениями.
Выборка – это некоторый конечный набор реализации случайной величины, которой мы извлекаем из некоторой генеральной совокупности.
Порядковая статистика (больше одинаковых терминов богу терминов) –
Используется для получения выборочных квантилей – значение, которая имеющая у нас случайная величина не превосходит с заданной вероятностью α.
Если у нас есть случайная величина и мы знает ее закон распределения, то через функцию распределения мы можем подсчитать квантиль для любой нужной нам вероятности.
Если закона распределения у нас нет, есть только выборка, набор реализаций случайной величины и мы хотим подсчитать квантиль. В этом случае мы считаем выборочную квантиль:
1. Упорядочиваем нашу выборку X(1) < X(2) < X(3) < … < X(n). Строим вариационный ряд.
2. Берем выборочную квантиль, как порядковую статистику, где номер порядковой статистики определяется как целая часть от произведения нужной нам вероятности на объем выборки. tα = X([α*n]), где α – заданная вероятность, n – объем выборки.
Пример
Есть некая выборка кликов по фирме в день и мы хотим подсчитать больше какого количества кликов получит данная фирма с вероятностью 90%?
1. Мы упорядочиваем выборку, т.е. строим вариационный ряд.
2. В этом случае нам нужна 10% выборочная квантиль. α = 0,9 => 1- α = 0,1
3. Так как объем выборки у нас равен n = 22 и нам нужны 10%, то мы получаем, что нам нужна вторая порядковая статистика [(1 – α)*n] = [0,1*22] = [2,2] = 2
4. Вторая порядковая статистика t0,1 = X(2) = 214
5. По имеющейся у нас выборке, данная фирма получит больше 214 в день с вероятностью 90%