На главной странице Яндекса есть ссылка с CTR 1,5%. Ссылку изменили, и, чтобы проверить, как изменился CTR, стали показывать новую ссылку в 4% случаев. Сколько нужно показов главной страницы Яндекса, чтобы узнать об изменении CTR с точностью 5%? Почему?
Кому было интересно, смотрим на решение.
Метод 1.
Вопрос сфомулирован с долей неопределённости, потому что для проверки данной гипотезы в численном виде, необходимо задать Е (эпселент) : |m2/n2 - p0|<=E. Зададим E самостоятельно: 1) E = 0,005 ; 2) E = 0,001
Где m2 - кол-во кликов по новой ссылке.
n2 - кол-во показов новой ссылки.
p0 - гипотетическая частота CTR = 0,015, с которой мы непосредственно сравниваем. Будем называть её гипотетической вероятностью для удобства.
Uнабл=(|m2/n2 - p0|*sqrt(n2))/sqrt(p0*q0)
Ф(Uкр)=(1-а)/2. (Для уровня значимости а=0,05 Ф(Uкр)=0,475, а Uкр=1,96) Да здравствуют таблицы Лапласа!
гипотеза H0: m2/n2 = p0. Гипотеза H1: m2/n2 <> p0.
Если Uнабл < Uкр, то принимаем гипотезу H0, если нер-во не выполняется, то отвергаем H0.
Мы возьмём случай равенства.
sqrt(n2)=(sqrt(p0*q0)*Uкр)/|m2/n2 - p0|
1) E = 0,005
sqrt(n2)=0,28324/0,005=47,65.
n2=2270
n=n2/0,04=56758,3=56759 просмотров главной страницы.
2) E = 0,001
sqrt(n2)=0,28324/0,001=283,24
n2=80225.
n=n2/0,04=2005623 просмотров главной страницы.
Столь резкие различия показывают, что достижение очень высокой точности можно отследить обычно только при очень большом объёме выборки.
Метод 2. Плохой метод.
Мы просто смотрим, чтобы вероятность
|m2/n2 - p0|<=0,05 была не меньше, чем вероятность противоположного события.
Для этого воспользуемся формулой: E=0,05.
P(|m2/n2 - p0|<=E)=2*Ф(E*sqrt(n2/(p*q))).
Получается, что 2*Ф(E*sqrt(n2/(p*q))) >= 1 - 2*Ф(E*sqrt(n2/(p*q)))
4*Ф(E*sqrt(n2/(p*q))) >= 1
Ф(E*sqrt(n2/(p*q))) >= 1/4
E*sqrt(n2/(p*q))>=0,6745
sqrt(n2)=1,6188
n2 = 2,62
n=66
Грустное зрелище, ибо подобная оценка вероятностей по-моему противоречит здравому смыслу (вспоминаем встречу динозавров).
Кому было интересно, смотрим на решение.
Метод 1.
Вопрос сфомулирован с долей неопределённости, потому что для проверки данной гипотезы в численном виде, необходимо задать Е (эпселент) : |m2/n2 - p0|<=E. Зададим E самостоятельно: 1) E = 0,005 ; 2) E = 0,001
Где m2 - кол-во кликов по новой ссылке.
n2 - кол-во показов новой ссылки.
p0 - гипотетическая частота CTR = 0,015, с которой мы непосредственно сравниваем. Будем называть её гипотетической вероятностью для удобства.
Uнабл=(|m2/n2 - p0|*sqrt(n2))/sqrt(p0*q0)
Ф(Uкр)=(1-а)/2. (Для уровня значимости а=0,05 Ф(Uкр)=0,475, а Uкр=1,96) Да здравствуют таблицы Лапласа!
гипотеза H0: m2/n2 = p0. Гипотеза H1: m2/n2 <> p0.
Если Uнабл < Uкр, то принимаем гипотезу H0, если нер-во не выполняется, то отвергаем H0.
Мы возьмём случай равенства.
sqrt(n2)=(sqrt(p0*q0)*Uкр)/|m2/n2 - p0|
1) E = 0,005
sqrt(n2)=0,28324/0,005=47,65.
n2=2270
n=n2/0,04=56758,3=56759 просмотров главной страницы.
2) E = 0,001
sqrt(n2)=0,28324/0,001=283,24
n2=80225.
n=n2/0,04=2005623 просмотров главной страницы.
Столь резкие различия показывают, что достижение очень высокой точности можно отследить обычно только при очень большом объёме выборки.
Метод 2. Плохой метод.
Мы просто смотрим, чтобы вероятность
|m2/n2 - p0|<=0,05 была не меньше, чем вероятность противоположного события.
Для этого воспользуемся формулой: E=0,05.
P(|m2/n2 - p0|<=E)=2*Ф(E*sqrt(n2/(p*q))).
Получается, что 2*Ф(E*sqrt(n2/(p*q))) >= 1 - 2*Ф(E*sqrt(n2/(p*q)))
4*Ф(E*sqrt(n2/(p*q))) >= 1
Ф(E*sqrt(n2/(p*q))) >= 1/4
E*sqrt(n2/(p*q))>=0,6745
sqrt(n2)=1,6188
n2 = 2,62
n=66
Грустное зрелище, ибо подобная оценка вероятностей по-моему противоречит здравому смыслу (вспоминаем встречу динозавров).
There is a link on the Yandex homepage with a CTR of 1.5%. The link was changed, and to check how the CTR changed, they started showing a new link in 4% of cases. How many impressions does the Yandex homepage need to find out about the change in CTR with an accuracy of 5%? Why?
To whom it was interesting, we look at the solution.
Method 1
The question is somculated with a degree of uncertainty, because to test this hypothesis in numerical form, it is necessary to ask E (abscess): | m2 / n2 - p0 | <= E. We set E independently: 1) E = 0.005; 2) E = 0.001
Where m2 is the number of clicks on the new link.
n2 - number of impressions of the new link.
p0 is the hypothetical frequency CTR = 0.015, with which we directly compare. We will call it a hypothetical probability for convenience.
Unset = (| m2 / n2 - p0 | * sqrt (n2)) / sqrt (p0 * q0)
Ф (Uкр) = (1-а) / 2. (For significance level a = 0.05 F (Ucr) = 0.475, and Ucr = 1.96) Long live the Laplace tables!
hypothesis H0: m2 / n2 = p0. Hypothesis H1: m2 / n2 <> p0.
If Ucobs <Ucr, then we accept the hypothesis H0, if the inequality does not hold, then reject H0.
We take the case of equality.
sqrt (n2) = (sqrt (p0 * q0) * Ucr) / | m2 / n2 - p0 |
1) E = 0.005
sqrt (n2) = 0.28324 / 0.005 = 47.65.
n2 = 2270
n = n2 / 0.04 = 56758.3 = 56759 views of the main page.
2) E = 0.001
sqrt (n2) = 0.28324 / 0.001 = 283.24
n2 = 80225.
n = n2 / 0.04 = 2005623 views of the main page.
Such sharp differences show that the achievement of very high accuracy can usually be tracked only with a very large sample size.
Method 2. The bad method.
We just look so that the probability
| m2 / n2 - p0 | <= 0.05 was no less than the probability of the opposite event.
To do this, we use the formula: E = 0.05.
P (| m2 / n2 - p0 | <= E) = 2 * Ф (E * sqrt (n2 / (p * q))).
It turns out that 2 * Ф (E * sqrt (n2 / (p * q)))> = 1 - 2 * Ф (E * sqrt (n2 / (p * q)))
4 * Ф (E * sqrt (n2 / (p * q)))> = 1
F (E * sqrt (n2 / (p * q)))> = 1/4
E * sqrt (n2 / (p * q))> = 0.6745
sqrt (n2) = 1.6188
n2 = 2.62
n = 66
It’s a sad sight, because such an assessment of probabilities, in my opinion, contradicts common sense (we recall the meeting of dinosaurs).
To whom it was interesting, we look at the solution.
Method 1
The question is somculated with a degree of uncertainty, because to test this hypothesis in numerical form, it is necessary to ask E (abscess): | m2 / n2 - p0 | <= E. We set E independently: 1) E = 0.005; 2) E = 0.001
Where m2 is the number of clicks on the new link.
n2 - number of impressions of the new link.
p0 is the hypothetical frequency CTR = 0.015, with which we directly compare. We will call it a hypothetical probability for convenience.
Unset = (| m2 / n2 - p0 | * sqrt (n2)) / sqrt (p0 * q0)
Ф (Uкр) = (1-а) / 2. (For significance level a = 0.05 F (Ucr) = 0.475, and Ucr = 1.96) Long live the Laplace tables!
hypothesis H0: m2 / n2 = p0. Hypothesis H1: m2 / n2 <> p0.
If Ucobs <Ucr, then we accept the hypothesis H0, if the inequality does not hold, then reject H0.
We take the case of equality.
sqrt (n2) = (sqrt (p0 * q0) * Ucr) / | m2 / n2 - p0 |
1) E = 0.005
sqrt (n2) = 0.28324 / 0.005 = 47.65.
n2 = 2270
n = n2 / 0.04 = 56758.3 = 56759 views of the main page.
2) E = 0.001
sqrt (n2) = 0.28324 / 0.001 = 283.24
n2 = 80225.
n = n2 / 0.04 = 2005623 views of the main page.
Such sharp differences show that the achievement of very high accuracy can usually be tracked only with a very large sample size.
Method 2. The bad method.
We just look so that the probability
| m2 / n2 - p0 | <= 0.05 was no less than the probability of the opposite event.
To do this, we use the formula: E = 0.05.
P (| m2 / n2 - p0 | <= E) = 2 * Ф (E * sqrt (n2 / (p * q))).
It turns out that 2 * Ф (E * sqrt (n2 / (p * q)))> = 1 - 2 * Ф (E * sqrt (n2 / (p * q)))
4 * Ф (E * sqrt (n2 / (p * q)))> = 1
F (E * sqrt (n2 / (p * q)))> = 1/4
E * sqrt (n2 / (p * q))> = 0.6745
sqrt (n2) = 1.6188
n2 = 2.62
n = 66
It’s a sad sight, because such an assessment of probabilities, in my opinion, contradicts common sense (we recall the meeting of dinosaurs).
У записи 3 лайков,
0 репостов.
0 репостов.
Эту запись оставил(а) на своей стене Юлия Котоман