Небольшая история о карме (или долбоебизме)
Мой хороший приятель [id14|Айди14] попросил меня собрать данных для одной статистики по первому миллиону пользователей. Он вообще любит красивые графики и убеждаться, что центральная предельная теорема работает. А убеждаться в этом лучше всего на миллионе измерений. Но история не об этом.
Я сел и написал нехитрый и раздолбайский скрипт, который должен был где-то часов за 5-6 вытащить мне этот самый миллион.
После первых 5 часов работы скрипта, я случайно перезагрузил компьютер и все данные стерлись.
Я недовольно поморщился и поставил скрипт еще раз работать. Он отработал 6 часов и я не смог достать значение переменной из дебаггера, потому что там было что-то около миллиона цифр... Дебаггер завис. Пришлось все убивать, вместе с данными.
Я разозлился и дописал вывод результатов в файл каждые 2500 записей. Поставил. Отработали. На выходе из цикла забыл поставить флаг, что файл не надо перезаписывать... Честно отработав 7 часов скрипт перезаписал мне последним измерением весь файл и оставил его с последним измерением.
Я обреченно исправил этот несчастный флаг и запустил скрипт еще раз. Тут во всем доме выключили свет.
Я подождал, пока свет включат, и поставил скрипт доставать проклятые данные еще раз. И вроде все достал... 6 часов прошло. Я радостно передал их [id14|Айди14]. И написал бодро на стене, что оказывается из миллиона пользователей 160 000 не существуют, даже как боты. Там просто пустое место.
И вдруг... Я понял, что всю статистику я снимал неправильно. И вместо миллиона пользователей по 25 раз снял первых 40 000. И написанное выше число (160 000) ничего не значит.
Уже не удивляясь себе, я в последний раз исправил программу и поставил ее снимать правильные данные. И вот он посчитал. Надеюсь, это победа. =)
Но самое смешное, что оценка 160 000 оказалась "относительно" правильной. Но немного заниженной. На самом деле, почти 190 000 из первого миллиона - не существуют. Вот что творит природа. Вроде все люди разные, а если получил выборку по 40 000ам, то выборка 1 000 000, по параметрам не будет очень уж сильно отличаться от в 25 раз меньшей.
Мой хороший приятель [id14|Айди14] попросил меня собрать данных для одной статистики по первому миллиону пользователей. Он вообще любит красивые графики и убеждаться, что центральная предельная теорема работает. А убеждаться в этом лучше всего на миллионе измерений. Но история не об этом.
Я сел и написал нехитрый и раздолбайский скрипт, который должен был где-то часов за 5-6 вытащить мне этот самый миллион.
После первых 5 часов работы скрипта, я случайно перезагрузил компьютер и все данные стерлись.
Я недовольно поморщился и поставил скрипт еще раз работать. Он отработал 6 часов и я не смог достать значение переменной из дебаггера, потому что там было что-то около миллиона цифр... Дебаггер завис. Пришлось все убивать, вместе с данными.
Я разозлился и дописал вывод результатов в файл каждые 2500 записей. Поставил. Отработали. На выходе из цикла забыл поставить флаг, что файл не надо перезаписывать... Честно отработав 7 часов скрипт перезаписал мне последним измерением весь файл и оставил его с последним измерением.
Я обреченно исправил этот несчастный флаг и запустил скрипт еще раз. Тут во всем доме выключили свет.
Я подождал, пока свет включат, и поставил скрипт доставать проклятые данные еще раз. И вроде все достал... 6 часов прошло. Я радостно передал их [id14|Айди14]. И написал бодро на стене, что оказывается из миллиона пользователей 160 000 не существуют, даже как боты. Там просто пустое место.
И вдруг... Я понял, что всю статистику я снимал неправильно. И вместо миллиона пользователей по 25 раз снял первых 40 000. И написанное выше число (160 000) ничего не значит.
Уже не удивляясь себе, я в последний раз исправил программу и поставил ее снимать правильные данные. И вот он посчитал. Надеюсь, это победа. =)
Но самое смешное, что оценка 160 000 оказалась "относительно" правильной. Но немного заниженной. На самом деле, почти 190 000 из первого миллиона - не существуют. Вот что творит природа. Вроде все люди разные, а если получил выборку по 40 000ам, то выборка 1 000 000, по параметрам не будет очень уж сильно отличаться от в 25 раз меньшей.
A little story about karma (or dolboeberism)
My good friend [id14 | idi14] asked me to collect data for one statistic on the first million users. He generally loves beautiful graphics and is convinced that the central limit theorem works. And to be convinced of this is best in a million dimensions. But the story is not about that.
I sat down and wrote a simple and razdolbaysky script that was supposed to take me around 5-6 hours somewhere in 5-6 hours.
After the first 5 hours of the script, I accidentally restarted the computer and all data was erased.
I frowned and put the script to work again. He worked 6 hours and I could not get the value of the variable from the debugger, because there was something about a million digits ... Debagger hung. I had to kill everything, along with the data.
I got angry and finished outputting the results to a file every 2500 records. Put. Worked out. At the exit from the cycle I forgot to put the flag that the file should not be overwritten ... Honestly, after working 7 hours, the script overwritten the entire file to me with the last measurement and left it with the last measurement.
I doomed to fix this unfortunate flag and run the script again. The lights were turned off in the whole house.
I waited for the light to turn on, and set the script to retrieve the damned data again. And like everything got ... 6 hours have passed. I happily passed them [id14 | idi14]. And he wrote cheerfully on the wall that it turns out that 160 million of the million users do not exist, even as bots. There is just an empty space.
And suddenly ... I realized that I shot all the statistics incorrectly. And instead of a million users, I took off the first 40,000 by 25 times. And the number written above (160,000) means nothing.
No longer wondering to myself, I last fixed the program and set it to remove the correct data. And so he counted. I hope this is a victory. =)
But the funny thing is that the estimate of 160,000 was “relatively” correct. But a bit understated. In fact, almost 190,000 of the first million do not exist. That's what nature is doing. It seems that all people are different, and if I received a sample of 40,000, then the sample is 1,000,000, it will not be very different in parameters from 25 times smaller.
My good friend [id14 | idi14] asked me to collect data for one statistic on the first million users. He generally loves beautiful graphics and is convinced that the central limit theorem works. And to be convinced of this is best in a million dimensions. But the story is not about that.
I sat down and wrote a simple and razdolbaysky script that was supposed to take me around 5-6 hours somewhere in 5-6 hours.
After the first 5 hours of the script, I accidentally restarted the computer and all data was erased.
I frowned and put the script to work again. He worked 6 hours and I could not get the value of the variable from the debugger, because there was something about a million digits ... Debagger hung. I had to kill everything, along with the data.
I got angry and finished outputting the results to a file every 2500 records. Put. Worked out. At the exit from the cycle I forgot to put the flag that the file should not be overwritten ... Honestly, after working 7 hours, the script overwritten the entire file to me with the last measurement and left it with the last measurement.
I doomed to fix this unfortunate flag and run the script again. The lights were turned off in the whole house.
I waited for the light to turn on, and set the script to retrieve the damned data again. And like everything got ... 6 hours have passed. I happily passed them [id14 | idi14]. And he wrote cheerfully on the wall that it turns out that 160 million of the million users do not exist, even as bots. There is just an empty space.
And suddenly ... I realized that I shot all the statistics incorrectly. And instead of a million users, I took off the first 40,000 by 25 times. And the number written above (160,000) means nothing.
No longer wondering to myself, I last fixed the program and set it to remove the correct data. And so he counted. I hope this is a victory. =)
But the funny thing is that the estimate of 160,000 was “relatively” correct. But a bit understated. In fact, almost 190,000 of the first million do not exist. That's what nature is doing. It seems that all people are different, and if I received a sample of 40,000, then the sample is 1,000,000, it will not be very different in parameters from 25 times smaller.
У записи 17 лайков,
0 репостов.
0 репостов.
Эту запись оставил(а) на своей стене Александр Беспалов