Ок. Теперь результаты!!!!!
http://ogtimetable.com/vktries/
На картинке список 30 самых используемых слов.
Всего получилось 1 250 000 слов.
Уникальных слов - 200 000.
2 выборки.
2100 случайных ID из первого миллиона
2000 случайных ID из первых 100 000
(Т.е. эти ?люди? по-крайней мере года 4 вконтакте)
Из этого только 748 не отсеялось по признаку отсутствия собственного текста! Только 18% людей удосуживаются высказывать свое мнение на стене. Из этих 748, только 218 имеют более 2000 уникальных слов за 1000 постов. Т.е. говорят чуть больше, чем комментируют репосты и пишут статусы.
И наконец. Самая не этичная часть!
Список людей (из этих 4000 тысяч), которые (хотя бы иногда) по формальным признакам имеют личность и желание высказываться на родном языке. У них за 1000 постов более 4000 уникальных слов. (правда могут попадаться те, кто просто репостит без ссылки и не всегда я в восторге от высказываний товарищей).
http://vk.com/id413228
http://vk.com/id66652
http://vk.com/id712771
http://vk.com/id51772
http://vk.com/id40292
http://vk.com/id10446
http://vk.com/id3016
http://vk.com/id25956
http://vk.com/id25639
Вообще, это где-то 1/3 списка людей, которые используют много слов. 2/3 я отсеял за сплошные копипасты.
Надо бы... Поискать людей, что ли... Придумать более простой и менее затратный признак, чтобы определить, есть смысл читать человека или нет.
http://ogtimetable.com/vktries/
На картинке список 30 самых используемых слов.
Всего получилось 1 250 000 слов.
Уникальных слов - 200 000.
2 выборки.
2100 случайных ID из первого миллиона
2000 случайных ID из первых 100 000
(Т.е. эти ?люди? по-крайней мере года 4 вконтакте)
Из этого только 748 не отсеялось по признаку отсутствия собственного текста! Только 18% людей удосуживаются высказывать свое мнение на стене. Из этих 748, только 218 имеют более 2000 уникальных слов за 1000 постов. Т.е. говорят чуть больше, чем комментируют репосты и пишут статусы.
И наконец. Самая не этичная часть!
Список людей (из этих 4000 тысяч), которые (хотя бы иногда) по формальным признакам имеют личность и желание высказываться на родном языке. У них за 1000 постов более 4000 уникальных слов. (правда могут попадаться те, кто просто репостит без ссылки и не всегда я в восторге от высказываний товарищей).
http://vk.com/id413228
http://vk.com/id66652
http://vk.com/id712771
http://vk.com/id51772
http://vk.com/id40292
http://vk.com/id10446
http://vk.com/id3016
http://vk.com/id25956
http://vk.com/id25639
Вообще, это где-то 1/3 списка людей, которые используют много слов. 2/3 я отсеял за сплошные копипасты.
Надо бы... Поискать людей, что ли... Придумать более простой и менее затратный признак, чтобы определить, есть смысл читать человека или нет.
OK. Now the results !!!!!
http://ogtimetable.com/vktries/
In the picture a list of 30 most used words.
Total turned out 1,250,000 words.
Unique words - 200,000.
2 samples.
2100 random IDs from the first million
2000 random IDs from the first 100,000
(Ie these? People? At least 4 years VKontakte)
Of this, only 748 were not excluded on the basis of the absence of their own text! Only 18% of people bother to express their opinions on the wall. Of these 748, only 218 have more than 2000 unique words per 1000 posts. Those. speak a little more than commenting on reposts and writing statuses.
And finally. The most unethical part!
A list of people (out of these 4,000 thousand) who (at least sometimes) for formal reasons have a personality and a desire to speak in their native language. They have over 4000 unique words for 1000 posts. (although there may be those who simply repost without reference and not always I am delighted with the statements of comrades).
http://vk.com/id413228
http://vk.com/id66652
http://vk.com/id712771
http://vk.com/id51772
http://vk.com/id40292
http://vk.com/id10446
http://vk.com/id3016
http://vk.com/id25956
http://vk.com/id25639
Generally, it is about 1/3 of the list of people who use a lot of words. 2/3 I screened out for continuous copy-paste.
It would be necessary ... To search for people, perhaps ... To invent a simpler and less expensive sign to determine whether it makes sense to read a person or not.
http://ogtimetable.com/vktries/
In the picture a list of 30 most used words.
Total turned out 1,250,000 words.
Unique words - 200,000.
2 samples.
2100 random IDs from the first million
2000 random IDs from the first 100,000
(Ie these? People? At least 4 years VKontakte)
Of this, only 748 were not excluded on the basis of the absence of their own text! Only 18% of people bother to express their opinions on the wall. Of these 748, only 218 have more than 2000 unique words per 1000 posts. Those. speak a little more than commenting on reposts and writing statuses.
And finally. The most unethical part!
A list of people (out of these 4,000 thousand) who (at least sometimes) for formal reasons have a personality and a desire to speak in their native language. They have over 4000 unique words for 1000 posts. (although there may be those who simply repost without reference and not always I am delighted with the statements of comrades).
http://vk.com/id413228
http://vk.com/id66652
http://vk.com/id712771
http://vk.com/id51772
http://vk.com/id40292
http://vk.com/id10446
http://vk.com/id3016
http://vk.com/id25956
http://vk.com/id25639
Generally, it is about 1/3 of the list of people who use a lot of words. 2/3 I screened out for continuous copy-paste.
It would be necessary ... To search for people, perhaps ... To invent a simpler and less expensive sign to determine whether it makes sense to read a person or not.
У записи 11 лайков,
0 репостов.
0 репостов.
Эту запись оставил(а) на своей стене Александр Беспалов