Вот вам еще немного загадочности (опять всякие графики) - Запись на стене пользователя Александр Беспалов в Вконтакте. Комментарии и лайки к записи.

Александр Беспалов Викторович

Вот вам еще немного загадочности (опять всякие графики)

Помните я тут находил всяких людей, у которых значимая связь между длиной их постов и количеством лайков на этих постах? Я решил посмотреть немного шире...

Я посмотрел, как меняются самые популярные слова, используемые для групп пользователей с разной корреляцией. Т.е., например, какие слова наиболее популярны у людей, у которых, чем больше слов в постах, тем меньше лайков?

Я разбил корреляцию от -1 до 1 на отрезки по 0.1 и для каждого отрезка выделил группу товарищей, которые нафлудили какого-то текста. А дальше выкинул самые популярные общие для всех слова и посмотрел, какие специфические популярные слова есть у каждой из групп...

В первой таблице, в столбцах, для каждого отрезка [-0.3;-0.2),[-0.2;-0.1),....
написанные отсортированные по популярности слова. Но, надо сказать, что тут ничего особо не видно. Поэтому я посмотрел, как распространяются популярнейшие слова для отрезков [-0.3;-0.2) и [0.5;0.6) "вглубь" таблицы, удалив остальное из нее. Это во второй и третьей таблице.

Там уже видно, что наиболее популярные слова слева таблицы "теряют" в весе при движении вправо. И наоборот. Таким образом, можно все-таки неуверенно предположить, что есть какие-то темы постов, которые способствуют тому, что при большей словоохотливости, люди написанное ценят больше. И есть темы постов, которые провоцируют писанину, которая потом не окупается. И надо сказать, слово "фотограф" находится с левой стороны наибольшей отрицательной корреляции длины постов и количества лайков.

И есть еще одно забавное наблюдение.

У постов с наибольшей корреляцией частота наиболее популярных слов БОЛЬШЕ. Я сложил частоты первых 20 слов для всех отрезков и получил почти прямую линию(см. рисунок 1.)

Вначале я предположил, что это потому что, например... уникальных слов становится меньше, чем корреляция больше, и построил гистограмму уникальных слов от корреляции. И фиг. Она была довольно нормальная и такой подъем (почти в 2 раза с 10% до 18%) не объясняла.

Единственное, что мне пришло на ум, что длинные тексты оцениваются тем лучше, чем более "выверенный" и специфичный "словарь" в них используется. Но эта вещь нуждается в дополнительных проверках, которые я пока не знаю как провести. Но сама по себе она интересна.

Here you have a little more mystery (again, all sorts of graphics)

Remember I found all sorts of people here who have a significant connection between the length of their posts and the number of likes on these posts? I decided to look a little wider ...

I looked at how the most popular words used for user groups with different correlations change. Ie, for example, which words are most popular with people who, the more words in posts, the less likes?

I broke the correlation from -1 to 1 into segments of 0.1, and for each segment I selected a group of comrades who flooded some text. And then I threw out the most popular words common to everyone and looked at what specific popular words each group had ...

In the first table, in columns, for each segment [-0.3; -0.2), [- 0.2; -0.1), ....
written sorted by popularity words. But I must say that there is nothing particularly visible. Therefore, I looked at how the most popular words for the [-0.3; -0.2) and [0.5; 0.6) “in depth” of the table spread, removing the rest from it. This is in the second and third table.

It already shows that the most popular words on the left of the table "lose" in weight when moving to the right. And vice versa. Thus, one can still uncertainly assume that there are some topics of posts that contribute to the fact that with more talkativeness, people write value more. And there are topics of posts that provoke writings, which then does not pay off. And I must say, the word "photographer" is on the left side of the greatest negative correlation of the length of posts and the number of likes.

And there is another funny observation.

In posts with the highest correlation, the frequency of the most popular words is MORE. I added the frequencies of the first 20 words for all segments and got an almost straight line (see Figure 1.)

At first, I suggested that this is because, for example ... unique words become smaller than the correlation is greater, and built a histogram of unique words from the correlation. And FIG. She was quite normal and did not explain such a rise (almost 2 times from 10% to 18%).

The only thing that occurred to me was that the longer texts are rated the better, the more “verified” and specific “vocabulary” they use. But this thing needs additional checks, which I do not know how to conduct yet. But by itself it is interesting.