«Размер имеет значение» или странная математика копирайтинга
Автор: NomadUA
Вопреки утверждениям всяких-разных ученых, в том числе и британских, размер имеет большое значение. Так как на этом сайте я теперь пишу статьи исключительно посвященные бесплатным программам, рецептам и копирайтингу, то и важность размера будем рассматривать именно на копирайтинге и с помощью "царицы наук" - математики.
Как я уже упоминал недавно в твиттере, да и в комментариях к публикациям, позавчера мне достались весьма занимательные тексты. 4 небольших текста на одну тему - 3 по 700 знаков и один на 600. Замечательный такой размерчик - такие "коротыши" пишутся быстро и легко. Я не люблю тексты длиной более 2000, а более 3к стараюсь вообще не брать - очень устаю от однообразия.
В общем, написав первый текст, я его "забросил" проверяться на уникальность. Результат меня весьма "порадовал", показав слишком низкую уникальность. Впрочем, речь не об этом сегодня. Тексты писались, как раздельные, но в итоге могли составлять единое целое, как бы 4 независимых абзаца одного большого текста.
И вот некоторые забавные результаты проверки уникальности. Если мы возьмем абсолютно не уникальный текст и к нему "прицепим" уникальный, то, по всем правилам математики, мы получим уникальный на 50% результат. Но вот, каким образом сложив 4 текста с уникальностью 91%, 87%, 85%, 78% мы получаем в итоге 92% - для меня загадка природы.
Но так и получилось, когда я проверил поочередно 2 мелких текста:

и эти 2:

И сравнил с результатом, когда они соединены вместе:

Я действительно не понимаю, каким образом, результирующая уникальность оказалась выше даже, чем у самого уникального абзаца.
Зато сделал для себя вывод, что размер текста имеет значение и , чем больше текст, тем уникальнее он получается сам по себе. Будете брать в работу небольшие тексты - можете сами проверить, что уникальность на них получить высокую совсем не просто.

Комментариев: 4
Оффтоп
Касательно вчерашнего разговора про Эстетик Фир, вот ссыль:
если перейти наверх, будет выход на два альбома. Они что, распались после выпуска этих двух?
[Ответить на комментарий]
NomadUA Ответил:
Август 6th, 2010 at 15:51
Ну больше точно ничего не было, кроме сольников каких-то.
Жалко, неплохо они звучали. Особенно в тем времена для меня они стали откровением фолко-симфо-блеметалла.
За ссыль спасибо- пойду хайрами потрясу седыми
[Ответить на комментарий]
15:41
Я щас еще Театр Трагедии поклацаю. Еще нашел неплохую вещь – Fairylend. Не знаю, а вот утром когда на работу иду, что-то на спокойную музыку не тянет особо. Вот вечером другое дело – мозг успокоился, хочет только пожрать и киношку посмотреть.
Вчера, правда, решил ударить спортом по разгильдяйству и пошел на стадион
[Ответить на комментарий]
NomadUA Ответил:
Август 6th, 2010 at 16:21
[Ответить на комментарий]
15:56
На самом деле ничего удивительного. Ведь уникальность текста – это как процент ошибок в тексте. Если ты возьмешь маленький текст, где много ошибок и сложишь его с таким же, где ошибок нет, какой у тебя получится процент ошибок? Правильно значительно меньше, так как объем текста увеличился вдвое
[Ответить на комментарий]
NomadUA Ответил:
Август 8th, 2010 at 10:03
Э, нет, ты ошибаешься
не кол-во ошибок а процент, это же разные вещи. Вот смотри. Допустим у нас два текста – одинаковой длины, по 100 слов. В первом – 33 слова уникальны, во втором – 45 слов уникальны. То есть у первого 33% у второго – 45% уникальности. соединяем два текста и получаем – длина 200 слов, уникальность- 33+45 = 78 слов. А вот процент уникальности = (78/200)*100 = 39% А в этой программе получается, что результирующая больше, чем самая уникальность 
Я думаю, это как-то связано с шинглами текста… пытаюсь разбираться.
[Ответить на комментарий]
Ответил:
Август 8th, 2010 at 10:06
все-таки судя по результату алгоритм у программы все-таки другой.
Она считает количество неуникальных слов и сочетания в тексте.
А следовательно чем их больше, тем ниже уникальность. А добавляя к неуникальному тексту уникальный ты, тем самым разбавляешь его.
[Ответить на комментарий]
NomadUA Ответил:
Август 8th, 2010 at 10:20
Вот же в чем прикол. Нельзя же смешать стакан 40% водки и стакан 30% водки импортной и получить 2 стакана чистого спирта.
Потом дописал его до 1000 и стало 97%.
Программа считает шинглами(словосочетаниями). и вот тут наверное и есть корень прикола – когда я соединяю несколько текстов, меняется разбивка на шинглы и, видимо, «прыгает» уник вверх. Это действительно просто прикол, а вот то что мелкие тексты почти всегда хуже на уникальность выравнивать – факт. Вчера в этом снова убедился. написал текст на 600 знаков – 64%.
[Ответить на комментарий]
Ответил:
Август 8th, 2010 at 10:48
не понимаешь, что я говорю, вот в чем прикол.
Внимательно почитай предыдущий коммент
[Ответить на комментарий]
NomadUA Ответил:
Август 8th, 2010 at 11:34
Перечитал, неа, не понимаю. туплю от жары может…
[Ответить на комментарий]
Ответил:
Август 8th, 2010 at 11:41
Если считать чисто математически, то логика действительно страдает. Например:
в тексте сто слов – из них 60 неуникальных – итого уникальность текста 40%
есть еще один текст на сто слов – из них 70 неуникальных – уникальность 30%.
смешай два текста получишь 200 слов из них 130 неуникальных
Итого суммарная уникальность нового текста будет 35%, то есть не больше чем у предыдущих.
НО:
В обоих текстах встречаются повторяющиеся слова и словосочетания, а следовательно в общем тексте их будет меньше, чем 130 = суммарная уникальность будет выше.
[Ответить на комментарий]
NomadUA Ответил:
Август 8th, 2010 at 11:47
Ааааа, ну в принципе да, но, с другой стороны, если в тексте вставить дважды одно и то же словосочетание, программа так его дважды и выделяет, то есть она считает как 2 неуникальных куска. Вот, правда, результирующая когда считается, не знаю, учитывает дважды или нет. Я еще изучаю эту программу.
[Ответить на комментарий]
Ответил:
Август 21st, 2010 at 10:18
А почему меняется разбивка на шинглы? Ведь, эта величина должна быть постоянной при проверке. В настройках есть быстрые (легкие) проверки и есть глубокие проверки. В них забита разная длина шингла, но мне кажется, она не меняется. Глубокая, так вообще забита, а простую проверку можно изменять со своими настройками длины шингла
[Ответить на комментарий]
NomadUA Ответил:
Август 27th, 2010 at 11:22
Не совсем понял, где меняется разбивка на шинглы?
[Ответить на комментарий]
09:51
это еще раз подтверждает предвзятость алгоритмов расчета: кому-то там чего-то показалось, и из умножения малых долей получилось целое! Дык это Нобелевка, ребята
[Ответить на комментарий]
NomadUA Ответил:
Август 9th, 2010 at 21:26
Не, максимум это именная грамота «за поиски уникальности»
[Ответить на комментарий]
twiceal Ответил:
Август 17th, 2010 at 20:40
может, и так. Но против устоявшейся логики…
[Ответить на комментарий]
19:24