О текстовой составляющей

О текстовой составляющей

Здравствуйте. Сегодня на связи Orlan, участник осеннего конкурса SEO статей, приготовил для вас статью, с названием «О текстовой составляющей». Контакты автора в конце статьи.

На днях бродил по интернету в поисках своего счастья. По интересующему меня запросу попал с поисковика на блог yarikseo, здесь я оказался уже не в первый раз, периодически читаю материал, публикуемый Яриком. Увидел что проводится интересный конкурс статей, совместно с партнерской программой SmartBucks и решил тоже принять участие, кстати, делаю это впервые.

Давно уже хотел поделиться одной своей идеей и выслушать мнение окружающих по поводу темы дальнейшей статьи. Итак, в этой статье речь пойдет о генерации текста для нужд сателлитчиков, дорвейщиков и сплогеров. Не секрет, что текстовая составляющая является одной из основ для попадания и существования в поисковой системе любого ресурса. Особенно остро данный вопрос встает в отношении индексации и живучести в нашем «любимом» Яндексе. Эта ПС обладает мощными средствами анализа морфологии, синтаксиса и, возможно, семантики русскоязычных текстов. На основе морфологического анализа, проводимого яшей, умирают не сочетающиеся в падежах, родах и числах бредотексты, отсюда вылет доров, генерируемых марковкой. Стыковка по запятым не проходит глубокую проверку синтаксиса, так как нарушен синтаксический граф – сочетаемость членов предложения. Синонимизированный контент, скорее всего, тоже палится из-за неизменности структуры предложений. Кроме того, яндекс наверняка обладает качественной базой синонимов, превосходящей в разы базы, используемые вебмастерами. Так же, при генерации и синонимизации текста, важно помнить о законе Зипфа, применительно к текстам на естественных языках, то есть частотности употребления в русском языке тех или иных слов и их сочетаний. Я считаю, ПС проверяет частотность употребления сочетаний не более 3-х слов подряд (так называемые биграммы – два слова, триграммы – три слова). Яндекс заявлял, что при проверке текстов на уникальность, не использует проверку по шинглам, я считаю что это не так. В любом случае проверка на шинглы используется как дополнительная, и, если Вы занимаетесь размножением статей, не забывайте об этом. Кто-то скажет, что копипаст рулит – да, от части это так. Но срок существования, тематики в которых он живет (новости, варез, некоторые виды описаний, витрины), позиции и легальность таких ресурсов вызывает ряд сомнений.

Теперь перейдем непосредственно к практике. Долгие поиски «темы» текстовки, эксперименты, наконец, увенчались относительным успехом. Решение оказалось не сложным, перспективным, но не автоматизированным. Суть заключается в добавлении прилагательных, наречий и оборотов в уже существующий текст. Для реализации метода подходят программы и скрипты для размножения статей. Я остановил свой выбор на программе Generating The Web (GTW), так как она поддерживает использование переменных (макросов), позволяет получать уникальные варианты текстов, имеет возможность сохранения результатов в удобном виде, что хорошо интегрируется с возможностями большинства паблик-доргенов. Отмечу, что пример программы ни в коем случае не является рекламой, просто для меня она показалась самой удобной, используйте любую. Были собраны в интернете базы наиболее часто употребляемых слов, разбитых по частям речи. С помощью грамматических словарей расширена база слов, получены все падежные, родовые, численные варианты, а так же, отглагольные производные к каждому из слов. Из всего этого собран словарь, каждый тип слов выписан как отдельный макрос, теперь его удобно добавлять в шаблон текста.

Для наглядности приведу пример:
Исходное предложение выглядит так: «Осенним (1) днем я (2) бродил по (3) лесу».
1 – макрос вставки прилагательного в творительном падеже и единственном числе.
2 – наречие.
3 – снова прилагательное в дательном падеже, единственном числе.

Подстановка производится из частотных словарей, описанных выше. Получаем: «Осенним спелым днем я активно бродил по трудному лесу». Этот вариант был сгенерирован программой, выглядит он немного бредовым, но, тем не менее, воспринимается как читателем, так и ПС, сохранена тематика и смысл. Можно пойти дальше и не просто подставлять слова в предложение, но и заменять используемые, однако, это увеличит его бредовость. Существует автоматизированное решение для рерайта копипаста с учетом частотности слов и словосочетаний. Такой продукт я нашел на сайте проекта solarix, однако его стоимость составляет порядка 13000 рублей.

На этом позвольте откланяться, используйте то, что пока живет в поисковиках, но смотрите в будущее, описанный метод всего лишь дополнение к уже существующим. Но, с моей точки зрения, он поможет в создании дорвеев для людей, качественных сателлитов и прочей пищи для яндекса.
Контакты

Icq: 4один628два098
Кирилл /Orlan/


Советую прочитать и эти посты:
- Подбор ключевых слов для дорвеев
- Текст для дорвеев – Где брать?
- Палю тему: Гигабайты актуальной рабочей текстовки под SE Яндекс. Марафон, день 11 :)
- Магадан. Парсинг кеев
- Первый конкурс от orskp.ru! :)

Комментарии

    31.10.2010
    #1

    Отправил Валерий в 09:10

    ну не чего нового не увидел знаете есть такой рерайтер моймонстр называеться от сео боксера и есле очень поискать можно найти в паблике его. я когдата им барыжил еще купили на троих и я его продавал. Так вот он все это может и делает давольно сносные тексты только комп ему нужен очень мощьный а чтото покупать как бы смысла в наше время нет всеже выкладывают и так


    31.10.2010
    #2

    Отправил tarantul в 18:57

    Если яндекс использует алгоритм шинглов – этот метод не прокатит. При анализе по шинглам все несущественные части речи убираются – предлоги, прилагательные, местоимения. Так что под сомнением. Но попробовать можно.


    01.11.2010
    #3

    Отправил Orlan в 00:32

    Чтобы рассеять часть сомнений по поводу применимости генерации контента описанным в статье способом, приведу живой пример: «блог» на жж, оптимизация под запросы не проводилась, эксперимент проходил только с текстовками, последний пост примерно 3 недели назад, в индексе около 2-х недель, загонялось в ПС сапой (1 ссылка с морды тиц 350 на 3-4 часа).
    _ttp://smorland.livejournal(.)com


    01.11.2010
    #4

    Отправил Ярик в 00:41

    Orlan, интересно.. Хорошее подтверждение слов


    06.11.2010
    #5

    Отправил wcwork в 06:07

    не знаю, как по мне, так текстовка – лишнее палево в глаза пс, можно сказать, ты сам репортишь, что «я – дорвей!»…

Оставить комментарий

orskp.ru – дорвеи, трафик, интернет-технологии и рядом стоящее.

Копируй, распространяй, воруй, убивай без согласия автора - в России можно все! Тут плевали даже на то, что все права защищены ©

Дизайн, как ни странно, выполнен мною (Яриком). Может по-этому он менее, чем полностью, вылягдит уныло.

2009 ... 2010