Уникализация контента

Уникализация контента

Задумался над вопросом, как из неуникального текста, сделать уникальный хотя бы в глазах поисковиков. Сразу оговорюсь, что сейчас я рассматриваю только автоматические варианты работы с контентом, при этом на выходе получить хочется по-возможности качественный и читабельный текст.

Все методы баянистые, просто хочу собрать в кучу и проанализировать.

Синонимайзер.

Помню, впервые мысль про синонимайзер закралась в мою голову года 4 назад, ну все, думаю, гугл попал… Но полазив по просторам Интернета, так и не нашел подходящий словарь, были платные продукты, но как-то не решился.

Сейчас различные словари синонимов уже гуляют в свободном доступе, и только ленивый не попробовал этот метод.

Мое ИМХО – получить “нормальный” текст с помощью синонимайзера вполне возможно, но нужны маленькие узконаправленные словари, аккуратно составленные вручную. Кстати, хорошая идея для нового проекта, на сколько я знаю, подобные словари еще не продаются. Как работает синонимайзер на многотысячном универсальном словаре можно посмотреть здесь.

Для русскоязычных текстов метод замены слов на синонимы работает гораздо хуже, чем для английских текстов. Тут уж приходится вникать во все глубины морфологии и принципы словообразований языка. Такую работу мы проводим уже некоторое время, но пока хвастаться особо нечем.

Имитирование опечаток.

Например, в каждом десятом слове текста, имитировать опечатку или просто заменять символы на html entities (надо подумать, можно ли так сделать). Текст остается читабельным, но разбавляется “новыми” словами.

Еще можно попробовать просто скрыть некоторые куски текста от роботов, для Яндекса – тег <noindex>, для Google часть предложений или слов можно выводить на JavaScript.

Переводчик.

Машинный перевод с одного языка на другой, или, например, английский-русский-анлийский.

Недавно игрался с Google Translate – действительно, отлично переводит, да и еще онлайн сервис Но как-то это неинтересно, добиться приемлемого качества без ручной правки пока невозможно.

Mashup.

Я как-то уже упоминал про этот метод, проверенно – работает. Это когда мы перемешиваем куски текста.

Понятно, что если мы перемешаем абзацы или предложения какой-то статьи – то смысл уходит. Но если это база товаров (например, amazon), и поменять местами в списке характеристики товара, то с точки зрения восприятия человеком смысл текста не изменится вообще, но с точки зрения бота, возможно, он станет более уникальный (точные алгоритмы нам конечно не известны).

Но есть способ перемешать и текст наподобие статьи. Каждое предложение можно поместить в div, перемешать их, а потом с помощью CSS расставить по нужным местам. Кто-то видел такую реализацию?

Сюда бы я отнес еще более глобальный метод, когда контент – это винегрет, нарубленный из многих источников, понемногу с каждого. По такому принципу, например, работает BRush. Ведь поисковые роботы скорее всего оценивают всю страницу целиком. Добавьте сюда еще локальную уникализацию каждого блока – и мы уже имеем кое-что…

Можно придумать и другие способы смешивания контента из различных источников в один текст, тут все зависит от исходного материала и того, что мы хотим получить на выходе. Например, мы имеем 10 статей одной тематики, из них вполне можно сделать краткую выжимку основных мыслей и или тезисов по теме, более того, этот текст может быть очень полезен человеку, ему не придется перечитывать все 10 статей.

зы. Руки рулят

<!–

–>

Еще по теме

Комментарии

Источник

Комментарии:

Войдите или зарегистрируйтесь чтобы оставить комментарий