Сайт на 10 миллионов страниц. История одного теста.

»»

Иногда на Телдери попадаются интересные проекты, которые можно попытаться повторить. Или тупо спиздить. Кому как больше нравится.

Именно поэтому не стоит там в открытую продавать сайты с интересной идеей, до которой еще мало кто допёр.

Как-то одним зимним пасмурным днем я рефрешил страницы биржи в поисках интересных лотов. Мое внимание привлек типа «сервис», который предоставляет информацию об ИП и ООО.

Короче, чувак где-то надыбал базу на 10 гб (скорее всего украл по «льготной цене»), в которой была инфа о контрагентах.

Все это дело натянули на ВП и засунули в индекс. По итогу Яндекс сожрал аж 10 миллионов страниц.

В данный момент там следующая картина:

То есть, сайт живет неплохой такой жизнью, собирая трафик по НЧ.

Зимой там было 6-7к трафа, но сейчас я думаю и того больше. Возможно, около десятки.

Монетизация — адсенс, РСЯ.

В какой-то момент владелец сайта перешел полностью на РСЯ. Стало выходить до 1к\сутки.

Неплохой заход, да?

Все сделано просто, практически на коленке, немножечко «не законно», но весьма прибыльно, если считать итоговый выхлоп. К тому же, судя по всему, этот сайт сменил владельца и первый хозяин получил +300к в кошелек (ну или около того).

В какой-то момент я даже хотел купить эту базу у владельца сайта, но потом подумал. Так вот же сайт, передо мной, у него даже сайтмап есть сгенерированный. Почему бы не попробовать его спарсить и посмотреть, как отнесутся ПС к моим поделкам?

Но все оказалось не так просто, как в моих влажных фантазиях.

Что я сделал.

Сначала спарсил всю карту сайта. Получил 10 млн ссылок.

Потом зарегал 8 дропов и залил туда вордпресс.

Ок, ссылки есть, вордпресс есть, ставим парсер, который я использовал в этом эксперименте и поехали.

Плодить 10 огромных баз было бы ошибкой, поэтому я сделал один основной сайт, а остальные коннектились к его базе.

Здесь возникло несколько проблем, одной из которых было то, что с таким подходом на всех сайтах получались одинаковые заголовки постов. База то одна.

Эту проблему решили написанием регулярок для парсера, которые вырезали лишнее из тайтлов и оставляли только нужное. А уже потом через шаблоны вордпресса мы разбавили тайтлы разными словами, чтобы хоть как-то их уникализировать.

Пришлось немного заморочиться.

И вроде бы все было нормально, пока база не перевалила за 40к записей. Парсер начал тупить, тормозить, парсить дубли. Я не знаю, это косяк именно плагина или большая вордпресс база начинает себя вести не очень очевидно, но, помучавшись, я решил стопануть это дело и попробовать найти другой подход.

Второй заход к решению проблемы был через Content Downloader.

Я сделал проект для него, который позволял парсить в txt посты, сохраняя тайтлы и h1. Ну все по красоте. Расчет был на то, что в CD есть функция создания файла импорта для WordPress. Я хотел парсить, создавать xml файлы, которые можно импортнуть и частями фигачить посты в базу.

Но и здесь ждала засада. CD просто не рассчитан на работу с такими объемами данных. Он даже не может нормально сформировать файл на 10к записей для импорта в вордпресс. Разработчик подтвердил, что на такую задачу этот функционал не рассчитан.

Опять облом.

Также через CD я хотел зайти со стороны генерации простых html сайтов из спаршенных с сайта страниц, но отбросил эту идею, так как там получаются просто дикие объемы файлов (миллионы штук).

Идею с парсингом сайта донора и постингом сразу в базу данных WordPress я не осилил, потому что рукожоп.

Что по итогу.

Все 8 сайтов так и замерли на отметке 40к+ постов и я на них забил. Только недавно решил повесить счетчики на эти поделки, чтобы посмотреть, есть ли там жизнь.

Оказалось, что кто-то туда даже заходит.

На пике (во второй день установки счетчика) было 89 хостов. Странно, что индексация в Яндексе в разы выше, но вот основной трафик идет из Гугла. Скорее всего связано с тем, что дропы я подбираю именно под эту ПС.

Разработчик плагина парсера Гарри уверял меня, что его разработка прекрасно работает с большими БД и тысячами записей, но мой опыт показал, что когда база ВП весит 300 мб — у него начинаются проблемы. Опять же, не отрицаю, что кривизна моих рук имеет тут определяющее значение.

Если бы удалось получить хотя бы по 1 млн записей на этих сайтах, то, скорее всего, ситуация с трафом через какое-то время была бы повеселее.

Но мне оказалось легче забить, чем дожимать до конца этот тест (:

P.S. Я не попробовал проксировать сайт. Возможно, это самый легкий и самый профитный (но это не точно) путь. Кто знает. Кто знает.

 

Сообщение Сайт на 10 миллионов страниц. История одного теста. появились сначала на BizMe.guru - дорвеи, трафик, рок-н-ролл.

Источник

Комментарии:

Войдите или зарегистрируйтесь чтобы оставить комментарий