5 способов использования регулярных выражений для специалистов по SEO и маркетингу

Умение работать с регулярными выражениями (Regular Expressions) относится к числу тех навыков, которые находятся на стыке SEO и программирования, а информацию о них намного чаще можно найти на github и Хабре, нежели в медиа, посвященных теме SEO. Однако, не стоит пренебрегать им в контексте поисковой оптимизации и, как ни странно, контент-маркетинга. Парсинг с использованием регулярных выражений может существенно упростить и автоматизировать вашу работу по выполнению ряда задач. В данной статье мы разберём несколько кейсов использования регулярок.

1. Настройка и запуск парсинга по регулярным выражениям

В данной статье мы будем рассматривать примеры извлечения данных при помощи Netpeak Spider. Программа предназначена, в первую очередь, для поиска и анализа SEO-ошибок внутри сайта, но также она успешно справляется с парсингом данных, используя регулярные выражения, CSS-селекторы и XPath.

Процесс парсинга состоит из нескольких этапов:

  1. Запускаем программу.
  2. Указываем адрес сайта, из которого нужно извлечь данные, в поле «Начальный URL».
  3. Настраиваем поток парсинга в соответствующем разделе настроек программы.НастройкиВыбираем режим и область поиска — «RegExp» и «Весь исходный код» соответственно. Затем вставляем нужное нам правило для извлечения. Нажимаем «ОК» и возвращаемся в основное окно.ввод параметров
  4. Чтобы не перегружать программу анализом лишней информацией, отключаем на боковой панели все параметры, кроме «Парсинга».
  5. Запускаем парсинг и дожидаемся окончания процедуры.
  6. Снова обращаемся к боковой панели в основном окне, но на этот раз открываем вкладку «Отчёты» / «Парсинг».Там вы увидите сводку по запущенным вами потокам парсинга. Для просмотра таблицы с извлечёнными данными кликните на «Есть» и нажмите «Показать выбранные».показать тезультаты
  7. Полученную таблицу с результатами сканирования выгружаем на свой компьютер, нажав на кнопку «Экспорт».

2. Примеры использования парсинга по RegExp

2.1. Выгрузка отзывов

Построение контентной стратегии, как правило, требует глубокого понимания достоинств продукта, на которых стоит делать первоочерёдный акцент, а также недостатков, которые нужно корректно преподносить, либо же осторожно обходить. Одним из основных источников подобной информации могут служить отзывы реальных пользователей, причём как вашего продукта, так и продуктов конкурентов.

В большинстве случаев для корректного извлечения отзывов лучше всего подходит парсинг по регулярным выражениям. Это может быть большая торговая площадка, сервис оценки продуктов — словом, всё, что угодно. Нужно лишь подобрать правильное регулярное выражение. К примеру, для парсинга отзывов из Google Play можно воспользоваться вот таким правилом:

,[1-5],null,"[^"]*"

При парсинге отзывов о мобильных приложениях для Android не забудьте дописать к ссылкам GET-параметры showAllReviews=true и язык, указанный через hl. В итоге ссылка для извлечения русскоязычных отзывов должна иметь следующий вид:

https://play.google.com/store/apps/details?id=com.playrix.fishdomdd.gplay&showAllReviews=true&hl=ru

В итоге вы получите таблицу со списком из 40 наиболее релевантных отзывов.

отчет

Используя такое регулярное выражение, вы извлекаете не только сам отзыв, но и его оценку пользователями. При необходимости можно очистить строки от лишних данных при помощи любого редактора таблиц, будь то Google Sheets, Microsoft Excel или какой-либо другой.

Кстати, кейс по парсингу отзывов с G2 Crowd можно найти здесь.

2.2. Выгрузка email-адресов

Представим ситуацию: у вас есть список площадок, на которых вам хотелось бы разместиться, или список сайтов потенциальных клиентов. Сбор контактных данных с этих страниц может оказаться слишком времязатратным. В данном случае абсолютно резонно прибегнуть к использованию парсинга.

Для извлечения email-адресов воспользуйтесь следующим регулярным выражением:

[a-zA-Z0-9-_.]+@[a-zA-Z0-9-.]+

или

[a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

Кстати, похожее регулярное выражение можно составить и для номеров телефонов.

2.3. Проверка правописания

Даже если вы наняли безупречно грамотного копирайтера для наполнения своего сайта, всегда существует риск некорректного написания какого-либо слова. Чтобы сразу проверить весь сайт на предмет наличия всех возможных проблемных слов в тексте, используйте вот такое регулярное выражение:

(?i)экспрессо | придти | капуччино | координально

По аналогии с описанным выше примером вы можете сделать собственное регулярное выражение, содержащее слова, проблемные для вашего сайта.

2.4. Поиск слов и фраз с некорректной капитализацией для их последующей замены

Нередки случаи, когда в процессе ребрендинга названия некоторых компаний и их продуктов изменяли своё написание: к примеру, название стало писаться с маленькой буквы. Если бренд существует не один год, то на сайте могло скопиться много информации, в которой бренд упоминается со старым написанием.

(BrandName|brandname|Brandname)

Это регулярное выражение также будет полезно тем, кто на протяжении долгого времени не мог определиться с тем, как писать, к примеру, ГГц или тИЦ.

При настройке данного потока парсинга не забудьте снять флажок с опции «Не учитывать регистр».

2.5. Поиск упоминаний бренда

Подобное назначение парсинга по регулярным выражениям должно быть интересно, в первую очередь, линкбилдерам и маркетологам, которые работают с аутричем и упоминаниями компании на внешних площадках.

С его помощью можно выяснить:

  • на каких страницах из списка бэклинков не встречается название вашего бренда, и куда бы следовало его добавить;
  • на всех ли страницах с упоминаниями корректно прописано название компании и продукта.

Поиск осуществляется по аналогии с тем, что описан в пункте 2.3.

Коротко о главном

Парсинг с использованием регулярных выражений — методика, которую используют в своей работе лишь считанные SEO-специалисты, несмотря на то, что она позволяет упростить и автоматизировать ряд рутинных задач. В их числе:

  • выгрузка отзывов;
  • сбор email-адресов;
  • проверка правильности написания тех или иных слов;
  • поиск упоминаний бренда для линкбилдинга и крауд-маркетинга.

Перечень задач, выполняемых с помощью парсинга с RegExp в Netpeak Spider, не заканчивается на перечисленном выше: всё ограничивается лишь вашими потребностями, изобретательностью и наличием в команде человека, понимающего синтаксис регулярных выражений :)

А вы используете в своей практике парсинг по регулярным выражениям? Если да, то с какой целью? Поделитесь своим опытом в комментариях. Буду рад дополнить статью наиболее интересными примерами.

Понравилась статья? Поделиться с друзьями:
Добавить комментарий