VDS Хостинг для Ваших проектов

Xenu’s Link Sleuth – программа для проверки ссылок

Сентябрь 19th, 2011 Рубрики: Интернет

Поиск битых ссылок на сайте

С проблемой битых ссылок к сожалению приходится сталкиваться каждому веб-мастеру. Ибо с ростом проекта неизбежно растёт как количество внутренних ссылок, так и внешних. Причин появления ссылок, ведущих на несуществующий адрес может быть много, от банальных опечаток и других оплошностей до изменения домена и просто ссылки в комментариях или статьях на сайте стают устаревшими. В любом случае это отражается на удобстве навигации и поиска нужной информации. Ясно, что такие ссылки требуют как можно более быстрого устранения и корректировки. Вот только если на вашем сайте уже немало страниц, проверять все вручную не представляется возможным. К счастью выход из ситуации есть. И в этом посте я хочу познакомить читателей с очень полезной и наверно незаменимой программой для вебмастера – Xenu’s Link Sleuth, которая проверяет ссылки на сайте и выводит отчёт об ответах сервера, благодаря чему можно быстро и удобно найти все битые ссылки, внешние и узнать ещё много полезной информации.

Для начала следует отметить, что Xenu’s Link Sleuth анализирует не только ссылки в буквальном смысле, а и такие элементы как рисунки, скрипты, таблицы стилей. Хотя в большинстве случаев они подключаются ко всем страницам шаблонно и проблем не наблюдается, всё же возможность их проверки на доступность, особенно если они подгружаются с других серверов очень нужная и полезная. Таким образом принцип работы довольно прост и понятен:

  1. старт с некоторой страницы сайта;
  2. поиск ссылок и переход по ним;
  3. повтор пунктов 1-2 пока не будут проанализированы все найденные;
  4. предоставление результатов работы, которые можно сохранить как отчёт в формате HTML.

Теперь по обыкновению рассмотрю вкратце положительные стороны и некоторые недостатки этой программы:
Плюсы:

  • Xenu’s Link полностью бесплатная программа;
  • малый размер (меньше 1Мб);
  • простой интерфейс и простота работы;
  • присутствует справка (хоть и англоязычная);
  • сохранение проведённого анализа;
  • удобная таблица с результатами;
Именно в последнем главный козырь. Поскольку эту таблицу можно сортировать по разным доступным столбцам, можно в очень удобном виде получить интересующие данные, например: посортировать по типу контента, по размеру, по ответу от сервера и т.д. Разные типы сортировки рассмотрю ниже.
Среди недостатков я бы выделил пока что только три следующих:
  • нет возможности установить таймаут между запросами к серверу, а это может привести к повышенной нагрузке на него, особенно если сайт не малый и анализ занимает длительное время;
  • нет возможности исключить из проверок ссылки по шаблону, но в будущих версиях автор якобы планирует ввести поддержку Robots.txt
  • англоязычность тоже в плюс не занесёшь, хотя ничего страшного там нет.
Кроме того я бы предложил ввести также опцию, с помощью которой можно было бы указать, как должна представляться программа, другими словами указать поле User-Agent. Такая опция к примеру имеется в Download Master.

Настройка Xenu’s Link перед работой

опции программы Xenu's Link
Фактически опций в ней очень мало, но так легче будет разобраться ;) На вкладке Basic следует отметить в первую очередь параметр «Parallel Threads» регулируемый ползунком. Он указывает сколько параллельных запросов будет отправляться на сервер при анализе страниц сайта. Учитывая то, что нельзя задать таймаут, установка этого значения в малую величину (не более 4-6) сможет снизить нагрузку на сервер. Советую не ставить значение больше 8, если не используете выделенный сервер. Иначе может произойти своего рода DoS-атака. В поле «Maximum depth» задаётся максимальная глубина поиска, другими словами уровень. Большие значения нужны только для крупных сайтов с множеством подрубрик. Обычно больше 10-20 не надо, хотя по умолчанию стоит аж 999.
«Treat redirections as errors:» эта опция позволяет указать как будут интерпретироваться ответы сервера о перенаправлении – как ошибка или нет. Если был переезд на новый домен, то ссылки на старый могут вызывать редирект, что поможет вам их найти. Если опция не отмечена, то ответы со статусом перенаправления не будут считаться битыми ссылками.
В секции Report отмечаете, что должно войти в отчёт. Во вкладке Advanced заслуживают внимания 2 опции: «Allow Cookies» – позволяет принимать куки (для каких случаев это нужно есть в FAQ в справке) и поле «Retries» – количество попыток связи при ошибке. Может быть полезным при нестабильной работе сервера.

Проверка и поиск ссылок на сайте

Запустить процесс проверки ссылок очень просто. Достаточно нажать на панели инструментов кнопку Check URL или комбинацию клавиш Ctrl+N. После этого в появившемся окне с названием Xenu’s starting Point в самом первом поле следует ввести стартовую страницу, с которой начнётся поиск и анализ ссылок. Обычно для этой цели надо указать либо адрес главной страницы, либо карту сайта в HTML-формате как у меня в примере.

начало поиска ссылок и начальные параметры Xenu Link
Флажок "Check external links" позволяет указать, будут ли проверяться на доступность внешние ссылки. Ставить его сразу не обязательно. Внешние ссылки всё равно будут в отчёте, только не прошедшие тестирование. Запустить их проверку можно будет потом выбрав в меню Options -> Check external URLs.

Также на этом шаге можно указать адреса, которые будут исключены из проверки, если они начинаются по указанному вами шаблону, например по протоколу mailto: или другие. И ещё дополнительно указать какие ссылки будут считаться внутренними, если начинаются по определённому шаблону.

Дальше начинается процесс поиска всех ссылок и их проверка. Чтобы не создавать большую нагрузку на сервер я советую время от времени нажимать на паузу, что позволит временно приостановлять запросы, т.е. вместо отсутствующего таймаута между запросами, о котором я выше упоминал. Весь процесс занимает примерно 1-10 минут, а то и больше. Всё зависит от количества ссылок на сайте и количества параллельных запросов. По завершении проверки вам будет предложено просмотреть отчёт в виде HTML-страницы, где будет приведён список проверенных адресов, средние размеры страниц, внешние и внутренние ссылки, разные процентные отношения и т.п. Лично мне больше нравится таблица самого проекта, который можно сохранить с расширением .xen. Все битые ссылки (ошибка 403) или с другими проблемами, как например ошибка (403 – отказ в доступе) будут выделены красным цветом, а все работающие – зелёным. Следует иметь в виду, что не каждая ошибка 403 в самом деле таковая. Я обнаружил, что Википедия Xenu’s Link даёт ответ 403, хотя при переходе в браузере ссылки рабочие. Это может быть связано с куками, а может и с полем User-Agent, о котором я тоже упоминал.

Анализ результатов проверки Xenu’s Link Sleuth

таблица с проверенными ссылками в Xenu's Link

Самое интересное начинается теперь, когда надо проанализировать полученные результаты. Из сводной таблицы можно узнать очень многое применяя сортировку по соответствующим столбцам:

  • Statusпо ответу с сервера. Позволяет сгруппировать страницы со статусом ОК и с разными ошибками (404 т.е. битые ссылки) и соответсвенно их исправить. Нажав Ctrl+B можно применить фильтр, оставляющий в списке только битые ссылки.
  • Type – сортировка по содержимому контента. Т.е. все HTML-страницы будут сгруппированы вместе, все скрипты, css-стили и т.д. тоже вместе.
  • Size – сортировка по размеру. В этом случае можно увидеть самые большие страницы на сайте и самые маленькие.
  • Title – сортировка по этому столбцу даст возможность быстро отыскать дублированные заголовки страниц. Тоже весьма полезная функция.
  • In Links и Out Links – сортировка по количеству входящих и исходящих ссылок со страницы соответственно. Количество исходящих ссылок означает именно исходящих, а не внешних. Это поможет вам более равномерно делать внутреннюю перелинковку, уделяя больше внимания страницам с меньшим количеством входящих ссылок. Таким образом приблизительно можно увидеть, какие страницы имеют больший PageRank. Естественно ссылки с других сайтов не учтены, поэтому в реальности будут различия. В анализе по моему сайту наибольше входящих ссылок получили самые свежие статьи. Это за счёт виджета свежих записей, размещённого в сайдбаре. Выбрав из контекстного меню URL Properties можно увидеть все ссылающиеся страницы и все ссылки на другие страницы.
  • Duration – используя сортировку по этому столбцу можно узнать, какие страницы дольше всего грузятся, а какие быстрее. Это тоже поможет провести оптимизацию по возможности.

Создание карты сайта в Xenu

К перечисленным выше функциям в Xenu’s Link Sleuth предоставляется возможность построить карту сайта в формате xml, почти такую же как генерирует плагин Google Sitemap XML, но недостаток в том, что туда войдут все страницы и даже такие файлы как js, ico и т.п. и запрещённые в Robots.txt. Поэтому пока без поддержки Robots.txt нельзя использовать эту возможность с хорошим результатом. Остаётся ждать пока будет реализован учёт этого файла, что позволит гораздо качественнее и быстрее проводить проверку сайта, исключая множество ненужных страниц как из тестирования так и из создаваемой карты сайта.

Сайт программы – Xenu’s Link Sleuth, автор – Tilman Hausherr
Там же можно и скачать Xenu’s Link Sleuth
 
Понравился пост? Поделись с другими!
Теги: ,
Комментариев пока нет.

Написать комментарий

   b2bbonbone