Паяк Netpeak 2

Споделете тази публикация

Днес подготвихме необичайна актуализация за вас, но преди да ви разкажа за нея, бих искал да ви задам въпрос: как обикновено задавате задача на програмистите да създадат XML карта на сайта?

Това е, което ще бъде обсъдено в този преглед, така че седнете - предстои много важна информация и приятни изненади.

1. Обхождане чрез XML карта на сайта

XML картите на сайта са създадени, за да увеличат вероятността роботите на търсачките да обхождат тези страници, които са трудни за намиране при нормално обхождане на сайта. И картите на сайта са от огромно значение, когато става въпрос за големи портали или онлайн магазини. Следователно в тази актуализация добавихме нов режим на обхождане, наречен „By XML Sitemap“, който ви позволява бързо да определите крайния брой URL адреси, които изискват проверка на грешките. По този начин умишлено избягваме скъпи операции за обхождане на сайта в дълбочина, когато дори не можем да предскажем колко страници има на сайта.

В режим "By XML Sitemap" обхождането се извършва по следния начин:

  • 1 посветен поток сканира XML картата на сайта поотделно (това е оправдано, тъй като те могат да бъдат много големи) и дава всички получени URL адреси на останалите потоци
  • други потоци (техният брой зависи от настройките ви, по подразбиране са 5) те вече проверяват всички избрани параметри и определят грешки в тях

Моля, обърнете внимание, че при сканиране в този режим Netpeak Spider не навлиза по-дълбоко в сайта, а само проверява URL адресите, които са в картата на сайта, която сте посочили → не позволяват връзки към 4xx грешки, 3xx пренасочвания, неканонични URL адреси и затворени от индексиране на страници.

За да ви е удобно и лесно да работите с новия режим на обхождане, ние внедрихме автоматично откриване на типа Sitemap и адаптивна работа с тези данни. Като цяло Netpeak Spider може да работи с 3 вида Sitemap:

  • XML файл на Sitemap → стандартен XML файл със списък с крайни URL адреси на сайтове
  • Индексен файл на XML Sitemap → XML файл, изброяващ всички стандартни XML карти на сайта
  • Карта на сайта TXT → да, този формат също се случва:) в него всеки ред трябва да съдържа само един URL адрес и всички те да започват с протокола (http/https)

По този начин, след като изберете режим на обхождане "By XML Sitemap", просто въвеждате URL адреса, а самият Netpeak Spider настройва по-нататъшната работа в зависимост от вида на посочения файл.