Навіщо потрібен файл sitemap xml gz. Створення Sitemap

Навіщо потрібен файл sitemap xml gz. Створення Sitemap

Карта сайту є сторінкою sitemap.html (для відвідувачів, допомагає спростити навігацію та знайти будь-яку сторінку на великому сайті) або файл sitemap.xml (для пошукових систем), що містять докладний список усіх сторінок веб-сайту.

Сайтмап дозволяє скоротити кількість переходів при пошуку потрібної сторінки на будь-якому, навіть найбільшому сайті. Грамотно налаштована мапа сайту здатна підвищити індексацію сторінок веб-сайту.

Які можливості надає картка сайту?

Пошуковики здатні просканувати всі адреси сайту самостійно, але створення карти сайту допоможе їм дізнатися, як це краще зробити.

Сайтмап дозволяє:

  • знайти нові сторінки на ресурсі та проіндексувати їх;
  • розставити пріоритетність сторінок;
  • відстежити свіжі зміни на сторінках, що індексуються;
  • запам'ятати частоту оновлення сторінок, що індексуються.

Які бувають карти сайту?

У загальному випадку існує два варіанти сайту - це веб-сторінка sitemap.html і файл sitemap.xml. Розглянемо їх детальніше.

Що таке Sitemap.html?

Це статична HTML-сторінка, де перераховані посилання на всі основні сторінки сайту. Такий формат сайтумапа орієнтований на відвідувачів сайту і дозволяє в 1 клік перейти на будь-яку зі сторінок.

Sitemap.html має структуру дерева з розгорнутими розділами.


У сайтів з дуже складною структурою HTML карта сайту може складатися зі сторінок із додатковим рівнем вкладеності.
Приклад - карта сайту TripAdvisor.

Що таке sitemap.xml?

Це файл, що лежить у кореневій директорії сайту, який читається всіма пошуковими системами. Його роль – показати пошуковим системам усі адреси сторінок, які потрібно проіндексувати; коли вони з'явилися чи оновились; з якою регулярністю перевіряти ще раз сторінки на оновлення.

Один файл sitemap.xml може включати до 50 000 посилань. При більшій кількості посилань таких файлів буде кілька. Додаткові переваги – можливість вказати частоту оновлення сторінок та пріоритет індексації. Правильне кодування файлу sitemap.xml має бути UTF-8, а його розмір обмежений 10 Мб.
Наведемо приклад карти сайту у форматі.xml:



http://mysite.ru/
2017-09-18T18:54:13+04:00
always
1.0


http://mysite.ru/category/
2017-09-18T18:57:09+04:00
hourly
0.8


http://mysite.ru/page/
2017-09-18T18:59:37+04:00
daily
0.6

Як створити мапу сайту?

Існує ряд методів створити sitemap для вашого ресурсу:

  • Статично вручну. Цей спосіб підійде просунутим користувачам, які мають звичку роботи з основними тегами, а веб-сайт складається з невеликої кількості сторінок.
  • Через генератор карти сайту. Якщо ви не хочете виконувати копітку та нудну роботу з генерації картки сайту вручну, до ваших послуг – програма для створення картки сайту. Є платні та безкоштовні варіанти: , і багато інших.
  • Плагін для CMS або засобами двигуна. Ще один хороший спосіб згенерувати sitemap. Маса переваг у вигляді гнучкого налаштування під потрібні параметри та максимуму можливих адрес, а також серйозна економія часу. Крім того, при внесенні змін на сторінку або створенні нових сторінок карта сайту буде оновлюватися автоматично, на відміну від сайту, створеного іншим способом. Для кожної системи існує свій плагін:
    • для CMS WordPress розроблені seo-плагіни з функцією створення сайту-мапу;
    • для Joomla існує Xmap;
    • DLE - є вбудований модуль.

Корисний нюанс!

Якщо виключити з карти сайту сторінки, які не несуть комерційної чи інформаційної користі (наприклад, якісь сторінки, які не є посадковими, якісь допоміжні, транзитні), то пошуковий робот витрачатиме менше своїх ресурсів на перехід сайту.

Оскільки ресурс обмежений, стає більше ймовірність, що робот обійде потрібні нам сторінки. Створюючи sitemap через плагін, можна відразу виключити звідти певні типи сторінок. Їх потім можна додати, якщо потрібно. Актуально для великих веб-сайтів.

Як часто має оновлюватись карта сайту?

Єдиного нормативу щодо кількості оновлень немає. Все залежить від частоти створення нових сторінок ресурсу, зміни адрес або контенту та зв'язків вже існуючих сторінок.

При цьому варто пам'ятати, що дані, вказані в карті сайту, пошуковий робот сприймає як рекомендаційні: якщо встановити частоту оновлень, наприклад, раз на рік, робот приходитиме частіше, а якщо раз на годину - робот не індексуватиме сторінку так часто.

Як правильно вказати посилання на sitemap.xml у robots.txt

Для початку, xml карта сайту має бути створена та завантажена на сервер, а потім можна додати вказівку про наявність файлу.

Щоб це зробити, пропишіть у robots.txt наступний рядок:

Sitemap: (url-файлу-sitemap),
де (url-файлу-sitemap) - це повний URL вашого сайтумапа.

У результаті, robots.txt набуде такого вигляду:

User-Agent: *
Sitemap: http://mysite.com/sitemap.xml.

Часті помилки у карті сайту

Найпоширеніші помилки:

  • биті посилання;
  • редиректи;
  • некоректні дати публікації чи оновлення контенту.

Помилки не матимуть критичного впливу на ставлення пошукових систем до вашого сайту. Однак їх усунення дозволить направити ресурси пошукового робота, що вивільнилися, на переобхід важливих сторінок.

Як перевірити коректність картки сайту

Щоб перевірити коректність карти сайту, розроблені численні онлайн-сервіси, які зроблять це за вас автоматично і вкажуть на всі помилки: валідності файлу, вказівку на url з іншого домену, перевищення розміру файлу, проведуть онлайн-діагностику індексації. Такі програми безкоштовні та працюють з усіма великими пошуковими системами (Google, Yandex, Yahoo).

Для перевірки коректності необхідно відкрити сторінку сервісу, завантажити XML-файл або ввести в поле відповідну URL-адресу і натиснути на кнопку перевірки. Якщо програма виявить помилки, вона підкаже, які адреси дають неправильну відповідь.

Протестуйте sitemap.xml в Яндекс* - https://webmaster.yandex.ru/tools/sitemap/
Протестуйте за допомогою сервісу Pixel Plus - https://webmaster.yandex.ru/tools/sitemap/
Англомовний сервіс - https://sitemapkoala.com/

* - для тесту в Яндекс, необхідно.

Разом

Карта сайту – зручний інструмент, покликаний спростити передачу структури основних сторінок як відвідувачу, так і пошуковій системі.

Без неї можна обійтись. Пошуковик і так рано чи пізно дістанеться більшості веб-сторінок, але з сайтом переобхід або індесація нових сторінок будуть більш ефективними.

Здрастуйте, шановні читачі блогу сайт. Вирішив узагальнити в одній статті все, що я вже писав про карту сайту (Sitemap xml), яка в першу чергу потрібна для вказівки пошукових систем тих сторінок, які слід індексувати в першу чергу. Вона є дуже важливим і фактично обов'язковим атрибутом будь-якого web проекту, але багато хто цього або не знає, або не надає Site map великого значення.

Відразу давайте розставимо всі крапки над "i" і спробуємо відокремити два поняття - карти сайту у форматі xml і у форматі Html (є ще й географічна інтерпретація цього слова, про яку я писав у статті ""). Другий варіант являє собою звичайний список всіх матеріалів web ресурсу, який буде доступний будь-кому, хто бажає натиснути на відповідний пункт меню. Такий варіант також корисний і сприяє прискоренню та покращенню індексації вашого ресурсу пошуковими системами.

Карта сайту sitemap у форматі xml – а воно мені треба

Але основним інструментом, призначеним для прямої вказівки пошуковикам тих сторінок ресурсу, які потрібно буде обов'язково проіндексувати, є файл під назвою Sitemap.xml (це його найчастіша назва, але за ідеєю його можна обізвати як завгодно, не має значення), який не буде видно відвідувачам вашого веб-проекту.

Він складається з урахуванням спеціального синтаксису, зрозумілого пошуковим машинам, де будуть перераховані всі сторінки, що підлягають індексації із зазначенням ступеня їх важливості, дати останнього оновлення та приблизної частоти оновлення.

Є два основних файли, які мають бути у будь-якого web проекту. robots.txt та sitemap.xml. Якщо у вашого проекту їх немає або вони заповнені не правильно, то з великою ймовірністю ви сильно шкодите своєму ресурсу і не дозволяєте йому розкритися на всі сто відсотків.

Ви, звичайно ж, можете не послухати мене (бо я не є авторитетом, з огляду на малий накопичений фактичний матеріал), але думаю, що зі спеціалістами, які мають під рукою статистику з десятків тисяч проектів, ви огульно сперечатися не будете.

На цей випадок у мене виявився припасений «рояль у кущах». Просто перед написанням цієї статті попалася на очі публікація фахівців з усієї відомої системи автоматичного просування під незвичайною назвою «Руки» (це аналог MegaIndex, про який я писав).

Зрозуміло, що будь-яка подібна до них система зацікавлена ​​в тому, щоб проекти їхніх клієнтів успішно просувалися, але вони можуть тільки накачувати ресурси клієнтів масою посилань, а впливати на наповнення та правильне технічне налаштування сайтів вони, на жаль, не можуть.

Тому й було проведено дуже цікаве та показове дослідження, яке було покликане виявити 10 найпопулярніших причин, які ускладнюють просування проектів і тицьнути цими даними клієнтам прямо в...

На першому місці, звичайно ж, був «не унікальний контент» (або ви скопіст, або у вас, що суті не змінює). Але на другому місці була саме карта сайту у форматі xml, а точніше її відсутність чи невідповідність визнаному формату створення. Ну, а на третьому місці був уже згаданий раніше файл robots.txt (його відсутність чи неправильне створення):

Коли голослівно стверджуєш, що карта має бути у вашого проекту обов'язково (інакше кирдик), то це не звучить так переконливо, як у разі підкріплення даного твердження реальними фактами з репрезентативного дослідження.

Гаразд, будемо вважати, що я вас переконав і давайте подивимося, як можна самим створити сайтмап (синтаксис формату), як зробити її для Joomla і WordPress, а також подивимося, як можна буде створити її за допомогою спеціальних онлайн-генераторів (generator).

Але просто створити sitemap ще не достатньо для того, щоб бути впевненим у правильній індексації вашого проекту пошуковими системами. Потрібно ще зробити так, щоб про цю саму карту сайту дізналися пошукові системи (у нашому випадку це Google і Яндекс). Зробити це можна буде двома способами, але про це ми поговоримо трохи пізніше (має бути хоч якась інтрига, яка утримує увагу читачів).

Навіщо взагалі потрібен сайт карт та файл robots.txt

Давайте спершу спробуємо обгрунтувати логічну необхідність використання файлу robots.txt, що забороняє індексацію певних елементів вашого web проекту, так і файлу сайт карт, що наказує індексацію певних сторінок. Для цього повернемося на п'ят-десяток років тому, коли більшість ресурсів в інтернеті являли собою просто набір Html файликів, в яких і містилися тексти всіх статей.

Пошуковий робот Гугла або Яндекса просто заходив на такий Html проект і починав індексувати все, що йому попадеться під руку, бо практично скрізь містився контент проекту. А що відбувається зараз, в умовах повального використання CMS (систем управління контентом)? Власне, навіть відразу після установки движка пошуковий робот вже виявить у вас кілька тисяч файлів і це при тому, що ніякого контенту у вас ще може і не бути (ну, не написали ще жодної статті).

Та й взагалі, контент у сучасних CMS, як правило, зберігається не в файлах, а в базі даних, яку пошуковий робот безпосередньо проіндексувати, звичайно, не зможе (для роботи з базами раджу безкоштовно).

Зрозуміло, що поторкавшись туди сюди, пошукові роботи Яндекса і Google все ж таки знайдуть ваш контент і проіндексують його, але наскільки швидко це станеться і наскільки повною буде індексаціявашого проекту – дуже велике питання.

Ось саме для спрощення та прискорення індексації проектів пошуковими системами в умовах повального використання CMS і слід обов'язково створювати robots.txt і sitemap.xml. За допомогою першого файлу ви підказуєте роботам пошукових систем на індексацію яких файлів не варто витрачати час (об'єкти движка, наприклад), а так само за допомогою нього можна закрити від індексації і частину сторінок для усунення ефекту дублювання контенту, який притаманний багатьом CMS (читайте про це докладніше у статті про ).

А за допомогою файлу сайтмап ви чітко і ясно кажете роботам Яндекса і Гугла, що саме на вашому проекті містить контент, щоб вони не тикалися по кутах файлового господарства використовуваного движка. Не забувайте, що боти мають певні ліміти на час і кількість переглянутих документів. Він поблукає у вас по файлах движка і піде, а контент залишиться не проіндексованим ще довгий час. Ось як.

Пам'ятайте, як у відомій комедії говорив один колоритний персонаж: «Ти туди не ходи, ти сюди ходи, а то...». Ось саме функцію цього персонажа і виконують robots.txt та сайт мап з розширенням xml для регулювання переміщень пошукових ботів по закутках вашого web проекту. Зрозуміло, що боти можуть і збриктуть, але швидше за все вони слухняно виконуватимуть ваші грамотно написані інструкції, що забороняють і приписують (у карті сайту).

Зрозуміло? Тоді приступаємо безпосередньо до вирішення питання, як створити sitemap.xml різними способами і як повідомити про його існування двом китам пошуку в рунеті — Google і Яндексу, щоб вони не нишпорилися за вашим проектом, даремно, створюючи при цьому ще й додаткове навантаження на сервер вашого. хостингу, але це, щоправда, вже дуже другорядна річ, головне — це саме індексація (швидка і всеосяжна).

На відміну від robots.txt, який вам писати доведеться швидше за все власноруч, файл карти сайту у форматі xml, як правило, намагаються створити будь-яким автоматичним способом. Воно і зрозуміло, бо при великій кількості сторінок на проекті, що часто оновлюється, ручне його створення може призвести до пошкодження розуму у вебмайстра.

Та це зовсім не обов'язково, т.к. практично для кожної CMS знайдеться розширення, яке дозволить створити, а при появі нових матеріалів і перестворити файл сайт-мап. Ну, чи можна буде завжди скористатися будь-яким онлайн-генератором (generator) карти сайту у вигляді готового рішення.

Але все ж таки, мені здається, буде не зайвим ознайомитися з нехитрим (та що там говорити — найпростішим) синтаксисом створення sitemap. До того ж на маленьких проектах, що рідко оновлюються, можна накидати його і вручну.

Як створити Sitemap.xml самому в Joomla та Вордпресі

Зазвичай директиву «Sitemap» прописують наприкінці. Пошукові роботи при черговому заході на ваш веб-проект обов'язково переглянуть вміст robots.txt і завантажать для вивчення вашу карту. Однак, таким чином можуть дізнатися про її існування всякі редиски, яким сайт карт допоможе тирити у вас контент.

Але існує ще один спосіб вже безпосередньо передати інформацію про місцезнаходження карти сайту пошукачам без посередництва robots.txt. Робиться це через інтерфейс Яндекс Вебмайстра та панелі інструментів Google, хоч можна використовувати. Ви вже знайомі із цими інструментами пошукових систем?

Якщо ні, то обов'язково додайте свій проект і в , і в , а потім вкажіть у відповідних вкладках шлях до карти сайту у форматі Xml.

Так виглядає форма додавання сайту для Яндекс Вебмайстра:

Так виглядає аналогічна форма для прописування шляху в панелі інструментів Google:

Онлайн генератори Sitemap Generator та XML Sitemaps

Якщо вам не хочеться шукати розширення для своєї CMS, що дозволяють автоматично створити сайт карт, то можете скористатися в цьому випадку онлайн генераторами. Тут, правда, є один недолік у порівнянні з автоматичним створенням картки в самій CMS - після додавання нових матеріалів вам доведеться знову йти на онлайн сервіс і повторно створювати цей файл, а потім завантажувати його на сервер.

Напевно, один із найвідоміших онлайн генераторів карти сайту – це Sitemap Generator. Він має досить великий функціонал і дозволить вам безкоштовно генерувати сайтмап на 1500 сторінок, що досить багато.

Sitemap Generator враховуватиме вміст вашого файлу robots.txt, щоб у карту не потрапили заборонені до індексації сторінки. Саме по собі це не страшно, бо заборона в роботі по будь-якому буде мати більший пріоритет, зате позбавить вас від зайвої інформації в створюваному файлі Site map. Для того, щоб зробити картку, вам достатньо вказати URL головної сторінки та повідомити свій E-mail, після чого вас поставлять у чергу на генерацію:

Коли до вас дійде черга, ви отримаєте про це поштове повідомлення і перейшовши за посиланням з листа, зможете завантажити файл, який зробив для вас Sitemap Generator. Залишиться лише закинути його у потрібне місце на своєму сервері. Ну, і таку процедуру вам доведеться повторювати час від часу, щоб підтримувати актуальність вашої карти сайту.

Є схожий англомовний сервіс онлайн генератора, який ви можете знайти за цим посиланням - XML ​​Sitemaps. На ньому існує обмеження в 500 сторінок, а в іншому все практично те саме, що і в описаному вище.

Удачі вам! До швидких зустрічей на сторінках блогу сайт

Вам може бути цікаво

Що таке URL адреси, чим відрізняються абсолютні та відносні посилання для сайту
Що таке Chmod, які права доступу призначати файлам та папкам (777, 755, 666) та як це зробити через PHP
Пошук Яндекса по сайту та інтернет-магазину
OpenServer - сучасний локальний сервер та приклад його використання для встановлення WordPress на комп'ютер
Як я збільшив відвідуваність на сайті до 300 чоловік на день?

Розберемося, як скласти Карту сайту, з чого вона складається, які вимоги до Sitemap у пошукових систем. Поновлений матеріал.

Sitemap або Карта сайту – спеціально створений файл із переліком сторінок ресурсу, які необхідно проіндексувати.


Навіщо потрібний файл Sitemap

Існує два види Карти сайту, які відрізняються форматами та призначенням:

HTML-карта

Її складають для користувачів, щоб спростити їм навігацію сторінками сайту. Це необов'язковий елемент, таку карту можна скласти на великому сайті зі складною ієрархією для зручності користувачів.

XML-карта

Потрібна для пошукових роботів, вона важлива для SEO, тому що допомагає ботам індексувати сторінки ресурсу. Наявність цього файлу підказує пошуковим роботам, як саме організована структура сайту. Відповідно, Яндекс, Google, Bing та інші пошукові системи отримують можливість більш якісно індексувати проект.

У цьому матеріалі розберемо створення XML-картки.

Для чого потрібна Карта сайту:

  1. Прискорити процес повної індексації.
    Пошукові роботи Google можуть пропустити недавно створені або змінені сторінки, а Карта допоможе в них орієнтуватися.
  2. Надати додаткову інформацію.
    У Карті вказують додаткові рекомендації для робота: роблять позначки про важливість сторінки, частоту та дату оновлення.
  3. Відобразити кількість проіндексованих URL
    Сигнали з Sitemap потрібні навіть для відображення проіндексованих посилань у Search Console.
  4. Прискорити процес пакетної деіндексації.
    Для цього створюють тимчасовий файл Sitemap, який включає сторінки для видалення. Про це він рекомендує обов'язково вказати дату останньої зміни сторінок, коли їм було присвоєно код помилки 404 або атрибут noindex. Так Google знатиме, що необхідно заново просканувати вміст сайту. Через кілька місяців цю тимчасову картку сайту можна буде забрати.

При цьому навіть якщо Google знайде посилання в Sitemap, але його не буде в навігації, він не додасть їй ваги і не проіндексує. Посилання в Карті сайту - це рекомендації, важливіше скласти грамотну , в якій пошуковий робот знайде всі потрібні сторінки.

У більшості випадків грамотної зовнішньої та внутрішньої перелінкування сторінок достатньо, щоб пошукові роботи дізналися про весь вміст сайту. Лендінгам, невеликим корпоративним сайтам з пари сторінок, односторінковим візиткам Карта сайту і не потрібна - бот розбереться в сторінках без зусиль. Карти потрібні для сайтів, які складно краулити, тому для решти проектів її рекомендують створити.

Карта обов'язково потрібна сайтам із такими ознаками:

  • Проект створений нещодавно, має мало зовнішніх посилань. В цьому випадку пошуковому роботу складніше знайти сайт.
  • У структурі сайту багато архівів веб-документів, які не пов'язані між собою.
  • Проект має велику кількість сторінок, розділів і підрозділів;
  • У структурі переважають динамічні сторінки.
  • На сайті є мультимедійний контент. Бот зможе отримати додаткову інформацію з Sitemap для показу результатів пошуку.

Пошукові системи можуть не проіндексувати потрібні сторінки таких сайтів, якщо не запропонувати краулерам файл Sitemap. Розберемо, як створити.


Базові критерії створення файлу Sitemap

Пошуковики мають свої вимоги до складання Карти сайту, про які потрібно пам'ятати веб-майстру.

Загальні вимоги до Sitemap:

  1. Кількість URL-адрес у файлі Sitemap не повинна перевищувати 50 тисяч. Якщо їх більше, необхідно створити кілька окремих карт сайту, які прописують у файлі індексу Sitemap. Для цього достатньо створити кілька окремих файлів Sitemap, не більше 50 тисяч посилань кожна, а в сумі посилань може бути більше ліміту. Після цього для кількох Карт створюють спільний материнський файл Sitemap.
  2. Максимальний розмір файлу – 50 Мб. Файл можна зменшити за допомогою стиснення, але в стиснутому вигляді він все одно повинен бути менше 50 Мб.
  3. Файл Sitemap повинен знаходитись на тому ж домені, що й веб-сайт, для якого він створений.
  4. Можна використовувати кодування UTF-8, а також латинські літери та цифри.
  5. на звернення до файлу Sitemap має бути HTTP-статус із кодом 200 OK.
  6. URL-ідентифікатори сесій не повинні бути в Карті сайту.
  7. Посилання повинні мати однаковий синтаксис.
  8. У Карті вказані лише канонічні URL-адреси.
  9. Карта не конфліктує з інформацією в robots.txt – якщо у robots.txt якісь сторінки закриті від індексації, то їх не повинно бути в Карті.

Деякі веб-майстри турбуються про порядок посилань у файлі, але представник Google, що черговість не має значення взагалі, головне - помістити в Sitemap найважливіші канонічні посилання.


Допустимі формати Карти сайту

Особлива вимога подається до формату файлу Sitemap. Карту сайту можна створити у вигляді XML-файлу, текстового файлу або за допомогою RSS, mRSS та Atom 1.0. Яндекс вказує, що пошук не підтримує передачу RSS та Atom-фідів за допомогою Sitemap. Якщо ви орієнтуєтеся на різні пошукові системи, використовуйте формат XML. Правила створення файлу описані у стандарті.

Службові теги Sitemap

Обов'язкові теги

  • - контейнер із зазначенням стандарту протоколу;
  • - батьківський тег для кожного запису URL-адреси;
  • - Вказівка ​​URL, починається з префікса, наприклад, http або https.

Додаткові теги:

  • - частота оновлення веб-документа з атрибутами never, always, yearly, monthly тощо;
  • - дата останнього поновлення на сторінці;
  • - Вказівка ​​різної важливості сторінок ресурсу від 0,1 до 1, визначає черговість обробки URL на цьому сайті. Google його не підтримує. Пріоритет можна дати найважливішим сторінкам і немає сенсу вказувати високий пріоритет усім посиланням, тоді тег взагалі ні на що не вплине.

Інші мовні версії сайту вказують за допомогою атрибуту hreflang.

Приклад Карти сайту у форматі XML

Sitemap для сайту, якби він складався з однієї сторінки і містив згадані теги, міг би виглядати так:

http://www.сайт/ 2016-03-21 daily 0.8

Як створити та де розмістити файл Sitemap?

За бажання скласти Карту сайту можна вручну, але це надто трудомістке і безглуздо - Карта сайту має бути динамічною, якщо ви регулярно оновлюєте сайт - публікуєте нові записи в блозі, розвиваєте інтернет-магазин. Найкраще створювати файл Sitemap автоматично, звернувшись до послуг безкоштовних онлайн-сервісів та плагінів для CMS.

Карта сайту (sitemap) - це html сторінка сайту або спеціальний xml файл, в якому відображено посилання на всі важливі сторінки сайту. Щоб зрозуміти, що таке карта сайту, достатньо уявити книжковий зміст і відразу ж стане ясно, навіщо потрібна карта сайту. Карта сайту допомагає відвідувачу, будь то людина або пошуковий робот, швидко знайти будь-яку сторінку сайту, здійснюючи мінімальну кількість переходів. На простих, невеликих сайтах всі сторінки можуть бути доступні через 1-2 кліки від головної сторінки, але що робити, якщо сайт великий і його структура непроста? Подібний сайт буде незручним не тільки відвідувачам, але й неочевидним для пошукових систем.

Які бувають карти сайту

Пошукові системи індексують сайт поступово, рівень за рівнем починаючи з головної сторінки. Якщо на сайті багато рівнів вкладеності сторінок, то поки всі сторінки сайту проіндексуються пройдуть багато місяців. Значить, потрібно створити карту сайту, на якій будуть всі посилання на всі сторінки сайту відразу, щоб робот не витрачав час на переходи за рівнями вкладеності, чи не так? І так і ні. Відповідь залежить від того, навіщо робиться карта і якою вона буде. Давайте розглянь, які бувають карти сайту.

Карта сайту HTML Sitemap

Карти сайту поділяються на 2 основні види або формати: карта сайту htmlі мапа сайту файл xml. HTML карта сайту - це сторінка сайту, де перераховані посилання. Зазвичай це посилання на найважливіші розділи та сторінки сайту. HTML карта сайту більше розрахована на людей, ніж на роботів і допомагає швидше орієнтуватися в основних розділах сайту. Для карти сайту у вигляді html-сторінки існують серйозні обмеження за кількістю посилань на одній сторінці. Якщо на сторінці буде занадто багато посилань, далеко не всі посилання можуть бути проіндексовані або сторінка карти сайту може бути виключена з пошуку за надмірну кількість посилань, нехай навіть .

Для того, щоб карта сайту правильно індексувалася і адекватно сприймалася відвідувачами, не варто розміщувати на сторінці більше 100 посилань. Цього достатньо, щоб розмістити на сторінці всі розділи та підрозділи, які не влізли в основне меню.

Зазвичай, карта сайту у форматі HTMLмає деревоподібну структуру, де вказані розгорнуті розділи та підрозділи. Надмірно громіздкі HTML карти сайту, часто оформлюються графічними елементами, CSS-стилями та доповнюються Java-script. Однак, мапа сайту html не має великого значення для пошукових систем.

HTML карта сайту — це повноцінний sitemap. Як бути, якщо на сайті сотні, тисячі, десятки тисяч сторінок? Для цього необхідно розмістити посилання на всі сторінки у карті сайту у форматі xml.

Карта сайту XML Sitemap

XML карта сайту - це файл формату xml, виду sitemap.xml, Який зазвичай знаходиться в корені сайту. У карти сайту у форматі xml є безліч переваг перед html картою сайту. Sitemap xml – це спеціальний формат карти сайту, що визначається всіма популярними пошуковими системами, наприклад Google та Яндекс. У xml sitemap можна вказати до 50 000 посилань. Більше того, у sitemap xml можна вказати відносний пріоритет та частоту оновлення сторінок.

Варто зазначити, що вміст карти сайту є лише рекомендацією для пошукового робота. Наприклад, якщо встановити для сторінки сайту щорічну частоту оновлення, пошукові роботи все одно ходитимуть частіше. А якщо встановити частоту оновлення сторінки щогодини, це не означає, що роботи індексуватиме сторінку щогодини.

Карта сайту xml має певний синтаксис, давайте розглянемо структуру xml карти сайту детальніше.

Приклад файлу картки сайту sitemap.xml

Правильний sitemap.xml повинен мати кодування UTF8. Вміст файлу картки сайту sitemap.xml виглядає так:

http://mysite.ru/ 2014-09-18T18:54:13+04:00 always 1.0 http://mysite.ru/category/ 2014-09-18T18:57:09+04:00 hourly 0.8 http://mysite.ru/page/ 2014-09-18T18:59:37+04:00 daily 0.6

Де використовуються такі обов'язкові теги:

  • - Батьківський тег, в нього полягають всі URL-адреси;
  • - тег, в якому вказуються відомості про конкретну URL-адресу;
  • - У цьому тегу вказується безпосередньо url.
  • — цей тег містить дату останньої зміни сторінки;
  • — тег використовується, щоб вказати, наскільки часто змінюється сторінка: always, hourly, daily, weekly, monthly, yearly, never;
  • — вказує пріоритет певної сторінки щодо інших сторінок сайту від 0,1 – низький пріоритет, до 1 – високий пріоритет.

Також, у файлі картки сайту у форматі xml має міститися вказівка ​​на простір імен мови XML:

Xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

Якщо файл карти сайту містить понад 50 тисяч посилань або розмір sitemap.xml перевищує 10 мб, рекомендується розділити карту сайту на кілька файлів. У такому випадку, у картці сайту необхідно вказати кілька посилань на різні файли карток.

http://mysite.ru/sitemaps/sitemap01.xml 2014-09-18T18:54:13+04:00 http://mysite.ru/sitemaps/sitemap02.xml 2014-09-18T18:54:13+04:00

Тут використовуються вже знайомі нам теги і , а також обов'язкові теги:

  • - Батьківський тег, в який полягають адреси всіх карт сайту;
  • - Тег, в якому полягає параметри для кожної картки сайту.

Приклад файлу картки сайту sitemap.txt

Ще одним способом оформлення картки сайт у вигляді файлу може бути картка сайту у форматі txt:

1. http://mysite.ru/ 2. http://mysite.ru/page/ 3. http://mysite.ru/page1/

Все просто. У файлі sitemap.txt рядково перераховуються всі потрібні посилання. Карта сайту у форматі txt – це «варіант для лінивих». Тут працює аналогічне sitemap xml обмеження 50.000 посилань. Однак, TXT карта сайту позбавлена ​​можливостей вказати дати останньої зміни та пріоритету сторінки.

Як створити карту сайту

Створення картки сайтуважливий процес, у якому необхідно чітко вказати, які сторінки сайту потрібно індексувати та як краще їх індексувати. Залежно від того про який тип карти сайту йдеться, використовуються різні способи створення картки сайту. Як створити html карту сайту обговорювати окремо сенсу немає. Розглянемо як зробити карту карту у форматі xml файлу. Існує кілька основних способів створення карти сайту, але їх об'єднує те, де знаходиться карта сайту і як файл sitemap визначається пошуковими системами.

Як уже було написано вище файл картки сайту розміщується в корені сайту. Пошукові системи здатні самостійно виявити файл карти сайту. Але існує кілька способів вказати пряме посилання на файл(и) карти сайту(ів) для більш швидкого виявлення пошуковими системами. Найпростіший спосіб вказати місце розташування файлу картки сайту – це безпосередня вказівка ​​посилання або кількох посилань на файли карток сайту в інструментах для вебмайстрів від Yandex та Google. Там же можна перевірити картку сайтупровести аналіз картки сайту на коректність, відповідність того, які сторінки з карти сайту знайдені пошуковою системою і скільки їх знаходиться в індексації.

Другий спосіб вказати пошуковим системам на розташування файлу карти сайту – це .

Sitemap: http://mysite.ru/sitemap.xml

У robots.txt можна вказати кілька файлів sitemap, після чого він автоматично буде додано до інструментів для вебмайстрів. Як знайти мапу сайту ми розглянули, тепер перейдемо до того, як створити мапу сайту.

Основні способи створення картки сайту

  1. Генерація картки сайтусилами системи керування сайту, якщо CMS має подібну вбудовану можливість.
  2. Завантажити карту сайтузі стороннього онлайн сервісу. Існує безліч online генераторів карт сайту з різними можливостями та обмеженнями. Наприклад xml-sitemaps.com має можливість налаштування параметрів карти сайту, але має обмеження за кількістю посилань у файлі sitemap.xml в 500 штук.
  3. Завантажити програму-генератор карти сайту. Подібні програми генератори зазвичай платні, але за їх допомогою можна регулярно генерувати sitemap xml для одного або кількох сайтів. Ось кілька прикладів подібних програм-генераторів: SiteMap XML Dynamic SiteMap Generator, WonderWebWare SiteMap Generatior.
  4. Автоматичне створення sitemap картки сайтуу Joomla (Джумла), WordPress (Вордпрес), Bitrix (Бітрікс).
  5. Створення картки сайту вручну.

Карта сайту - один з найважливіших інструментів. Не важливо, як буде створено карту сайту. Важливо, які посилання будуть перераховані в карті сайту і як часто вона оновлюватиметься. Іноді, в карту сайту вивантажується все поспіль і навіть посилання, які заборонені в robots.txt або . А оновлення карти сайту відбувається раз на місяць чи рідше. Подібне ставлення до карти сайту може не просто зробити її марною, але ще гірше — заплутати пошукового робота, що негативно позначиться на індексації та позиціях сайту в пошуку.

Створити картку сайту для свого ресурсу. Але будьте уважні і добре подумайте, що вивантажувати в sitemap, а що ні.

Останнім часом часто доводиться відповідати на питання, пов'язані з файлами sitemap. Сплеск інтересу до цього не найважливішого аспекту оптимізації сайтів пояснюється виходом нової версії Яндекс.Вебмайстра, який позначає відсутність карти сайту як помилку.

У розділі «Можливі проблеми» відображається таке повідомлення:

Немає файлів, що використовуються роботом Sitemap
Робот не використовує жодного файлу Sitemap. Це може негативно вплинути на швидкість індексування нових сторінок сайту. Якщо коректні файли Sitemap вже додані до черги на обробку, повідомлення автоматично зникне з початком їх використання.
Зверніть увагу на розділ "Файли Sitemap".

Чи таке страшне це попередження? Чи обов'язково створювати sitemap і якщо так, то навіщо? Розкладемо по поличках.

Що таке sitemap і для чого він призначений?

Найчастіше використовується формат xml, який дозволяє вказувати крім самих URL-адрес також деякі їх характеристики (частоту оновлення та зміни, відносну значимість сторінки). Однак можна використати і зовсім просту структуру. Це файл txt, що містить список URL (кожен із нового рядка) — і більше нічого.

Призначення списку — надати пошуковим павукам інформацію про документи, що є на сайті. Це допомагає роботу знайти всі сторінки ресурсу та додати їх до результатів пошуку. Додаткові дані з xml – це рекомендація пошуковим павукам частіше чи рідше відвідувати ті чи інші сторінки. До речі, нічого не чув про те, як ці рекомендації виконуються. Дуже можливо, що вони не враховуються взагалі або є значно слабшим сигналом у порівнянні з іншими факторами.

Міфи про карту сайту

1. Досить зробити sitemap.xml - і про індексацію можна не турбуватися

Це найчастіша помилка, стикаюся регулярно. Насправді, для великих сайтів (сотні тисяч сторінок) повнота індексу — одна з найбільш важливих проблем і простим розміщенням картки сайту вона не вирішується. Карта дає роботу можливість знайтивсі сторінки, але це не означає, що а) індексації не завадить щось інше, наприклад, технічні проблеми і б) пошукова система визнає сторінку «гідною» бути в пошуку.

2. Sitemap обов'язковий для всіх сайтів

Маленькі проекти (до тисячі сторінок) з більш-менш адекватною структурою, коли можна в пару кліків перейти на будь-яку сторінку, чудово почуваються і без неї. Це зрозуміло як із загальних міркувань (основний механізм знаходження матеріалів для індексації — це переходи за внутрішніми посиланнями), і з практики. Бачив десятки сайтів без мапи, які повністю коректно сприймалися роботом.

Нарешті, про те саме говорить Гугл у своїй довідці:

Якщо сторінки файлу коректно пов'язані один з одним, пошукові роботи можуть виявити більшу частину матеріалів. Тим не менш, за допомогою файлу Sitemap можна оптимізувати сканування сайту, особливо в таких випадках:

  • Розмір сайту дуже великий.Пошукові роботи Google можуть пропустити нещодавно створені або змінені сторінки.
  • Сайт містить великий архів сторінок, які не пов'язані одна з одною.Щоб їх було успішно проскановано, їх можна перерахувати у файлі Sitemap.
  • Ваш сайт створений нещодавно і на нього вказує мало посилань.Робот Googlebot та інші пошукові роботи сканують Інтернет, переходячи за посиланнями з однієї сторінки на іншу. Якщо ваш сайт вказує мало посилань, його буде складного знайти.
  • На сайті використовується мультимедійний контент, він відображається в Новинах Google або використовує інші анотації, сумісні з файлами Sitemap. З файлів Sitemap може отримувати додаткову інформацію для відображення результатів пошуку.

3. Якщо видалити сторінку з sitemap, вона випаде з індексу

Аналогічно – міф. Зіткнувся з величезною кількістю сайтів, де sitemap відвалювався через технічні проблеми або віддавався роботам у сильно урізаному вигляді. Це могло шкодити влученню в пошук нових сторінок, але зі старими все було гаразд.

Навпаки, нерідко використовується прийом «видалити з карти все проіндексоване, щоб зосередити увагу робота на нових сторінках». Він дає певний ефект щодо оптимізації краулінгу (сканування) сайту. Однак для більшості випадків я не рекомендую його використовувати, про причини див. нижче.

4. Обов'язково потрібно налаштовувати всі додаткові. параметри (пріоритет, частота оновлення)

Ні. Як згадувалося, можна без проблем використовувати звичайний txt-файл зі списком url. Зрозуміло, гірше від зазначення максимуму інформації у карті не буде. Однак:

  1. Немає достовірних даних про те, що пошукові системи дійсно враховують ці інструкції. Взагалі-то Яндекс часто ігнорує навіть більш жорстку рекомендацію - заголовок сервера Last-Modified та If-Modified-Since (див. ).
  2. Навіть якщо сигнали враховуються строго за заявами пошукових систем — тобто як рекомендація — виграш в ефективності сканування буде найчастіше дуже незначний. Виняток - по-справжньому, де повнота індексу критична.
  3. Вказівка ​​всіх даних вимагає від SEO-аналітика додаткової копіткої роботи з підбору їх значень.
  4. Аналогічно, налаштування генерації файлу з усіма параметрами це додаткові витрати на розробку.
  5. Пункти 3 і 4 ще серйозніші, ніж здаються. Адже сайт змінюється, мають змінюватись і розширені дані, інакше рекомендації стануть неактуальними.

Думаю, на цьому вистачить про міфи, перейдемо до справжніх рекомендацій.

Як правильно працювати з sitemap?

Більшість необхідних відомостей про створення файлів та надання роботам доступу до них міститься у довідці пошукових систем. Допомога Google та Яндекса . Я ж розповім про кілька неочевидних моментів.

По-перше, файл зі списком url сайту, до якого легко отримати доступ, може стати в нагоді не тільки пошуковим роботам. Він дуже зручний для низки завдань SEO-аналітики.

Пара прикладів.

Оцінка повноти та якості індексу

Якщо ми точно знаємо кількість доступних для пошукових систем сторінок (кількість посилань у карті порахувати нескладно) — значить, можемо швидко оцінити, наскільки повно він проіндексований. Робимо грубу оцінку через оператор «site:» (краще з деякими хитрощами, див.).

Якщо кількість сторінок у видачі менша, ніж у карті — знаходимо ті, що вислизнули від роботів і заганяємо їх у пошук — правкою структури, твіттером () тощо.

Якщо більше, то в пошук могли потрапити випадково згенеровані, «сміттєві» сторінки. Їх потрібно знайти і або довести до ладу, або закрити за допомогою robots.txt, canonical, мета-тегів. Знову ж таки, для пошуку зайвого знадобиться список потрібного, чим і є sitemap.

Пошук сторінок, які не приносять трафік

Якщо сторінка є на сайті, але не приносить нам відвідувачів упродовж тривалого часу, з нею щось не так. Подібні url потрібно знайти і розібратися в причинах — це часто допомагає здорово підняти трафік.

Як це зробити? Хоч би так:

Будуємо в Метриці звіт про сторінки входу з пошуку за квартал:

Фільтруємо за джерелом - за однією з пошукових систем, під яку працюємо:

І вивантажуємо список сторінок (дані таблиці) в Excel.

Тепер нам лишилося:

а) перегнати xml-карту в excel (для цього є море онлайн-конвертерів).

б) використовуючи функції excel знаходимо url, які є у стовпці з карти, але немає в стовпці з Метрики.

Алгоритм виглядає досить громіздко, але нічого складного у ньому немає. А для лінивих тих, хто цінує свій час (таких як я), є автоматизація процесу. Один із звітів мого сервісу аналізу сайту якраз. Наприклад, вчора вийшло, де на основі sitemap працює пошук потенційно небезпечних сторінок, які заганяються в індекс посилальним спамом від конкурентів, які бажають нашкодити сайту.

Подібних прикладів можна навести ще багато. Суть не в них, а в тому, що мати під рукою актуальний список сторінок сайту дуже корисно. До нього можна швидко отримати доступ за допомогою різних сервісів та софту (на крайній випадок – використовуючи excel) та використовувати у процесі оптимізації сайту.

Так що там говорити, навіть стандартний технічний аудит із застосуванням робити зручніше, якщо подати на вхід не url головної сторінки, як завжди, а sitemap. Процес робиться більш керованим: можна заздалегідь відібрати для аналізу частину сторінок (наприклад, за проблемним розділом) і чекати, поки будуть оброблені інші.

То був перший не дуже очевидний момент.

Як краще дати роботам доступ до карти?

У деяких випадках краще не вказувати посилання на stiemap у robots.txt, а надсилати вручну через Google Search Console та Яндекс.Вебмайстер. Справа в тому, що в robots.txt її може побачити будь-хто. Наприклад, якийсь лиходій, який шукає де спарсити контент. Не варто полегшувати завдання.

Якщо дати SEO-параної розгулятися ще сильніше - то приходить думка не використовувати стандартне ім'я (sitemap.xml), а назвати файл якось інакше, щоб її не знайшли, ввівши традиційну назву.

Не скажу, що це особливо критична порада, але чому б не постелити соломки, якщо це нескладно?

Резюме

  1. Файл sitemap допомагає сайту в плані індексації, але не є панацеєю. Якщо є проблеми з повнотою індексу, їх потрібно вирішувати комплексно.
  2. Використовувати необов'язково, але бажано для великих сайтів та деяких специфічних завдань (див. цитату з довідки Google).
  3. Попередній пункт справедливий щодо завдання «полегшити життя пошуковим роботам». Однак для завдань аналізу сайту та прийняття рішень у процесі оптимізації мати під рукою карту зручно практично для всіх сайтів (крім зовсім маленьких).
  4. Найважливіша вимога до sitemap (крім відповідності стандартам) – це повнота та актуальність. Для завдань SEO-аналітики карта виступає як еталон, з яким порівнюють інші списки url-адрес (ті, що в індексі; на які є посилання, на які є переходи з пошуку і так далі). Тому при створенні потрібно одразу подбати про її регулярне оновлення.
  5. Якщо є необхідність керувати індексацією шляхом видалення вже проіндексованих сторінок із sitemap, то можна мати 2 різні файли - один віддавати роботам, а інший тримати для власних потреб щодо аналізу.

Уф, начебто простий предмет, а стаття майже на 1500 слів. Вітаю себе з її написанням і вас – з прочитанням. Ми обидва небувало посидючі для !

 

 

Це цікаво: