Si tengo un sitio web con millones de páginas únicas, ¿debo enviar un mapa del sitio parcial a Google?

Debe enviar un mapa del sitio de todas las páginas que cree que deberían estar en el índice de búsqueda de Google.

Si tiene millones de páginas, deberá usar el índice del mapa del sitio, que es una colección de archivos individuales del mapa del sitio.

http://sitemaps.org/protocol.php…

Cada mapa del sitio no debe tener más de 50,000 URL y no más de 10 MB.

Para aprovechar al máximo este protocolo, sugiero crear mapas de sitio que se asignen a una categoría o tipo de página (o combinación) para que pueda determinar las tasas de indexación. A menudo encuentra que algunas páginas o categorías están mejor indexadas que otras. Entonces es tu trabajo descubrir por qué.

Aún mejor si sus archivos de mapa del sitio pueden rastrearse hasta el tráfico, lo que generalmente llevo a cabo a través de segmentos avanzados de expresión regular en Google Analytics.

Como AJ menciona a continuación, definitivamente debe enviar un mapa del sitio de todas las páginas que desea que aparezcan en el índice de búsqueda de Google. Puede parecer una tarea loca ya que los mapas de sitio solo pueden acomodar hasta 50,000 páginas, pero puede usar un generador de mapa de sitio para crear múltiples mapas de sitio XML y HTML de su sitio web y todas sus páginas, solo para asegurarse de que se envíe todo lo importante búsqueda e indexado en consecuencia.

Como Google Bot tiene una capacidad establecida para cada sitio en la web, dependiendo de la autoridad del sitio web y el tiempo de carga de las páginas, puede modificar la forma en que envía sus páginas a través del mapa del sitio XML.

Trato este problema en particular a diario, donde los sitios web de eBay tienen una gran cantidad de páginas nuevas cada día. Es por eso que solo enviamos elementos recién listados cada día y mantenemos estos archivos de índice de mapa del sitio durante 7 días en el servidor.

Cada sitio es diferente, por lo que puedo alentarlo a que haga lo siguiente:
– Obtenga acceso a los archivos de registro donde puede extraer las tasas de rastreo de Googlebot
– Basado en identificadores únicos, escriba una secuencia de comandos que pueda determinar cuándo se rastrea una página primero después de que se haya activado.
– Realice un seguimiento de los nuevos rastreos, donde los rastreadores que se atascan en los mismos elementos pueden indicar un problema
– Obtenga informes de tráfico basados ​​en el tráfico de los motores de búsqueda por identificador único igual a las tasas de rastreo, para que pueda identificar aquellas páginas que sí reciben tráfico

En función de estas métricas, puede determinar qué tipo de páginas le gustan a Google y a las que dirige el tráfico. Si puede agregar algunos análisis predictivos para determinar qué URL se pueden agrupar, puede determinar cuáles configurar en el mapa del sitio y cuáles puede omitir para ahorrar capacidad de rastreo.

Todo se reduce a enviar esas URL en las que sabrías que Googlebot desea estas.