Saltar al contenido

Metodología y esquema del conjunto de datos

State of Small Business Websites 2026: Conjunto de datos

292 filas. 41 columnas. Datos abiertos bajo CC BY 4.0.

Fuente

Escaneo con DeepAudit AI de sitios web de pequeñas empresas obtenidos de una lista de prospectos de ZoomInfo, recopilados en el primer trimestre de 2026 a través del pipeline del Cold Call Engine en Axion Deep Digital. Cada sitio se renderizó en un navegador Chromium headless (Puppeteer) y se evaluó con más de 100 verificaciones de SEO técnico, rendimiento, accesibilidad y seguridad.

Anonimización

Los campos de identificación personal (nombre de contacto, correo electrónico, teléfono, URL, dominio, nombre de la empresa, ciudad) se eliminan. Cada sitio se identifica mediante site_id, un prefijo SHA-256 de 16 caracteres del dominio original.

Para verificar la fila de tu propio sitio:

import hashlib
site_id = hashlib.sha256("yourdomain.com".encode()).hexdigest()[:16]

El estado se conserva con granularidad de estado de EE. UU. Las 292 filas no son reidentificables solo a partir del estado.

Columnas

Identidad

  • site_id: prefijo SHA-256 del dominio original (16 caracteres)
  • state: código de estado de EE. UU.

Puntuación general

  • overall_score: puntuación compuesta de DeepAudit (0-100)
  • overall_grade: calificación con letra (de A+ a F)

Lighthouse móvil (PageSpeed Insights, formato móvil)

  • mobile_lh_valid: 1 si PageSpeed devolvió datos móviles útiles, 0 si no
  • mobile_performance, mobile_seo, mobile_accessibility, mobile_best_practices: puntuaciones de categoría de Lighthouse (0-100)
  • mobile_lcp_seconds: Largest Contentful Paint, segundos
  • mobile_fcp_seconds: First Contentful Paint, segundos
  • mobile_cls: Cumulative Layout Shift (sin unidad)
  • mobile_lcp_bucket, mobile_fcp_bucket, mobile_cls_bucket: umbrales good / needs_improvement / poor de Google
  • mobile_cwv_all_three: aprueba si LCP≤2.5s Y FCP≤1.8s Y CLS≤0.1, de lo contrario falla

Lighthouse de escritorio

La misma forma que el móvil, con el prefijo desktop_.

Autoridad

  • open_pagerank: valor de Open PageRank (escala 0-10, proxy de la autoridad de dominio)

Verificaciones específicas de alta señal (pass / warn / fail / empty)

  • check_link_labels: verificación de accesibilidad Link Labels de axe-core
  • check_focus_indicators: verificación de visibilidad del foco de axe-core
  • check_form_labels: verificación de etiquetado de formularios de axe-core
  • check_html_validation: validador HTML del W3C
  • check_h1_tag: presencia de una etiqueta H1 adecuada
  • check_json_ld: presencia de datos estructurados JSON-LD
  • check_sitemap_xml: sitemap.xml detectable
  • check_hsts: cabecera HTTP Strict Transport Security
  • check_primary_keyword: colocación de la palabra clave principal en el contenido visible

Agrupaciones por categoría

  • a11y_checks_total / a11y_checks_failed: accesibilidad
  • structured_data_checks_total / structured_data_checks_failed: marcado de schema.org
  • security_checks_total / security_checks_failed: cabeceras de seguridad
  • technical_checks_total / technical_checks_failed: SEO técnico

Advertencias

  • Selección de la muestra. Los sitios se obtuvieron de una lista de prospectos B2B. Sesgada hacia pequeñas empresas de EE. UU. en industrias visibles para las ventas. No es una muestra aleatoria de la web.
  • Un solo escaneo por sitio. Los números de rendimiento son una sola instantánea. Las condiciones de la página, el almacenamiento en caché del CDN, la hora del día y la varianza de la medición afectan a LCP/FCP en un ~10-20%.
  • Fallos parciales de PSI. Algunos sitios devolvieron cero en todas las categorías de Lighthouse (error de renderizado de PageSpeed). Estas filas tienen mobile_lh_valid = 0. Fíltralas antes de calcular estadísticas de rendimiento móvil.
  • Open PageRank es un proxy. No es el PageRank de Google (retirado en 2016). Útil para ordenar dominios por rango, no para afirmaciones de autoridad absoluta.

Licencia

Creative Commons Atribución 4.0 Internacional (CC BY 4.0).

Eres libre de compartir y adaptar este conjunto de datos para cualquier propósito, incluido el comercial, siempre que atribuyas:

Gutierrez, J. R. (2026). State of Small Business Websites 2026. SSRN preprint 6719299. Axion Deep Digital, DeepAudit AI scan (n=292). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6719299

Cita (BibTeX)

@misc{gutierrez_sbw_2026,
  author       = {Gutierrez, Joshua R.},
  title        = {State of Small Business Websites 2026: An Empirical
                  Audit of Mobile Performance, Accessibility, and
                  Technical SEO Across 292 Sales-Visible B2B Small
                  Business Websites},
  year         = {2026},
  howpublished = {SSRN preprint},
  number       = {6719299},
  url          = {https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6719299}
}

@dataset{axiondeepdigital_sbw_2026,
  author    = {Gutierrez, Joshua R. and Gutierrez, Crystal A.},
  title     = {State of Small Business Websites 2026},
  year      = {2026},
  publisher = {Axion Deep Digital},
  version   = {1.0},
  url       = {https://axiondeepdigital.com/research/state-of-small-business-websites-2026}
}