Metodología y esquema del conjunto de datos
State of Small Business Websites 2026: Conjunto de datos
292 filas. 41 columnas. Datos abiertos bajo CC BY 4.0.
Fuente
Escaneo con DeepAudit AI de sitios web de pequeñas empresas obtenidos de una lista de prospectos de ZoomInfo, recopilados en el primer trimestre de 2026 a través del pipeline del Cold Call Engine en Axion Deep Digital. Cada sitio se renderizó en un navegador Chromium headless (Puppeteer) y se evaluó con más de 100 verificaciones de SEO técnico, rendimiento, accesibilidad y seguridad.
Anonimización
Los campos de identificación personal (nombre de contacto, correo electrónico, teléfono, URL, dominio, nombre de la empresa, ciudad) se eliminan. Cada sitio se identifica mediante site_id, un prefijo SHA-256 de 16 caracteres del dominio original.
Para verificar la fila de tu propio sitio:
import hashlib
site_id = hashlib.sha256("yourdomain.com".encode()).hexdigest()[:16]El estado se conserva con granularidad de estado de EE. UU. Las 292 filas no son reidentificables solo a partir del estado.
Columnas
Identidad
site_id: prefijo SHA-256 del dominio original (16 caracteres)state: código de estado de EE. UU.
Puntuación general
overall_score: puntuación compuesta de DeepAudit (0-100)overall_grade: calificación con letra (de A+ a F)
Lighthouse móvil (PageSpeed Insights, formato móvil)
mobile_lh_valid: 1 si PageSpeed devolvió datos móviles útiles, 0 si nomobile_performance,mobile_seo,mobile_accessibility,mobile_best_practices: puntuaciones de categoría de Lighthouse (0-100)mobile_lcp_seconds: Largest Contentful Paint, segundosmobile_fcp_seconds: First Contentful Paint, segundosmobile_cls: Cumulative Layout Shift (sin unidad)mobile_lcp_bucket,mobile_fcp_bucket,mobile_cls_bucket: umbrales good / needs_improvement / poor de Googlemobile_cwv_all_three: aprueba si LCP≤2.5s Y FCP≤1.8s Y CLS≤0.1, de lo contrario falla
Lighthouse de escritorio
La misma forma que el móvil, con el prefijo desktop_.
Autoridad
open_pagerank: valor de Open PageRank (escala 0-10, proxy de la autoridad de dominio)
Verificaciones específicas de alta señal (pass / warn / fail / empty)
check_link_labels: verificación de accesibilidad Link Labels de axe-corecheck_focus_indicators: verificación de visibilidad del foco de axe-corecheck_form_labels: verificación de etiquetado de formularios de axe-corecheck_html_validation: validador HTML del W3Ccheck_h1_tag: presencia de una etiqueta H1 adecuadacheck_json_ld: presencia de datos estructurados JSON-LDcheck_sitemap_xml: sitemap.xml detectablecheck_hsts: cabecera HTTP Strict Transport Securitycheck_primary_keyword: colocación de la palabra clave principal en el contenido visible
Agrupaciones por categoría
a11y_checks_total/a11y_checks_failed: accesibilidadstructured_data_checks_total/structured_data_checks_failed: marcado de schema.orgsecurity_checks_total/security_checks_failed: cabeceras de seguridadtechnical_checks_total/technical_checks_failed: SEO técnico
Advertencias
- Selección de la muestra. Los sitios se obtuvieron de una lista de prospectos B2B. Sesgada hacia pequeñas empresas de EE. UU. en industrias visibles para las ventas. No es una muestra aleatoria de la web.
- Un solo escaneo por sitio. Los números de rendimiento son una sola instantánea. Las condiciones de la página, el almacenamiento en caché del CDN, la hora del día y la varianza de la medición afectan a LCP/FCP en un ~10-20%.
- Fallos parciales de PSI. Algunos sitios devolvieron cero en todas las categorías de Lighthouse (error de renderizado de PageSpeed). Estas filas tienen
mobile_lh_valid = 0. Fíltralas antes de calcular estadísticas de rendimiento móvil. - Open PageRank es un proxy. No es el PageRank de Google (retirado en 2016). Útil para ordenar dominios por rango, no para afirmaciones de autoridad absoluta.
Licencia
Creative Commons Atribución 4.0 Internacional (CC BY 4.0).
Eres libre de compartir y adaptar este conjunto de datos para cualquier propósito, incluido el comercial, siempre que atribuyas:
Gutierrez, J. R. (2026). State of Small Business Websites 2026. SSRN preprint 6719299. Axion Deep Digital, DeepAudit AI scan (n=292). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6719299
Cita (BibTeX)
@misc{gutierrez_sbw_2026,
author = {Gutierrez, Joshua R.},
title = {State of Small Business Websites 2026: An Empirical
Audit of Mobile Performance, Accessibility, and
Technical SEO Across 292 Sales-Visible B2B Small
Business Websites},
year = {2026},
howpublished = {SSRN preprint},
number = {6719299},
url = {https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6719299}
}
@dataset{axiondeepdigital_sbw_2026,
author = {Gutierrez, Joshua R. and Gutierrez, Crystal A.},
title = {State of Small Business Websites 2026},
year = {2026},
publisher = {Axion Deep Digital},
version = {1.0},
url = {https://axiondeepdigital.com/research/state-of-small-business-websites-2026}
}