Shop für KI/Ai vorbereiten - SEO für Große Shops

Content-Extraction 2.0: Markdown-Dateien skalierbar für große Online-Shopsm


Wer heute mit LLMs (Large Language Models), RAG-Pipelines oder KI-gestützten SEO-Analysen arbeitet, steht meist vor demselben Problem: Webseiten sind für Menschen gebaut, nicht für Maschinen. HTML ist oft überladen mit Div-Containern, Scripts und unnötigem Ballast wie Navigationen oder Cookie-Bannern.

Markdown hat sich hier als Goldstandard etabliert. Es ist schlank, behält die hierarchische Struktur bei und wird von fast jeder KI-Schnittstelle perfekt verarbeitet. Doch wie wandelt man tausende URLs effizient um, ohne manuell Copy-Paste zu betreiben? Die Lösung liegt in der Custom JavaScript Funktion des Screaming Frog SEO Spiders.

Warum Markdown der ideale Input für KI ist

Im Vergleich zu rohem HTML bietet Markdown entscheidende Vorteile für die automatisierte Weiterverarbeitung:

Token-Effizienz: Weniger „Rauschen“ bedeutet geringere Kosten und schnellere Verarbeitung bei LLMs.

Struktur: Überschriften (H1-H6) und Listen bleiben erhalten, was für den Kontext der KI essenziell ist.

Lesbarkeit: Die Daten können „sauber“ und autom. eingelesen werden.


Zwei Wege zur sauberen Extraktion

Es gibt zwei primäre Ansätze, um den Screaming Frog in eine Markdown-Maschine zu verwandeln:

1. Der automatisierte Weg: Readability.js

Dieser Ansatz ist ideal für Blogs und Nachrichtenseiten. Er nutzt die Readability-Library (bekannt aus dem Firefox-Lese-Modus), um den Hauptinhalt automatisch zu identifizieren.

Funktionsweise: Ein JavaScript-Snippet lädt die Bibliotheken während des Crawls. Readability filtert Header, Footer und Sidebars heraus, während Turndown den verbleibenden HTML-Content in Markdown übersetzt.

Vorteil: Funktioniert fast ohne Konfiguration auf den meisten Standard-Templates.

2. Der präzise Weg: Visual Custom Extraction

Wenn die Automatik versagt oder nur ganz spezifische Bereiche (z. B. nur die Produktbeschreibung ohne technische Daten) extrahiert werden sollen, hilft die visuelle Extraktion.

  • Vorteil: Man wählt gezielt den CSS-Selektor aus. In Kombination mit Turndown wird dann nur dieser spezifische Bereich in Markdown umgewandelt.

Vom Crawl zur fertigen Datei

Nachdem Screaming Frog die Daten in einer Spalte (z. B. „Markdown Content“) gesammelt hat, steht man vor einer CSV-Datei mit riesigen Textblöcken. Um daraus nutzbare Einzeldateien zu machen, ist ein kurzes Python-Skript der nächste logische Schritt. Dieses nimmt den Export und speichert jede Zeile als separate .md-Datei ab – benannt nach der URL oder dem Seitentitel.

Fazit für die Praxis

Die Kombination aus dem Screaming Frog und JavaScript-Konvertierung macht das Tool von einem reinen SEO-Audit-Programm zu einem mächtigen Data-Inbound-Werkzeug. Wer seine Website-Inhalte für eigene GPTs aufbereiten oder eine Wissensdatenbank füttern will, spart mit diesem Workflow Tage an manueller Arbeit.

Wenn Sie für einen großen Schop saubere Daten hinterlgen wollen, sprechen Sie uns gerne an! Wir machen SEO für Online-Shops und haben bereits für einige der größten Shops in Deutschland gearbeitet.

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert