Hinweis: Zusammenarbeit mit einem LLM
Dieser Forschungsblog wurde in Zusammenarbeit mit einem Large Language Model (LLM) erstellt. Alle Inhalte werden von mir als Projektverantwortliche überprüft,und falls nötig korrigiert oder ergänzt (Expert in the Loop). Wenn etwas unklar ist, wird es im Verlauf des Projekts im Kurs angesprochen.
Projektübersicht
Projektname: ParlaTone - Sprachwandel im Deutschen Bundestag zu §218 StGB.
Übergeordnete Idee: In ParlaTone untersuche ich den politischen Diskurs im Deutschen Bundestag rund um den Abtreibungsparagraphen §218 StGB. Dieser regelt den Umstand, dass Abtreibung in Deutschland offiziell ein Strafbestand ist, der jedoch nicht verfolgt oder bestraft wird, wenn die Abtreibung vor dem Ende des 3. Monats durchgeführt wird. Im Zentrum dieses Projekts steht die Frage, wie sich der Ton der Debatten über mehrere Jahre verändert hat und ob sich eine Tendenz innerhalb unterschiedlicher Parteien sowie im Bezug auf Geschlechter der Redner*innen gesehen werden kann.
Forschungsfrage (Arbeitsfassung):
Wie hat sich der Ton im Parlamentsdiskurs zu §218 im Laufe der letzten Jahre verändert, und
welche Unterschiede zeigen sich zwischen Parteien und Geschlechtern der Redner*innen?
Kontext: §218 StGB ist seit Jahrzehnten gesellschaftspolitisch umkämpft (s. dazu Dienerwitz, 2025). Debatten um reproduktive Rechte, medizinische Versorgung, sowie religiöse bzw. moralische Positionen prägen den Diskurs. Die Plenarprotokolle des Bundestags bieten eine reich strukturierte, offizielle Quelle, um diese Auseinandersetzungen in ihrer sprachlichen Form zu analysieren.
Datenbasis
Quelle: Plenarprotokolle des Deutschen Bundestages, die über das Open-Data-Angebot des Bundestags als XML/TEI und weitere Formate zur Verfügung stehen.
Geplanter Korpus: Sitzungen, in denen §218 (und eng verwandte Themen wie Schwangerschaftsabbruch, reproduktive Selbstbestimmung, §219a StGB ) explizit diskutiert werden. Der genaue Zeitraum wird im Projektverlauf präzise definiert und dokumentiert (Arbeitsannahme: Debatten aus den 2000er bis frühen 2020er Jahren).
Struktur: Die Protokolle liegen in einem XML/TEI-Format vor, das Redebeiträge, Zwischenrufe, formale Elemente (z. B. Sitzungsleitung) und Metadaten (u. a. Datum, Fraktion, Name der Redner*innen) unterscheidet. Für ParlaTone werden diese Daten zunächst in eine tabellarische Struktur überführt (z. B. eine Zeile pro Redebeitrag).
Beispielhafter Datensatz (Zielzustand):
- Spalten:
speech_id,speaker_name,party,gender,date,session_id,text - Filter: Nur Redebeiträge, in denen §218 bzw. eng verwandte Begriffe vorkommen
- Metadaten-Erweiterung: Parteien und Geschlechtszuordnung der Redner*innen (falls möglich)
Offene Frage: Welche zusätzlichen Metadaten (z. B. Berufsgruppen, Ausschusszugehörigkeit) sind für die Analyse wirklich relevant und realistisch zu erheben?
Methodischer Ansatz
In einem ersten Schritt werden die bereinigten Redebeiträge mit Hilfe von Topic Modelling untersucht. Dafür nutze ich das Framework BERTopic, das auf Transformer-basierten Sprachmodellen und einer anschließenden Clustering-Pipeline aufbaut.
BERTopic nutzt u. a. Text-Embeddings , um die Redebeiträge als Punkte in einem hochdimensionalen Raum zu repräsentieren. Anschließend wird mit UMAP eine Dimensionsreduktion durchgeführt, bevor ein Dichte-basiertes Clustering-Verfahren wie HDBSCAN thematische Cluster identifiziert.
Diese Pipeline erlaubt es, Themenbereiche und wiederkehrende Argumentationsmuster im Diskurs zu §218 sichtbar zu machen. Ergänzend plane ich eine (vorsichtige) Tonalitätsanalyse: Hier interessiert insbesondere, ob Beiträge eher konfrontativ oder konsensorientiert, moralisch aufgeladen oder pragmatisch-verwaltungsbezogen formuliert sind.
Offene Frage: Welche Skala (z. B. „konfrontativ ↔ konsensorientiert“) ist für die Annotation von Tonalität sinnvoll und ausreichend trennscharf? Dies wird sich vsl. erst anhand erster Auswertungen sagen lassen.
Vertiefender Fokus: Datenaufbereitung, Herausforderungen und Lösungsansätze
1. Relevante Debatten und Passagen identifizieren
§218 wird nicht immer exakt gleich zitiert. Neben expliziten Paragraphenverweisen („§218“, „§219a“) tauchen Begriffe wie „Schwangerschaftsabbruch“ oder „reproduktive Selbstbestimmung“ auf. Gleichzeitig gibt es rein formale oder technische Erwähnungen, die für die konkrete Forschungsfrage weniger relevant sind; bspw. kurze Erwähnungen im Rahmen anderer Debatten. Diese werden wahrscheinlich weniger relevant sein, da sie nicht im Kontext ausgewertet werden können.
Ich kombiniere deshalb eine Schlagwortsuche mit Kontextfiltern (z. B. Mindestlänge eines Redeabschnitts, mehrfaches Auftreten relevanter Begriffe) und nutze die TEI-Struktur, um gezielt Redebeiträge von Abgeordneten zu extrahieren, und so z.B. Kommentare der Sitzungsleitung rauszufiltern. Stichprobenkontrollen helfen dabei, Suchmuster zu schärfen und sowohl Über- als auch Unterinklusion zu reduzieren.
2. Strukturierung der Redebeiträge und Metadaten
Für die spätere Analyse müssen die Daten in eine verlässliche Tabellenform gebracht werden. Dazu parse ich die XML/TEI-Dateien mit Python, extrahiere einzelne Redebeiträge und verknüpfe sie mit Metadaten wie Datum, Partei und Geschlecht der Redner*innen.
Uneinheitliche Metadaten (z. B. unterschiedliche Schreibweisen von Parteinamen) werden normalisiert. Wo Informationen fehlen, dokumentiere ich diese Lücken transparent, statt sie stillschweigend zu füllen.
3. Textvorverarbeitung für Topic Modelling und Tonanalyse
Die Vorverarbeitung wird bewusst zurückhaltend gestaltet. Formelhafte Anreden und klar redundante Elemente (bspw.: "Sehr geehrte Kolleginnen und Kollegen", etc.) können entfernt werden, um die Modelle nicht mit inhaltslosem Rauschen zu fluten. So soll die stilistische und inhaltliche Vielfalt des Diskurses erhalten bleiben.
Für Embedding-basierte Methoden wie BERTopic reicht meist eine leichte Normalisierung (z. B. Kleinschreibung, Bereinigung von Sonderzeichen). Stopword-Listen erweitere ich nur, wenn klar ist, dass bestimmte Wörter keinen Beitrag zur inhaltlichen Unterscheidung leisten, auch dies wird sich vsl. erst im Lauf der Datenverarbeitung zeigen.
4. Zwischenrufe und Plenumsreaktionen
Zwischenrufe, Beifall, etc. werden in den Protokollen gesondert markiert und sind aus inhaltlicher Sicht ambivalent: Einerseits können sie auf Konfliktintensität oder Polarisierung hinweisen, andererseits erschweren sie die automatische Auswertung.
Ich trenne diese Elemente technisch von den Hauptreden, lösche sie aber nicht vollständig. Stattdessen werden sie als zusätzliche Marker gespeichert, sodass ich Analysen mit und ohne diese Informationen vergleichen, und mein Vorgehen bei Bedarf anpassen kann.
5. LLMs als Hilfswerkzeug in der Datenaufbereitung
LLMs können in der Datenaufbereitung unterstützen, z.B. beim Vorschlagen von formelhaften Phrasen oder beim groben Vorsortieren von Abschnitten in „inhaltlich relevant“ vs. „formal/administrativ“. Alle Vorschläge werden jedoch manuell geprüft und in einem Prompt-Engineering-Journal dokumentiert.
6. Transparenz und Reproduzierbarkeit
Alle Skripte und Aufbereitungsschritte werden mit Git versioniert. Das Repository folgt einer
klaren Struktur (z. B. raw/, processed/, notebooks/, docs/), und in
zusätzlichen Markdown-Dokumenten (z. B. DATA.md, METHOD.md, GLOSSAR.md)
werden Entscheidungen und offene Fragen nachvollziehbar festgehalten.
Mini-Projektplan
Meilensteine
- Datenakquise und Auswahl relevanter Plenarprotokolle zu §218
- Parsing der XML/TEI-Dateien und Aufbau eines analysierbaren Korpus
- Erste BERTopic-Modelle und Visualisierungen der Themenstruktur
- Vertiefende Analysen zur Tonalität und partei-/geschlechtsspezifischen Mustern
- Aufbereitung der Ergebnisse für Blog, Präsentation und spätere digitale Edition
Technologie-Stack
- Python (Datenaufbereitung, Analyse)
- BERTopic, UMAP, HDBSCAN, Embedding-Modelle (NLP & Topic Modelling)
- Git & GitHub (Versionierung), GitHub Pages (Publikation des Blogs)
- VSCode & Jupyter-Notebooks als Arbeitsumgebung
Erwartete Herausforderungen
- Saubere Trennung relevanter von irrelevanten Passagen in den Protokollen
- Interpretation von Tonalität in komplexen politischen Reden
- Reflektierter Einsatz von LLMs ohne unkritische Übernahme ihrer Vorschläge
Quellen & weiterführende Links
- Deutscher Bundestag, Open Data: Plenarprotokolle und Drucksachen – https://www.bundestag.de/services/opendata
- Aufhebung des §219a – https://www.bpb.de/kurz-knapp/hintergrund-aktuell/511299/aufhebung-des-ss219a/?pk_campaign=nl2022-08-31&pk_kwd=511299
- Übersicht Plenarprotokolle – https://www.bundestag.de/dokumente/protokolle/plenarprotokolle
- BERTopic, Dokumentation und Projektseite – https://bertopic.com/
- UMAP, Dimension Reduction – https://umap-learn.readthedocs.io/
- HDBSCAN, Clustering-Bibliothek – https://hdbscan.readthedocs.io/