Matthias Jacob 2adf89dfba add initial code
2025-12-29 14:44:09 +01:00
2025-12-29 14:34:53 +01:00
2025-12-29 14:44:09 +01:00
2025-12-29 14:44:09 +01:00
2025-12-29 14:44:09 +01:00
2025-12-29 14:44:09 +01:00
2025-12-29 14:44:09 +01:00

Grosse_Haufen — Thread-Scraper

Scraper für den "Große Haufen"-Thread im Haustechnikdialog-Forum

  • scrape.py: Hauptskript — lädt Thread-Seiten, parst Beiträge aus der Forumstabelle und schreibt thread_posts.json.
  • requirements.txt: minimale Abhängigkeiten (requests, beautifulsoup4).
  • thread_posts.json: exportierte Beiträge (Array von Objekten mit page, author, timestamp, likes, post_id, text).
  • thread_posts.html: einfache lokale Viewer-Seite, zeigt alle Posts untereinander (falls fetch scheitert: Dateiupload nutzen).

Kurzanleitung

  1. Abhängigkeiten installieren:
pip install -r requirements.txt
  1. Scraper starten (erzeugt thread_posts.json):
python scrape.py
  1. Viewer öffnen (lokaler Server empfohlen):
python -m http.server 8000
# dann öffnen: http://localhost:8000/thread_posts.html

Kontext & kultureller Wert

Der gescrapte Thread "Große Haufen" (HaustechnikDialog, 2005) ist ein charakteristisches Beispiel früher deutscher Forenkommunikation: er zeigt kollektiven Humor, ironische Überzeichnungen und die Art, wie sich Themen in Communitys viral verbreiten. Solche Threads sind wertvoll für die Untersuchung von Netzkultur, Meme-Entwicklung, Diskursdynamiken und sprachlicher Variation im deutschsprachigen Web. Bei Nutzung zu Forschungszwecken bitte Quellen und Urheberrechte beachten; vermeide Publikationen, die sensible Inhalte ohne Kontext reproduzieren.

Hinweis

Dieses Projekt ist als Experiment/Archiv gedacht. Wenn du das Scrapen für andere Seiten verwendest, respektiere die Nutzungsbedingungen, Robots-Policies und Datenschutz.

Wenn du möchtest, kann ich die Timestamps in ISO-Format umwandeln oder zusätzliche Felder (z. B. author_id) extrahieren.

Description
Scraper für den "Große Haufen"-Thread im haustechnikdialog-Forum
Readme 74 KiB
Languages
Python 71.9%
HTML 28.1%