add initial code
This commit is contained in:
40
README.md
40
README.md
@@ -1,3 +1,39 @@
|
||||
# grosse_haufen
|
||||
# Grosse_Haufen — Thread-Scraper
|
||||
|
||||
Scraper für den "Große Haufen"-Thread im haustechnikdialog-Forum
|
||||
Scraper für den "Große Haufen"-Thread im Haustechnikdialog-Forum
|
||||
|
||||
- `scrape.py`: Hauptskript — lädt Thread-Seiten, parst Beiträge aus der Forumstabelle und schreibt `thread_posts.json`.
|
||||
- `requirements.txt`: minimale Abhängigkeiten (`requests`, `beautifulsoup4`).
|
||||
- `thread_posts.json`: exportierte Beiträge (Array von Objekten mit `page`, `author`, `timestamp`, `likes`, `post_id`, `text`).
|
||||
- `thread_posts.html`: einfache lokale Viewer-Seite, zeigt alle Posts untereinander (falls `fetch` scheitert: Dateiupload nutzen).
|
||||
|
||||
Kurzanleitung
|
||||
|
||||
1. Abhängigkeiten installieren:
|
||||
|
||||
```
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
2. Scraper starten (erzeugt `thread_posts.json`):
|
||||
|
||||
```
|
||||
python scrape.py
|
||||
```
|
||||
|
||||
3. Viewer öffnen (lokaler Server empfohlen):
|
||||
|
||||
```
|
||||
python -m http.server 8000
|
||||
# dann öffnen: http://localhost:8000/thread_posts.html
|
||||
```
|
||||
|
||||
Kontext & kultureller Wert
|
||||
|
||||
Der gescrapte Thread "Große Haufen" (HaustechnikDialog, 2005) ist ein charakteristisches Beispiel früher deutscher Forenkommunikation: er zeigt kollektiven Humor, ironische Überzeichnungen und die Art, wie sich Themen in Communitys viral verbreiten. Solche Threads sind wertvoll für die Untersuchung von Netzkultur, Meme-Entwicklung, Diskursdynamiken und sprachlicher Variation im deutschsprachigen Web. Bei Nutzung zu Forschungszwecken bitte Quellen und Urheberrechte beachten; vermeide Publikationen, die sensible Inhalte ohne Kontext reproduzieren.
|
||||
|
||||
Hinweis
|
||||
|
||||
Dieses Projekt ist als Experiment/Archiv gedacht. Wenn du das Scrapen für andere Seiten verwendest, respektiere die Nutzungsbedingungen, Robots-Policies und Datenschutz.
|
||||
|
||||
Wenn du möchtest, kann ich die Timestamps in ISO-Format umwandeln oder zusätzliche Felder (z. B. `author_id`) extrahieren.
|
||||
|
||||
Reference in New Issue
Block a user