Masterarbeit von Florian Pruß
Optimierung der Rechnungsextraktion durch Einsatz von Large Language Models: Ansätze und Evaluation bei der aifinyo AG
Die Masterarbeit untersucht die Leistungsfähigkeit von Large Language Models (LLMs) zur Extraktion strukturierter Rechnungsdaten aus PDF-Dokumenten. Der praktische Einsatzkontext ist die Berliner FinTech-Firma aifinyo AG, die monatlich rund 15.000 Rechnungen verarbeitet und eine robuste automatisierte Erfassung von Rechnungsnummer, -datum und -betrag benötigt.
Ausgangslage: Die bestehende OCR-Lösung (Gini) zeigt Schwächen bei variablen Rechnungslayouts. Die Arbeit prüft, ob LLM-basierte Verfahren eine signifikant robustere Alternative darstellen können.
Evaluierte Modelle und Strategien:
- Claude 3 Sonnet, GPT-4.1 und Gemma 3 (27B) mit Zero-Shot-, Few-Shot- und Chain-of-Thought-Prompting,
- zweistufiger Evaluationsansatz: 3.000 komplexe Rechnungen (Development) und 10.000 repräsentative Rechnungen von 508 Kreditoren (Blind-Evaluation),
- statistische Auswertung mittels dokumentbasierter Accuracy, McNemar-Test, Odds Ratios und Wilson-Konfidenzintervallen.
Evaluationsplattform: Es wurde eine webbasierte Plattform entwickelt, die Dokumente mit Ground-Truth verwaltet, Prompting-Strategien konfiguriert, automatisierte Ausführungen durchführt und sämtliche Metriken sowie Tokenverbrauch und Laufzeiten erfasst. Technische Basis: Ruby on Rails, PostgreSQL, einheitliche LLM-Service-API, Textextraktion mittels PDFPlumber und Tesseract.
Ergebnisse:
- Alle LLMs übertreffen die Gini-Baseline deutlich. Claude 3 Sonnet mit Few-Shot-CoT erreicht 99 % Accuracy gegenüber Gini mit 87%
- Bei 508 Kreditoren zeigen LLMs eine signifikant höhere Layout-Robustheit
- Prompt-Optimierung führt zu deutlichen Verbesserungen
- Die Generalisierung ist stabil: Ergebnisse im Development- und Evaluationsdatensatz nahezu identisch.
Fazit: LLM-basierte Methoden bieten eine klar überlegene Rechnungsdatenextraktion im Vergleich zur OCR-Lösung. In Kombination aus Genauigkeit, Layout-Robustheit und Stabilität stellt Claude 3 Sonnet mit Few-Shot-CoT den besten Ansatz dar. Empfohlen wird ein hybrides System (LLM-Hauptverarbeitung + OCR-Fallback). Potenzial zukünftiger Arbeiten: multimodale LLMs, Fine-Tuning und Kostenoptimierung.
Kolloquium: 03.11.2025
Betreuer: Prof. Dr. Emanuel Kitzelmann, Technische Hochschule Brandenburg; Prof. Dr. Roland Fassauer, CODE University of Applied Sciences
Download: A1-Poster, Abschlussarbeit
Lizenz: Creative Commons CC BY-NC-SA 4.0 - Namensnennung – Nicht kommerziell – Weitergabe unter gleichen Bedingungen 4.0 International
