In dieser Podcast-Folge von „Code for Thought“ reden Carina Haupt (DLR) und ich mit Host Peter Schmid über Large Language Models im Research Software Engineering: Was können Copilot & Co. heute zuverlässig, wo stoßen sie im Projektalltag an Grenzen, und wie bewerten wir das nüchtern statt hype-getrieben? Ich schildere mein aktuelles Thema - Paper-Code-Matching über Embeddings auf Projektebene - und warum kontextarme Modelle bei echten Repos oft danebengreifen. Carina bringt die Anwendungssicht ein: Wo helfen LLMs Forschenden ohne tiefen Informatik-Background tatsächlich (Routine-Tasks, Tests, kleine Skripte) und wo wird’s heikel (Builds, Requirements, Projektkontext)?
Wir sprechen außerdem über Evaluation: Benchmarks sind hilfreich, aber selten repräsentativ für reale Workflows. Wichtig sind gute Ground-Truths, Wiederholbarkeit und das Bewusstsein, dass LLM-Antworten nicht deterministisch sind. Ein Punkt, der gerne untergeht: Die Arbeit verlagert sich - schnelleres Generieren bedeutet oft mehr Review & Debugging. Und ja, auch Ressourcenkosten gehören zur Abwägung.
Fazit: Der erste Hype ist durch, der praktische Nutzen bleibt—wenn man Aufgaben passend zuschneidet, Kontext richtig zuführt und Ergebnisse kritisch prüft. Genau an diesen Stellschrauben forschen wir, damit LLMs bei Forschungscode wirklich helfen statt nur beeindruckend zu klingen.
Die Episode ist verfügbar auf der Code for Thought Website sowie zum Beispiel Spotify und Youtube.