LLMs for Code

Startups, Projects, and Blog Posts

LogicStar

LogicStar develops autonomous AI for software engineering.

BaxBench

BaxBench is a reliable benchmark for AI software security.

Coding Agents Are "Fixing" Correct Code

Coding agents fail to recognize already-correct code.

Publications

2026

Generative Compilation: On-the-Fly Compiler Feedback as AI Generates Code

Niels Mündler-Sasahara*, Hristo Venev*, Dawn Song, Martin Vechev, Jingxuan He

arXiv 2026 * Equal contribution

Paper

Code

AutoBaxBuilder: Bootstrapping Code Security Benchmarking

Tobias von Arx, Niels Mündler, Mark Vero, Maximilian Baader, Martin Vechev

ICML 2026

Paper

Code

Leveraging Instruction Tuning and Merging for Reasoning Model Adaptation

Yu-Du Feng*, Niels Mündler-Sasahara*, Mark Vero, Martin Vechev

DEMO @ ICML 2026 * Equal contribution CC BY 4.0 by @fontawesome - https://fontawesome.com

Oral

Talk

Paper

Code

Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots

Mark Vero, Fabian Kaczmarczyck, Ivan Petrov, Ilia Shumailov, Jamie Hayes, Niels Heinen, Tianqi Fan, Luca Invernizzi, Martin Vechev

arXiv 2026

Website

Paper

Code

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

Alex Thillen, Niels Mündler, Veselin Raychev, Martin Vechev

ICML 2026

Website

Paper

Code

Coding Agents Don't Know When to Act

Thibaud Gloaguen, Niels Mündler, Mark Niklas Mueller, Veselin Raychev, Martin Vechev

AIWILD @ ICML 2026

Paper

SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization

Hao Wang, Niels Mündler, Mark Vero, Jingxuan He, Dawn Song, Martin Vechev

arXiv 2026

Paper

Code

Constrained Decoding of Diffusion LLMs with Context-Free Grammars

Niels Mündler, Jasper Dekoninck, Martin Vechev

ICLR 2026 CC BY 4.0 by @fontawesome - https://fontawesome.com

DL4C @ NeurIPS'25 Oral

Talk

Website

Paper

Code

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

Thibaud Gloaguen, Niels Mündler, Mark Niklas Müller, Veselin Raychev, Martin Vechev

MemAgents @ ICLR 2026 CC BY 4.0 by @fontawesome - https://fontawesome.com

Oral & Runner-up Best Paper

Talk

Paper

Code

2025

BaxBench: Can LLMs Generate Secure and Correct Backends?

Mark Vero, Niels Mündler, Victor Chibotaru, Veselin Raychev, Maximilian Baader, Nikola Jovanović, Jingxuan He, Martin Vechev

ICML 2025 CC BY 4.0 by @fontawesome - https://fontawesome.com

Spotlight

Website

Paper

Code

Black-Box Adversarial Attacks on LLM-Based Code Completion

Slobodan Jenko*, Niels Mündler*, Jingxuan He, Mark Vero, Martin Vechev

ICML 2025 * Equal contribution

Paper

Type-Constrained Code Generation with Language Models

Niels Mündler^†, Jingxuan He^†, Hao Wang, Koushik Sen, Dawn Song, Martin Vechev

PLDI 2025 † Co-leadership

Slides

Talk

Paper

Code

Automated Benchmark Generation for Repository-Level Coding Tasks

Konstantinos Vergopoulos*, Mark Niklas Müller*, Martin Vechev

ICML 2025 * Equal contribution

Paper

Code

2024

Instruction Tuning for Secure Code Generation

Jingxuan He*, Mark Vero*, Gabriela Krasnopolska, Martin Vechev

ICML 2024 * Equal contribution

Paper

Code

SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents

Niels Mündler, Mark Niklas Müller, Jingxuan He, Martin Vechev

NeurIPS 2024

Talk

Website

Paper

Code

2023

Large Language Models for Code: Security Hardening and Adversarial Testing

Jingxuan He, Martin Vechev

ACM CCS 2023 CC BY 4.0 by @fontawesome - https://fontawesome.com

Distinguished Paper Award

Slides

Paper

Code