Augmentic BV
Haaswijkweg oost 12B
3319 GC Dordrecht
The Netherlands
Augmentic BV
Haaswijkweg oost 12B
3319 GC Dordrecht
The Netherlands
AI-agents presteren in R&D-taken soms beter dan menselijke experts, zo toont de RE-Bench-benchmark van METR. Vooral bij korte, technische opdrachten blinken modellen als Claude 3.5 en o1-preview uit. De benchmark helpt de vooruitgang en risico’s van autonome AI in onderzoek te volgen — essentieel voor verantwoord gebruik in R&D.
Het artikel “Evaluating frontier AI R&D capabilities of language model agents against human experts” introduceert RE-Bench, een nieuwe benchmark ontwikkeld door METR om de prestaties van zowel menselijke experts als geavanceerde AI-modellen te meten op het gebied van machine learning (ML) onderzoek en engineering. Deze benchmark omvat zeven specifieke omgevingen, elk gericht op een unieke onderzoekstaak, zoals het afleiden van een schaalwet of het optimaliseren van een GPU-kernel. De taken zijn zorgvuldig geselecteerd in samenwerking met ML-onderzoekers uit zowel de academische wereld als de industrie, om realisme en diversiteit te waarborgen.
In de evaluatie werden AI-agenten, zoals Anthropic’s Claude 3.5 Sonnet en OpenAI’s o1-preview, vergeleken met menselijke experts. Bij een tijdslimiet van twee uur presteerden de AI-agenten over het algemeen beter dan de menselijke deelnemers. Echter, bij langere tijdsbudgetten namen de menselijke experts de leiding, wat suggereert dat AI-agenten moeite hebben met het effectief benutten van langere tijdsperioden en het adequaat reageren op nieuwe informatie.
Een opvallend resultaat werd waargenomen in een taak waarbij de agenten een aangepaste kernel moesten schrijven om de uitvoeringstijd van een prefix-somoperatie te verkorten. De o1-preview agent ontwikkelde een oplossing die de beste menselijke score overtrof door innovatieve CUDA-kernels te implementeren en verschillende parameters te testen. Dit toont aan dat, hoewel AI-agenten uitdagingen ondervinden bij het aanpassen aan nieuwe informatie over langere perioden, ze in staat zijn om met minimale begeleiding efficiënte en geavanceerde oplossingen te genereren.
De ontwikkeling van benchmarks zoals RE-Bench is cruciaal voor het monitoren van de voortgang en potentiële risico’s van autonome AI in onderzoeks- en ontwikkelingsomgevingen. Zowel het Witte Huis als de EU hebben het belang benadrukt van het evalueren van AI-capaciteiten in R&D-contexten, zoals vermeld in respectievelijk de National Security Memorandum on AI en de EU Artificial Intelligence Act. Door de open-source beschikbaarheid van RE-Bench en de bijbehorende gegevens hoopt METR bij te dragen aan het opstellen van evaluaties voor het identificeren van gevaarlijke niveaus van autonome AI R&D-capaciteiten.
Bron : Evaluating frontier AI R&D capabilities of language model agents against human experts