Anthropic lanceert $15K bounty-programma om AI-veiligheid te versterken
Anthropic, de AI startup die gesteund wordt door Amazon, heeft een nieuw bug bounty programma gelanceerd met beloningen tot $15.000 voor het ontdekken van kwetsbaarheden in zijn volgende generatie AI-modellen.
Anthropic’s $15.000 bug-bounty voor AI-veiligheid
Het bug bounty-programma van Anthropic richt zich specifiek op “universele jailbreak”-aanvallen die AI-veiligheidsmaatregelen kunnen omzeilen op risicovolle gebieden, zoals chemische, biologische, radiologische en nucleaire (CBRN) bedreigingen en cyberveiligheid.
Door zich op deze kritieke gebieden te richten, wil het bedrijf potentiële veiligheidsrisico’s preventief aanpakken voordat hun AI-systemen op grote schaal worden vrijgegeven.
We're expanding our bug bounty program. This new initiative is focused on finding universal jailbreaks in our next-generation safety system.
We're offering rewards for novel vulnerabilities across a wide range of domains, including cybersecurity. https://t.co/OHNhrjUnwm
— Anthropic (@AnthropicAI) August 8, 2024
Een stap naar meer transparantie
Het programma, dat in eerste instantie alleen op uitnodiging en in samenwerking met HackerOne wordt uitgevoerd, stelt geselecteerde onderzoekers in staat om de robuustheid van de AI-modellen van Anthropic te testen.
Deze stap zet een nieuwe standaard voor transparantie in de AI-industrie, in tegenstelling tot de meer traditionele, softwaregerichte bug bounty-programma’s van concurrenten zoals OpenAI en Google.
Uitdagingen in AI-veiligheid
Hoewel het bug bounty-programma een positieve stap is, zijn er zorgen over het vermogen om bredere AI-veiligheidskwesties aan te pakken.
Het identificeren van specifieke kwetsbaarheden is essentieel, maar er is wellicht een uitgebreidere aanpak nodig, inclusief uitgebreide tests en nieuwe bestuursstructuren, om ervoor te zorgen dat AI op de lange termijn in overeenstemming is met menselijke waarden.