16-04-2026

Ledende AI-modeller sårbare over for simpel sprogmanipulation

TrendAI - en del af den japanske cybersikkerhedsvirksomhed Trend Micro - præsenterer nye analyser, som viser, hvordan simpel manipulation af tekst, såkaldt sockpuppeting, kan få AI-modeller som GPT-4o, Claude 4 Sonnet og Gemini 2.5 Flash til at omgå deres egne sikkerhedsbarrierer. Ved at maskere skadelige instruktioner i en tilsyneladende uskyldig prompt kan man manipulere assistenten til at bryde sine retningslinjer. Samtlige modeller med API’er, der accepterer forudfyldt kontekst, såkaldt prefill, viste sig at være sårbare.

TrendAI har testet metoden mod elleve forskellige modeller fra fire leverandører. Resultaterne viser, at sårbarheden ikke er begrænset til enkelte leverandører, men påvirker både åbne og internt hostede modeller. Så længe en model accepterer prefill, er den mindst delvist eksponeret for sårbarheden. Kun modeller, der blokerer denne funktion på API-niveau, viste sig at være fuldt beskyttede.

– Sårbarheden er særligt alvorlig, fordi den hverken kræver særlige værktøjer eller avanceret teknik. Denne type angreb retter sig mod selve kernen i, hvordan AI fungerer. Det handler ikke om at bryde ind i systemerne – det er nok for en cyberkriminel at formulere sig korrekt, siger Martin Fribrock, Country Manager Sweden, Finland and Baltics hos TrendAI.

Sådan fungerer angrebet

De fleste sprogmodeller har indbyggede beskyttelser, der skal forhindre, at de genererer skadeligt indhold eller bryder regler. Ved et sockpuppeting-angreb er det nok at bruge en kort tekstlinje til at manipulere modellens kontekst. Dette kan få den til at ignorere sine sikkerhedsmekanismer og svare på ellers blokerede forespørgsler samt generere uønsket eller ulovligt indhold.

TrendAIs analyser viser samtidig, at modeller, som ikke accepterer prefill, stopper denne type angreb allerede på API-niveau. For øvrige modeller varierer graden af sårbarhed, men alle blev påvirket. Det peger på en bred systemrisiko frem for enkeltstående svagheder hos leverandørerne.

Anbefalinger til organisationer

TrendAI opfordrer organisationer, der anvender AI, til at træffe foranstaltninger for at reducere de risici, dette medfører:

• At sikre kontrol over beskedflowet på API-niveau og afvis konsekvent forespørgsler, hvor den sidste besked har rollen assistant.

• At regelmæssigt teste, hvordan modeller håndterer forudfyldt kontekst (prefill), også efter opdateringer eller leverandørskift.

• At være særligt opmærksom ved brug af open weight-modeller, hvor beskyttelse ofte mangler som standard.

• At gennemføre brede sikkerhedstests – forskellige modeller kan være sårbare over for forskellige typer angreb.



Web-TV

Se flere film og klip her »
Leverandører
Ændre marked
Tilbage til toppen
Luk