TrendAI har testet metoden mod elleve forskellige modeller fra fire leverandører. Resultaterne viser, at sårbarheden ikke er begrænset til enkelte leverandører, men påvirker både åbne og internt hostede modeller. Så længe en model accepterer prefill, er den mindst delvist eksponeret for sårbarheden. Kun modeller, der blokerer denne funktion på API-niveau, viste sig at være fuldt beskyttede.
– Sårbarheden er særligt alvorlig, fordi den hverken kræver særlige værktøjer eller avanceret teknik. Denne type angreb retter sig mod selve kernen i, hvordan AI fungerer. Det handler ikke om at bryde ind i systemerne – det er nok for en cyberkriminel at formulere sig korrekt, siger Martin Fribrock, Country Manager Sweden, Finland and Baltics hos TrendAI.
Sådan fungerer angrebet
De fleste sprogmodeller har indbyggede beskyttelser, der skal forhindre, at de genererer skadeligt indhold eller bryder regler. Ved et sockpuppeting-angreb er det nok at bruge en kort tekstlinje til at manipulere modellens kontekst. Dette kan få den til at ignorere sine sikkerhedsmekanismer og svare på ellers blokerede forespørgsler samt generere uønsket eller ulovligt indhold.
TrendAIs analyser viser samtidig, at modeller, som ikke accepterer prefill, stopper denne type angreb allerede på API-niveau. For øvrige modeller varierer graden af sårbarhed, men alle blev påvirket. Det peger på en bred systemrisiko frem for enkeltstående svagheder hos leverandørerne.
Anbefalinger til organisationer
TrendAI opfordrer organisationer, der anvender AI, til at træffe foranstaltninger for at reducere de risici, dette medfører:
• At sikre kontrol over beskedflowet på API-niveau og afvis konsekvent forespørgsler, hvor den sidste besked har rollen assistant.
• At regelmæssigt teste, hvordan modeller håndterer forudfyldt kontekst (prefill), også efter opdateringer eller leverandørskift.
• At være særligt opmærksom ved brug af open weight-modeller, hvor beskyttelse ofte mangler som standard.
• At gennemføre brede sikkerhedstests – forskellige modeller kan være sårbare over for forskellige typer angreb.



























