Könnyebb rávenni bűnre a mesterséges intelligenciát, mint gondolná

Mindössze 250 fájl és kész.

Tenyek.hu

2025. október 10., péntek 19:26

Vágólapra másolva!

Az Anthropic, az amerikai mesterséges intelligenciával foglalkozó vállalat, amely nagy nyelvi modellek biztonságára specializálódott, új kutatást publikált a nyelvi modellek adatmérgezéses sebezhetőségéről, a brit AI Security Institute és az Alan Turing Institute együttműködésével.

A vizsgálat szerint mindössze 250 rosszindulatú dokumentum elegendő ahhoz, hogy hátsó kaput (backdoor) hozzanak létre egy nagy nyelvi modellben, függetlenül a modell méretétől vagy a tanítóadat mennyiségétől. Ez azt jelenti, hogy az adatmérgezéses támadások sokkal könnyebben kivitelezhetők, mint korábban gondolták.

A fotó illusztráció: Shutterstock

A kutatás a Claude-hoz hasonló, nagyméretű nyelvi modelleket vizsgálta, amelyek az interneten található hatalmas mennyiségű nyilvános szövegből tanulnak (Claude egy ilyen fejlett AI-chatmodell). Rosszindulatú szereplők így célzottan mérgezett tartalmat juttathatnak be, ami a modell nem kívánt viselkedését idézheti elő.

A vizsgálat kimutatta, hogy a mérgezett dokumentumok száma szinte állandó, akár egy 600 millió, akár egy 13 milliárd paraméteres modellről van szó. A kutatók hangsúlyozzák: ez a jelenség nagyobb kockázatot jelenthet a jövőben, és további vizsgálatokat igényel a védekezési stratégiák kidolgozásához.