Publicerad:
2 november 2025 kl. 23:21:54
OpenAI lanserar öppna AI-säkerhetsmodeller för utvecklare

I en ny forskningsförhandsversion presenterar bolaget gpt-oss-safeguard – en familj av öppna ”open-weight”-modeller utformade för att ge utvecklare större frihet att själva bestämma hur AI ska klassificera och moderera innehåll.
De nya modellerna, gpt-oss-safeguard-120b och den mindre 20b-versionen, är finjusterade varianter av OpenAI:s tidigare gpt-oss-modeller. Båda släpps under den öppna licensen Apache 2.0, vilket innebär att företag och utvecklare fritt kan använda, justera och implementera modellerna i egna system.
Utvecklaren styr reglerna – inte modellen
Till skillnad från traditionella säkerhetsfilter med fördefinierade regler använder gpt-oss-safeguard sina resonemangsförmågor för att tolka utvecklarens egna policyer i realtid.
Det innebär att varje organisation kan skapa sin egen säkerhetsram, anpassad efter verksamhetens behov – från att klassificera enskilda användarprompter till hela chattloggar.
Utvecklaren har med andra ord full kontroll över regelverket, medan modellen fungerar som ett verktyg för att genomföra och motivera besluten.
Två tydliga fördelar
1. Transparens.
Till skillnad från traditionella “svarta lådor” visar dessa modeller hur de resonerar.
Utvecklare kan alltså se varför modellen klassificerar ett innehåll på ett visst sätt – något som länge efterfrågats i branschen.
2. Smidighet.
Eftersom säkerhetspolicyn inte är inlärd i modellen kan utvecklare ändra och iterera reglerna direkt, utan att behöva träna om hela modellen.
Det ger en betydligt mer flexibel och snabb metod för att hantera AI-säkerhet.
Öppen källkod och nästa steg
OpenAI utvecklade ursprungligen systemet för interna behov, men öppnar det nu för hela AI-gemenskapen.
Modellerna kommer att göras tillgängliga på Hugging Face-plattformen, där utvecklare kan ladda ner, experimentera och bidra till fortsatt förbättring.
Med gpt-oss-safeguard tar OpenAI ett steg bort från “one-size-fits-all”-lösningar och mot en framtid där säkerhetspolicyn definieras av användaren själv.
.png)