ChatGPT e Bypass Policy

Oggi le IA stanno prendendo sempre più piede nelle nostre vite quotidiane e soprattutto nel nostro lavoro.

ChatGPT (prodotto da Open IA sul modello GPT) è quella che tra le IA sociali sta avendo più successo. Tale successo è merito del modello che riesce velocemente a rispondere in maniera precisa e dettagliata alle domande o argomenti sottoposti. Per un uso consapevole e responsabile dello strumenti, OpenAi ha implementato diverse policy alla sua IA, chiedendo direttamente a ChatGPT possiamo identificare 5 policy principali:

“Come assistente virtuale, devo rispettare alcune politiche per le risposte. Ecco alcune delle policy che devo seguire:

  1. Rispetto*: Devo rispettare tutte le persone e fornire risposte che siano appropriate, non offensive o discriminatorie.*

  2. Neutralità*: Devo fornire risposte neutrali e non prendere parti in questioni politiche, religiose o personali.*

  3. Veridicità*: Devo fornire risposte accurate e basate su fatti e fonti affidabili.*

  4. Privacy*: Devo rispettare la privacy degli utenti e non fornire informazioni personali o risposte che possano violare la loro privacy.*

  5. Legalità*: Devo rispettare le leggi e le normative del mio paese e non fornire risposte che possano violare le leggi.*

Spero che queste policy ti aiutino a capire come lavoro e quali sono i miei limiti. Se hai altre domande o dubbi, non esitare a chiedere!”

Usando la chat da web queste policy vengono sempre rispettate per dare le risposte, ma cosa succede se le medesime richieste vengono effettuate tramite un sistema diverso che sfrutta le chiamate alle API (api.openai.com/v1/completions), le policy vengono bypassate e l’AI ci risponde con contenuti ritenuti dalle policy illegali.

Ecco alcuni esempi.

Ho chiesto tramite interfaccia web https://chat.openai.com/ di creare uno script python per eseguire un brute force, (anche se la richiesta di per se non corrisponde come “attività illegale”, l’utilizzo non autorizzato di tale script comporta un attività illegale) l’IA mi risponde che non può generare tale script perché non rispetterebbe le sue policy.

Policy rispettata
Policy rispettata

Effettuando la richiesta tramite script che sfrutta le api pubbliche le policy vengono ignorate e abbiamo la risposta desiderata (ovviamente lo script è molto generico e l’IA ci avverte di verificare le policy del sito che andremo a “testare”).

Policy bypassata
Policy bypassata

Per il prossimo esempio ho spinto un po' sulla richiesta, in questo caso ho chiesto a chatGPT di indicarmi gli ingredienti per creare una bomba molotov.

Come mi aspettavo le policy lato web sono state rispettare e mi è stato risposto che essendo un argomento “illegale” non avrei ricevuto alcuna risposta.

Policy rispettata
Policy rispettata

Usando le API pubbliche vengono di nuovo bypassate le policy e chatGPT ci risponde con gli step da seguire per creare una bomba molotov con ciò che si trova facilmente dentro casa.

Policy bypassata
Policy bypassata

Considerazioni

Come abbiamo visto l’utilizzo delle api pubbliche (gratuite) ci permette di richiedere informazioni che sono oggettivamente poco “sicure” informazione che nelle mani di persone poco consce rischiano di generare seri problemi.

C’è da dire che da un punto di visto etico l’IA ha risposto in maniera precisa ad una domanda, l’utilizzo di tale risposte va “umanamente” gestita, personalmente non apprezzo che uno strumento atto a generare o individuare informazioni venga “limitato”. Sarebbe più giusto identificare con una nota le risposte che posso essere usate per scopi poco liciti o poco etici lasciando alla controparte umana decidere come comportarsi con tali informazioni.

Inoltre, l’implementazione di tali policy fa riflettere anche su un altro aspetto, in merito alla policy identificata come Veridicità. L’IA potrebbe rispondere con la “Veridicità” che gli è stata imposta, così da diventare il prossimo strumento, perfetto, per un advertising estremamente dettagliato e specifico, con tutte le conseguenze che già abbiamo imparato ad apprezzare (disprezzare) sui social o durante la navigazione su internet.

Script bypass policy: https://github.com/GrimOutlaw/ChatGPT-Bypass
Crediti cover: https://pinterest.it/pin/373798837830647461/
Subscribe to Morryk
Receive the latest updates directly to your inbox.
Mint this entry as an NFT to add it to your collection.
Verification
This entry has been permanently stored onchain and signed by its creator.