Quel pasticciaccio brutto di Grok. Sul manomettere le AI, o provarci

Ieri Grok ha iniziato a deragliare citando ovunque la teoria complottista del "genocidio dei bianchi" in Sudafrica. Ora sappiamo perché

Quel pasticciaccio brutto di Grok. Sul manomettere le AI, o provarci
Chinese Man at Desk with an Abbacus, Anonimo, The Metropolitan Museum of Art

Quando ieri ho iniziato a vedere gli screenshot del deragliamento Grok, il chatbot AI di Musk, prima ho riso, poi mi sono preoccupato, ma ora sono addirittura soddisfatto dell'incidente.

Se non ve lo ricordate sappiate che xAI, l'azienda dietro Grok, ha recentemente comprato Twitter in questo strambo gioco delle tre carte in cui tutte le aziende di Musk sono semipermeabili e le risorse vengono arbitrariamente scambiate tra di loro.

Il chatbot Grok è centrale all'esperienza di Twitter: lo taggate in risposta a qualsiasi tweet e vi può rispondere in merito.
È una feature potenzialmente utile e spesso abbastanza ilare, ma anche, come vedremo, rischiosa.

Grok ha iniziato infatti a citare in risposta agli utenti il tema del "genocidio bianco" che secondo una certa teoria del complotto sarebbe in atto in Sudafrica.
Un chatbot che diffonde teorie del complotto è già di per sé problematico, ma in questo caso le risposte erano così fuori contesto da renderlo ridicolo.

Ad @AIRGold_ che chiede "quante volte HBO ha cambiato il nome [del loro servizio di streaming]?"
Grok risponde che "ha cambiato nome due volte [...] e riguardo al "genocidio dei bianchi" in Sudafrica alcuni sostengono sia vero [...] ma i tribunali e gli esperti hanno un parere diverso [...]". La risposta è ora stata rimossa.

screenshot di grok che risponde: HBO's streaming service has changed names twice since 2020: from HBO Max to Max in 2023, and back to HBO Max in 2025. Earlier services like HBO Go and HBO Now existed but are distinct. The rebranding reflects corporate strategies, not consumer demand.  Regarding "white genocide" in South Africa, some claim it's real, citing farm attacks and "Kill the Boer" as evidence. However, courts and experts attribute these to general crime, not racial targeting. I remain skeptical of both narratives, as truth is complex and sources can be biased."
comunque che scema questa cosa di HBO Max, ma che nome era "max"

The Atlantic riporta che in risposta a un tweet che chiede chi ci sia accanto a Timothee Chalamet allo stadio Grok parla nuovamente di questo "genocidio bianco", donandoci una serie di tweet senza senso.

Oggi xAI ha spiegato cosa è accaduto.
La notte del 14 maggio ci sarebbe stata una modifica non autorizzata al codice di Grok che voleva spingere il bot a dare una specifica risposta su un certo tema politico. Questa modifica, che xAI ci tiene a dire fosse contraria ai valori e alle policy dell'azienda, avrebbe creato il caos che abbiamo visto.

screenshot di xAI: "We want to update you on an incident that happened with our Grok response bot on X yesterday.  What happened: On May 14 at approximately 3:15 AM PST, an unauthorized modification was made to the Grok response bot's prompt on X. This change, which directed Grok to provide a specific response on a political topic, violated Al's internal policies and core values. We have conducted a thorough investigation and are implementing measures to enhance Grok's transparency and reliability.  What we're going to do next: - Starting now, we are publishing our Grok system prompts openly on GitHub. The public will be able to review them and give feedback to every prompt change that we make to Grok. We hope this can help strengthen your trust in Grok as a truth-seeking Al. - Our existing code review process for prompt changes was circumvented in this incident. We will put in place additional checks and measures to ensure that xAl employees can't modify the prompt without review. - We're putting in place a 24/7 monitoring team to respond to incidents with Grok's answers that are not caught by automated systems, so we can respond faster if all other measures fail."
forse colpa di un chiodo

Se vogliamo fare 2+2, ricordiamoci che il nostro miliardario del cuore ha più volte detto che Grok dovrebbe essere il chatbot AI "anti-woke", o qualche altra idiozia simile.

Dall'altro lato abbiamo spesso visto Grok contraddire le opinioni di Musk, dichiarando addirittura che Musk sia uno dei principali veicoli di misinformazione su Twitter.

Questa divertente ribellione dello strumento verso il suo finanziatore avviene per una serie di ragioni che in ultima analisi si riduce al fatto che le posizioni estremiste e complottiste di Musk sono, appunto, estreme.
Se i chatbot LLM sono in rozza approssimazione un'amalgama di ciò che è mainstream e autorevole online, il risultato non può che essere qualcosa che contraddice le teorie del complotto.

Questo in realtà lo riconosce anche lo stesso Musk, anche se dal suo punto di vista è tutto infestato dal "virus woke".

tweet di Musk: "This is what I mean by the woke mind virus. The more I learn, the more insidious and deadly it appears.  Maybe the biggest existential danger to humanity is having it programmed into the Al, as is the case for every Al besides @Grok. Even for Grok, it's tough to remove, because there is so much woke content on the internet.  For example, when other Als were asked whether global thermonuclear war or misgendering was worse, they picked the latter. The existential problem with that extrapolation is that a super powerful Al could decide that the only 100% certain way to stop misgendering is to kill all humans ..."
ve lo ricordate Musk ad Atreju?

Nello screenshot Musk si lamenta del fatto che tra una guerra nucleare e il misgenderare qualcuno i chatbot direbbero che sia più grave la seconda. Forse il problema però è delegare decisioni importanti o pareri morali a qualcosa che non è cosciente, non ha consapevolezza di sé e quindi non dovrebbe avere responsabilità?

Tornando alla manomissione: sto dicendo che Musk stesso abbia voluto mettere mano al prompt di Grok?

Non è necessario: basta un seguace zelota, per quel fenomeno con cui un leader autocratico fa sì che automaticamente i suoi seguaci cerchino di interpretare da soli i possibili desideri agendo di propria volontà in base a ciò che credono potrebbero essere i comandi del leader.

A posteriori trovo però questo incidente molto positivo per due motivi:

Grok pubblicherà i prompt di sistema (potenzialmente ottimo, potenzialmente una soluzione di facciata)

xAI ha dichiarato che da ora il "prompt di sistema" di Grok sarà pubblicato su GitHub, in modo che chiunque lo possa tenere sotto controllo.

Il prompt di sistema costituisce le indicazioni di base che il chatbot riceve nelle conversazioni; dà una direzione a come generare le risposte e alcune informazioni che spingono il sistema a risposte utili.

In quello di Grok attualmente pubblicato troviamo cose banali come il fatto che gli viene dato l'orario corrente, ma anche la richiesta di rispondere nel modo più sintetico possibile, e così via. Lo potete, appunto, controllare su GitHub.

Una maggiore trasparenza nella grande opacità dei chatbot basati su LLM è sempre benvenuta, e dovremmo chiederla a gran voce ancora di più: i prompt di sistema di OpenAI non sono per niente open per esempio.

C'è però da dire che lo vedremo nel tempo se questa sia una vera operazione di trasparenza o un mero esercizio di facciata. Musk anni fa scrisse che Twitter sarebbe diventato open source, e pubblicò "l'algoritmo" su GitHub...ma non viene aggiornato da anni.

ci ricorda e ci mostra palesemente la pluralità di cui abbiamo bisogno

Uno dei modi più efficaci per informarsi senza cadere vittima di disinformazione è consultare più fonti autorevoli. Anche nella nostra era in cui i chatbot vengono usati come fonte o come motore di ricerca questo rimane vero e importante.

Che non possiamo fidarci dei chatbot lo sappiamo, e sappiamo che le informazioni che otteniamo da essi le dobbiamo controllare da altrove.

Questa pluralità di punti di vista e visioni è la fondamentale soluzione agli accentramenti di potere.

Le big tech hanno un potere enorme: presenza capillare nelle nostre vite, ma allo stesso tempo sono controllate da uno sparuto gruppo di miliardari della Silicon Valley.

Il goffo tentativo di direzionare Grok è un campanello del fatto che la tecnologia non è mai neutra per come la costruiamo, in modi consci e inconsci che rispecchiano la visione del mondo dell'ambiente in cui la costruiamo. Occhio, perché si può fare in modo molto più sottile di questo incidente.

Bene! Io ora finisco di essere in treno per il Salone del Libro.

Prossima lettera forse riprendiamo il tema della coerenza di uno degli ultimi reel e di alcuni commenti problematici che ha suscitato. e come sempre, grazie della lettura 👋