GPT-5.6 arriva in preview con tre modelli: Sol, Terra e Luna. Non è ancora un lancio pubblico. OpenAI li sta facendo provare a un gruppo ristretto di partner, soprattutto su codice, ricerca scientifica e cybersecurity. Il dato che fa rumore è Sol: nei test di coding citati da OpenAI arriva all’88,8% su Terminal-Bench 2.1, e sale al 91,9% con la modalità Ultra.
GPT-5.6 Sol, Terra e Luna: cosa cambia per chi sviluppa

OpenAI presenta GPT-5.6 Sol come il modello più forte della nuova serie. Sol punta sui lavori lunghi da terminale: leggere file, correggere errori, usare strumenti, riprovare dopo un comando fallito. Terra cerca prestazioni vicine ai modelli maggiori con costi più bassi. Luna taglia ancora di più il costo, ma resta sotto Sol nei compiti difficili.
La parte da non prendere alla leggera è la modalità Ultra. Non lavora come un singolo modello che risponde e basta. Usa più subagenti per dividere un problema, provare strade diverse e ricucire il risultato. È utile quando devi sistemare una codebase, non quando chiedi una funzione da dieci righe.
Il confronto con Anthropic è diretto. Sol viene dato sopra Claude Mythos sul codice, mentre Terra viene indicato vicino a Claude Fable. Qui serve cautela: i benchmark aiutano, ma non dicono tutto. Un modello può vincere su Terminal-Bench e poi sbagliare su un progetto reale con dipendenze vecchie, test rotti e documentazione scritta male.
Cybersecurity: il dato sui token pesa più del numero secco
Nel campo cyber, OpenAI dice che GPT-5.6 Sol raggiunge risultati vicini a Mythos Preview usando circa un terzo dei token. In pratica può consumare meno testo generato per arrivare allo stesso tipo di risultato. Per aziende e team di sicurezza non è un dettaglio: meno token vuol dire meno costo e meno tempo speso a leggere output inutili.
OpenAI collega questi modelli anche al lavoro di difesa: ricerca di vulnerabilità, patch, debug, code review e test controllati. La pagina su Daybreak per la cybersecurity va nella stessa direzione. Il nodo resta sempre lo stesso: uno strumento che trova bug può aiutare chi li corregge, ma può anche aiutare chi vuole sfruttarli.
Qui entrano i limiti dichiarati. OpenAI scrive che Sol non supera la soglia Cyber Critical del suo Preparedness Framework. Nei test su Chromium e Firefox avrebbe trovato bug e pezzi utili per costruire exploit, ma non una catena completa funzionante nelle condizioni provate. È una distinzione tecnica, ma pesa: trovare un pezzo non è uguale a chiudere un attacco dall’inizio alla fine.
Accesso limitato e governo USA: OpenAI si muove con prudenza
La preview di GPT-5.6 non arriva libera per tutti. OpenAI parla di partner fidati e di piani mostrati in anticipo al governo americano. La scelta si lega al dibattito sui modelli frontier e alle regole nate negli Stati Uniti nelle ultime settimane, tema già visto con OpenAI e l’ordine AI di Trump.
La mossa ha anche una lettura commerciale. OpenAI vuole evitare blocchi prima del lancio e intanto risponde ad Anthropic sul terreno più redditizio: sviluppatori, aziende e difensori cyber. Non è un caso che il racconto passi dal codice. Anche Codex nell’app ChatGPT per iPhone e Android va verso lo stesso pubblico: chi usa l’AI per lavorare sul software, non solo per scrivere testi.
- Sol: modello di punta, forte su codice e sicurezza
- Terra: prestazioni alte con costo più basso
- Luna: modello più leggero della serie
- Ultra: modalità con più subagenti per compiti lunghi
Il punto da controllare ora è uno: quando GPT-5.6 uscirà dai test chiusi, i numeri reggeranno anche fuori dai benchmark? Se Sol mantiene quei risultati su repository reali, bug sporchi e ambienti aziendali poco ordinati, allora OpenAI avrà una carta pesante contro Anthropic. Se invece resta forte solo nei test pubblicati, per gli sviluppatori cambierà meno di quanto sembri oggi.