Torna al blogTecnologia

Gemini ora controlla computer: Cosa cambia per le PMI

Google DeepMind annuncia Gemini con controllo dei computer e l'esecuzione di attività concatenate. Comprenda l'impatto reale per le imprese.

Pubblicato il05 giugno 20265 min di letturaFabian Martinelli

Gemini ora controlla computer: Cosa cambia per le PMI

Google DeepMind ha appena oltrepassato una frontiera che separa il chatbot dall'agente: i modelli Gemini ora sono in grado di controllare interfacce di computer, navigare tra applicazioni, compilare moduli, eseguire ricerche e concatenare più azioni per completare attività complesse, il tutto in modo autonomo, senza che una persona debba cliccare in ogni passaggio.

Non si tratta di un aggiornamento cosmetico. È un cambiamento di paradigma su cosa significa "usare l'IA" nella quotidianità di un'azienda.

Dalle risposte all'esecuzione, cosa sta facendo ora Gemini

Fino a poco tempo fa, modelli di linguaggio come Gemini, GPT-4 o Claude funzionavano essenzialmente come consulenti testuali: si chiedeva, loro rispondevano. L'intelligenza era nella risposta, ma l'esecuzione dipendeva ancora da una persona o da un'integrazione tecnica personalizzata.

Quello che Google DeepMind sta ampliando ora è diverso: Gemini può agire come un operatore software. Osserva lo schermo, comprende il contesto visivo dell'interfaccia, decide quali azioni intraprendere e le esegue in sequenza. In pratica può aprire un browser, cercare un fornitore, copiare dati in un foglio di calcolo, inviare un'e-mail con il risultato, il tutto in un unico flusso continuo avviato da un'istruzione in linguaggio naturale.

Questa capacità ha un nome tecnico: computer use o controllo del desktop da parte di agenti di IA. Anthropic è stata una delle prime a dimostrare qualcosa di simile con Claude nell'ottobre 2024. Google ora accelera la propria versione, integrando questo comportamento direttamente nella famiglia Gemini, modelli già integrati in Google Workspace, in Android e in strumenti come NotebookLM.

Come funziona nella pratica

Il modello riceve un obiettivo in linguaggio naturale, "ricerca i tre principali fornitori di imballaggi sul mercato e compila i prezzi in un documento". A partire da lì pianifica i passi, interagisce con applicazioni reali (browser, foglio di calcolo, e-mail) e consegna il risultato.

Il processo combina tre capacità: visione artificiale (per capire cosa c'è sullo schermo), ragionamento di pianificazione (per decidere la sequenza di azioni) e esecuzione motoria (per simulare clic, digitazione e navigazione). È ciò che l'industria chiama agente multimodale per attività di lunga durata, diverso da un agente semplice che risponde a un singolo prompt.

Perché questo è importante per chi gestisce una PMI in Brasile

Sarò diretto: per anni ho aiutato piccole e medie imprese in Brasile, in Italia e negli Stati Uniti ad adottare automazione. Il principale ostacolo non è mai stato la mancanza di interesse, ma costo e complessità tecnica. Automatizzare un processo di back-office richiedeva uno sviluppatore, un budget di integrazione e settimane di mappatura.

Con agenti che controllano i computer, usando interfacce che già esistono, questo ostacolo si riduce drasticamente. Una PMI non ha più bisogno che un sistema legacy esponga un'API per automatizzare un'attività. Se una persona riesce a farlo cliccando sullo schermo, anche l'agente può farlo.

Tre casi d'uso concreti per le PMI

1. Ricerca e prospezione commerciale: Un agente Gemini può cercare potenziali clienti su LinkedIn, siti di settore e registri pubblici, compilare una lista qualificata con contatti e dati rilevanti ed esportarla direttamente nel CRM, senza che il venditore perda ore in lavoro manuale.

2. Riconciliazione finanziaria: Aprire il sistema di gestione, l'estratto conto bancario in PDF e il foglio dei conti da pagare, incrociare i dati e segnalare discrepanze è il tipo di attività ripetitiva e ad alto volume che sottrae tempo alle squadre finanziarie in aziende da 10 a 200 dipendenti.

3. Assistenza post-vendita e follow-up: Verificare lo stato degli ordini in sistemi interni, redigere e-mail personalizzate di risposta al cliente e registrare l'interazione nella cronologia, tutto senza aprire un ticket per la IT.

Questi non sono casi ipotetici. Sono flussi che mappo con i clienti settimanalmente. La differenza è che, fino ad ora, l'automazione di queste attività richiedeva RPA (Robotic Process Automation) con strumenti come UiPath o Automation Anywhere, soluzioni potenti ma con curva di implementazione e costi di licenza che molte PMI non possono assorbire.

Cosa cambia nella governance e nel rischio

Agenti che eseguono attività autonome in sistemi reali creano un nuovo vettore di rischio. Se il modello interpreta male l'istruzione o trova uno stato imprevisto nell'interfaccia, può eseguire un'azione errata, cancellare un file, inviare un'e-mail al destinatario sbagliato o sottomettere un modulo con dati non corretti.

Questo pone la governance dell'IA al centro dell'agenda operativa, non solo in quella IT. Le aziende devono definire:

Quali attività l'agente può eseguire senza revisione umana
Quali richiedono approvazione prima dell'esecuzione finale
Come auditare la cronologia delle azioni dell'agente
Chi è responsabile quando qualcosa va storto

Nel contesto brasiliano, questo aggiunge un livello in più: la LGPD impone obblighi sul trattamento automatizzato dei dati personali. Un agente che accede a sistemi con dati di clienti e fornitori necessita di una politica chiara di utilizzo e conservazione.

Cosa fare ora

La capacità degli agenti di controllare i computer non è ancora matura a sufficienza per sostituire processi critici senza supervisione umana. Tuttavia è matura a sufficienza per pilotaggi controllati su attività di rischio medio e ad alto volume.

La mia raccomandazione per chi guida una PMI: iniziate dalla mappatura. Identificate le tre attività che consumano più tempo in modo ripetitivo nella vostra operazione e valutate quali di esse un agente potrebbe eseguire sotto supervisione. Non aspettate il prodotto perfetto. Le aziende che stanno conducendo pilot oggi avranno un vantaggio di apprendimento significativo quando la tecnologia si scalherà.

Gemini che controlla i computer non è fantascienza. È il passo successivo di una curva già iniziata, e chi ridisegnerà i propri flussi di lavoro prima della curva raccoglierà i risultati dopo di essa.