Una carrellata di novità nel mondo dell'IA: OpenAI cambia il funzionamento del browser Atlas, Reddit cita Perplexity per lo scraping dei dati, Anthropic lancia Claude Code nel browser e Meta introduce un hub sicuro per gli agenti di IA.

OpenAI lancia il browser ChatGPT Atlas

OpenAI představilo ChatGPT Atlas, un nuovo browser web che integra direttamente ChatGPT e la modalità agente. L'intelligenza artificiale è in grado di comprendere il contenuto delle pagine, di ricordare il contesto tra le varie sessioni e di eseguire operazioni senza che l'utente abbandoni la pagina corrente. Il browser include una funzione opzionale di „memoria del browser“ che consente a ChatGPT di richiamare i dettagli delle pagine visitate in precedenza per fornire un'assistenza più personalizzata; tuttavia, gli utenti hanno il controllo su quali informazioni vengono salvate o eliminate. Atlas offre anche un'anteprima della modalità agente per gli utenti a pagamento, che consente a ChatGPT di condurre autonomamente ricerche sul web, riempire carrelli della spesa o compilare documenti direttamente nel browser. Atlas riflette gli sforzi di OpenAI per orientarsi verso sistemi di intelligenza artificiale basati su agenti in grado di gestire attività informatiche di routine, anche se l'azienda riconosce i rischi legati a bug e vulnerabilità alle istruzioni dannose. ChatGPT Atlas è ora disponibile su macOS per gli utenti Free, Plus, Pro e Go; le versioni per Windows, iOS e Android sono in arrivo.

DeepSeek pilota il modello OCR di compressione del testo

DeepSeek vydal DeepSeek-OCR, Un modello visio-linguistico che converte i documenti di testo in rappresentazioni visive compatte, utilizzando un numero di token significativamente inferiore rispetto al testo originale. Il modello raggiunge 97% přesnosti quando si comprime il testo con un rapporto di 10:1 e si mantiene la 60% přesnost anche con una compressione di 20:1, renderizzando il testo come immagini e codificandole in token visivi, che i modelli linguistici decodificano poi in testo. Nel benchmark OmniDocBench, DeepSeek-OCR supera i modelli concorrenti utilizzando un numero significativamente inferiore di token - solo 100 gettoni per pagina rispetto ai 256 di GOT-OCR2.0 e meno di 800 tokens rispetto agli oltre 6.000 di MinerU2.0. Questa tecnica di compressione potrebbe consentire un'elaborazione più efficiente dei contesti lunghi nei modelli linguistici di grandi dimensioni. Il codice e i pesi del modello sono disponibili pubblicamente su GitHub.

Claude Code lancia la versione web con agenti paralleli

Anthropic ha rilasciato una versione web Claude Code, che consente agli sviluppatori di eseguire simultaneamente più lavori di codifica su diversi repository GitHub direttamente dal browser. Il servizio viene eseguito su un'infrastruttura cloud gestita da Anthropic, con ogni lavoro eseguito in in un ambiente sandbox isolato, Come per le versioni a riga di comando e IDE, gli sviluppatori possono utilizzare l'interfaccia web di Claude Code per la correzione di bug, attività di routine, test, modifiche al backend, richieste di pull e documentazione. Questo approccio basato sul cloud suggerisce uno spostamento verso agenti di intelligenza artificiale che gestiscono il lavoro degli sviluppatori in modo indipendente in ambienti gestiti. Claude Code for Web è ora disponibile in anteprima per gli abbonati a Claude Pro e Max.

Reddit cita in giudizio Perplexity AI e altre aziende per furto di dati

Reddit ha intentato una causa contro Perplexity AI e altre tre società - Oxylabs, AWMProxy e SerpApi - con l'accusa di aver scaricato illegalmente milioni di commenti degli utenti per uso commerciale. La causa, depositata presso la corte federale di New York, accusa le società di aver aggirato le misure anti-scraping di Reddit e di aver estratto contenuti dai risultati di ricerca di Google quando l'accesso diretto era bloccato. Reddit ha utilizzato una tecnica innovativa: ha creato un post di prova che poteva essere scansionato solo dal motore di ricerca di Google e poi, dopo che i dati del post sono apparsi su Perplexity nel giro di poche ore, lo ha citato come prova. La causa evidenzia le crescenti tensioni sulle modalità con cui le aziende di IA si procurano i dati di addestramento. Perplexity e le altre aziende convenute negano le accuse e hanno dichiarato che si difenderanno nella causa.

Meta e Hugging Face lanciano un hub per ambienti di agenti di intelligenza artificiale

OpenEnv Hub è una nuova piattaforma comunitaria in cui gli sviluppatori possono creare, condividere e scoprire ambienti standardizzati per agenti AI. Gli ambienti per gli agenti di intelligenza artificiale definiscono gli strumenti, le API, i login e il contesto di esecuzione di cui un agente ha bisogno per eseguire compiti specifici in un ambiente sicuro e protetto che funzioni per l'addestramento e la distribuzione. L'Hub sarà lanciato a breve con gli ambienti iniziali che gli sviluppatori potranno testare e la specifica OpenEnv 0.1 è già stata rilasciata per il feedback della comunità. Questa iniziativa affronta una sfida fondamentale nello sviluppo di agenti di intelligenza artificiale: i modelli linguistici di grandi dimensioni hanno bisogno di accedere a strumenti adeguati, ma esporre direttamente milioni di strumenti non è né sicuro né pratico. Meta sta integrando OpenEnv con la sua libreria RL TorchForge e sta lavorando per estendere la compatibilità con progetti open-source come verl, TRL e SkyRL.

GigaBrain-0 utilizza dati sintetici per addestrare i robot

I ricercatori hanno presentato GigaBrain-0, un modello visio-linguistico-azione che addestra i robot utilizzando dati sintetici generati da world modely, Il sistema genera scenari di addestramento cambiando l'aspetto degli oggetti, la loro posizione, le condizioni di illuminazione e le angolazioni della telecamera per ottenere dati di addestramento più diversificati di quelli che la maggior parte dei robot ottiene dall'osservazione del mondo reale.„catena di pensiero incarnata“per suddividere compiti complessi in fasi intermedie. I test sulla manipolazione, sui compiti lunghi e sulla manipolazione mobile hanno dimostrato che GigaBrain-0 ha superato il modello di benchmark π0 di 10-30 procent . Tým také vydal GigaBrain-0-Small, una versione leggera che viene eseguita 10 volte più velocemente sui dispositivi edge, pur mantenendo prestazioni analoghe.

The Batch - DeepLearning.AI di Andrew Ng / gnews.cz - GH