Přehled nejdůležitějších událostí ve světě AI: OpenAI mění práci s webem prohlížečem Atlas, Reddit žaluje Perplexity za scrapování dat, Anthropic spouští Claude Code v prohlížeči a Meta představuje bezpečný hub pro AI agenty.
OpenAI uvádí prohlížeč ChatGPT Atlas
OpenAI představilo ChatGPT Atlas, nový webový prohlížeč, který přímo integruje ChatGPT a agentní režim. AI dokáže rozumět obsahu stránky, pamatovat si kontext napříč relacemi a plnit úkoly, aniž by uživatel opustil svou aktuální stránku. Prohlížeč obsahuje volitelnou funkci „browser memories“, která umožňuje ChatGPT vybavovat si detaily z dříve navštívených stránek a poskytovat tak personalizovanější asistenci; uživatelé ale mají kontrolu nad tím, jaké informace se ukládají nebo mažou. Atlas také nabízí náhled agentního režimu pro placené uživatele, což ChatGPT umožňuje autonomně provádět weový výzkum, plnit nákupní košíky nebo kompilovat dokumenty přímo v prohlížeči. Atlas reflektuje snahu OpenAI posunout se k agentním AI systémům, které zvládnou rutinní výpočetní úkoly, ačkoli společnost přiznává rizika včetně chyb a zranitelnosti vůči škodlivým pokynům. ChatGPT Atlas je nyní k dispozici na macOS pro uživatele Free, Plus, Pro a Go; verze pro Windows, iOS a Android přijdou brzy.
DeepSeek pilotuje model OCR komprimující text
DeepSeek vydal DeepSeek-OCR, visio-jazykový model, který převádí textové dokumenty do kompaktních vizuálních reprezentací s použitím výrazně méně tokenů než původní text. Model dosahuje 97% přesnosti při kompresi textu v poměru 10:1 a si udržuje 60% přesnost i při kompresi 20:1 tím, že vykresluje text jako obrazy a kóduje je do vizuálních tokenů, které jazykové modely následně dekódují zpět do textu. Na benchmarku OmniDocBench DeepSeek-OCR překonává konkurenční modely při použití výrazně méně tokenů – pouhých 100 tokenů na stránku ve srovnání s 256 pro GOT-OCR2.0 a méně než 800 tokenů oproti více než 6 000 pro MinerU2.0. Tato kompresní technika by mohla umožnit efektivnější zpracování dlouhých kontextů ve velkých jazykových modelech. Kód a váhy modelu jsou veřejně dostupné na GitHubu.
Claude Code spouští webovou verzi s paralelními agenty
Společnost Anthropic vydala webovou verzi Claude Code, která vývojářům umožňuje spouštět více kódovacích úloh současně napříč různými repozitáři GitHubu přímo z prohlížeče. Služba běží na cloudové infrastruktuře spravované Anthropicem, přičemž každá úloha běží v izolovaném sandboxovém prostředí, které zahrnuje síťová a souborová omezení pro ochranu kódu a přihlašovacích údajů. Stejně jako u verzí pro příkazový řádek a IDE mohou vývojáři webové rozhraní Claude Code využívat pro opravy chyb, rutinní úkoly, testování, backendové změny, pull requesty a dokumentaci. Tento cloudový přístup naznačuje posun směrem k AI agentům, kteří zvládají vývojářskou práci nezávisle ve spravovaných prostředích. Claude Code for Web je nyní dostupný v náhledu pro předplatitele Claude Pro a Max.
Reddit žaluje Perplexity AI a další firmy za krádež dat
Reddit podal žalobu na Perplexity AI a tři další společnosti – Oxylabs, AWMProxy a SerpApi – s tvrzením, že nelegálně stahovaly miliony uživatelských komentářů pro komerční použití. Žaloba, podaná u federálního soudu v New Yorku, obviňuje společnosti z obcházení Redditových protiopatření proti scrapování a extrahování obsahu z výsledků vyhledávání Google, když byl přímý přístup blokován. Reddit použil novátorskou techniku: vytvořil testovací příspěvek, který mohl být crawlovaný pouze vyhledávačem Google, a poté, co se během pár hodin data z příspěvku objevila na Perplexity, to uvedl jako důkaz. Žaloba highlightuje rostoucí napětí ohledně toho, jak si AI společnosti opatřují trénovací data. Perplexity a ostatní obžalované společnosti obvinění popírají a uvedly, že se budou v soudním sporu bránit.
Meta a Hugging Face spouští hub pro prostředí AI agentů
OpenEnv Hub je nová komunitní platforma, kde mohou vývojáři vytvářet, sdílet a objevovat standardizovaná prostředí pro AI agenty. Prostředí AI agentů definují nástroje, API, přihlašovací údaje a kontext provedení, které agent potřebuje k provádění konkrétních úloh v bezpečném, sandboxovaném nastavení, jež funguje pro trénink i nasazení. Hub bude brzy spuštěn s počátečními prostředími, která mohou vývojáři testovat, a specifikace OpenEnv 0.1 již byla vydána pro zpětnou vazbu komunity. Tato iniciativa řeší klíčovou výzvu ve vývoji AI agentů: velké jazykové modely potřebují přístup k vhodným nástrojům, ale vystavení milionů nástrojů přímo není bezpečné ani praktické. Meta integruje OpenEnv se svou knihovnou TorchForge RL a spolupracuje na rozšíření kompatibility s open-source projekty včetně verl, TRL a SkyRL.
GigaBrain-0 využívá syntetická data k tréninku robotů
Výzkumníci představili GigaBrain-0, visio-jazykově-akční model, který trénuje roboty za použití syntetických dat generovaných world modely, namísto drahých reálných demonstrací . Systém generuje tréninkové scénáře změnou vzhledu objektů, jejich umístění, světelných podmínek a úhlů pohledu kamery, čímž získá rozmanitější tréninková data, než většina robotů získá z reálného pozorování . GigaBrain-0 incorporuje snímání hloubky pro prostorovou reasoning a používá „embodied Chain-of-Thought“ dohled k rozdělení komplexních úloh na mezikroky . Testy na manipulaci, dlouhých úlohách a mobilní manipulaci ukázaly, že GigaBrain-0 překonal referenční model π0 o 10–30 procent . Tým také vydal GigaBrain-0-Small, odlehčenou verzi, která běží 10x rychleji na edge zařízeních při zachování srovnatelného výkonu .
The Batch – DeepLearning.AI by Andrew Ng / gnews.cz – GH
Komentáře
Přihlásit se · Registrovat se
Pro komentování se přihlaste nebo zaregistrujte.
…