Google a introdus Android Bench, un benchmark destinat testării capacității modelelor AI de a rezolva probleme reale din proiecte open-source Android.
Testele constau în reparații de bug-uri și crearea cererilor de pull, creând un mediu realist pentru evaluarea AI.
În topul benchmark-ului se află Google Gemini 3.1, urmat de Claude Opus 4.6 și GPT-5.2-Codex, oferind o perspectivă clară asupra performanțelor AI.