DeepMind, OpenAI és ByteDance rendszerei áttörtek a matematikai problémamegoldás egyik legnehezebb szintjén – mi jön ezután?
Valami nagy dolog történt a mesterséges intelligencia és a matematika metszéspontján. A világ vezető AI-rendszerei nemcsak hogy megoldották a Nemzetközi Matematikai Olimpia (IMO) legnehezebb feladatait, de az eredmények – formális vagy informális úton – már a humán versenyzőkkel is egy szinten mozognak. A DeepMind, az OpenAI és a ByteDance egymástól függetlenül értek el figyelemre méltó eredményeket, és ezzel együtt megkezdődött valami, amit eddig sokan lehetetlennek tartottak: a mély matematikai gondolkodás gépi modelljeinek felívelése.
A csúcspont: DeepMind aranyérme – hitelesítve
A DeepMind fejlesztette „Gemini – Deep Think” nevű modell hivatalos aranyérmes teljesítményt nyújtott az IMO 2025-ös feladatain: 6-ból 5 feladatot tökéletesen oldott meg, a verseny hivatalos szabályai szerint, időkereten belül. Az eredményt az olimpia szervezői ellenőrizték és tanúsították – ez pedig történelmi első. A modell természetes nyelvű bizonyításokat adott, nem formális rendszerekben dolgozott, mégis emberi szintű pontosságot és mélységet mutatott.
OpenAI: ugyanaz a szint, csak más időzítés
Az OpenAI szintén megoldotta az IMO 2025 feladatait, hasonló pontszámokkal, ám ők kissé korán közölték az eredményeiket – még az esemény hivatalos lezárása előtt. Bár technikailag hasonló szintű teljesítményt nyújtottak, a különbség az, hogy az ő megoldásaikat nem a verseny hivatalos bizottsága értékelte, hanem független, emberi versenyzők (több volt olimpikon). Ez kommunikációs szinten egy kis feszültséget okozott, de az eredmény így is lenyűgöző.
ByteDance: ezüst Lean-ben
Kevesebb figyelmet kapott, de szintén figyelemreméltó a kínai ByteDance csapat teljesítménye: ők Lean bizonyításasszisztens nyelven formalizált megoldásokat készítettek, szintén IMO-szintű feladatokra. A teljesítmény ezüstérmes szintet ért el, viszont a hangsúly itt máson volt: nem a természetes nyelvű érvelésen, hanem a formális matematikai bizonyítás automatizálásán. A Lean formalizálás óriási lehetőség a jövőbeli matematikai tudásgyűjtésre – különösen, ha egyszer majd automatikusan is át tudunk fordítani természetes nyelvű problémákat Lean-változatokra.
Miért jelent ez óriási áttörést?
Aki valaha dolgozott komplex algoritmusokon vagy matematikai modellezésen, az pontosan tudja: egy jól megfogalmazott tétel önmagában még nem garancia a helyes implementációra. A hibás logikai lépések, az ellenpéldák hiányának figyelmen kívül hagyása gyakran csak utólag derül ki – és rengeteg időt vesz el.
Most képzeljük el, hogy egy AI nemcsak kiszúrja ezeket a gyenge pontokat, hanem ellenpéldákat is generál, vagy akár formálisan bizonyítja, hogy egy algoritmus működik – vagy nem.
Fejlesztőként (és emberként) mit nyerhetünk ezzel?
Személy szerint én is olyan fejlesztő vagyok, aki gyakran ütközik matematikai problémákba, miközben például számítógépes látáson vagy geometriai algoritmusokon dolgozik. És igen, sokszor jól jött volna, ha egy AI szólt volna előre: „figyelj, ez a megoldásod nem működik, itt van rá egy cáfolat”.
De a hétköznapi élet is tele van rejtett matematikai döntésekkel – csak gyakran nem tudatosítjuk őket, hogy ne frusztráljon a felismerés: nem tudjuk megoldani.
Mennyibe fog ez kerülni?
A DeepMind egyelőre nem árulta el pontosan, mikor és milyen áron válik elérhetővé a „Deep Think” rendszer, de valószínűleg előfizetéses modellben fogják kínálni. Az optimista reményem az, hogy lesz egy „matematikai asszisztens” csomag havi 10 dollárért – de az is lehet, hogy ez prémium szolgáltatás lesz, inkább kutatóknak, fejlesztőknek vagy egyetemeknek szánva.
Mindenesetre: ha ezt az AI-képességet akár csak részben is be tudnám vonni a munkámba, azonnal előfizetnék.
És ha egyszer C++-kódot is generál?
Ha a rendszer nemcsak természetes nyelven magyaráz, hanem Lean-ben formalizál, és azt automatikusan le tudja fordítani például C++-ra – akkor tényleg elmondhatjuk, hogy eljött a „kódolt bizonyítások” kora. Ez még nem a jelen, de sok kutató dolgozik rajta, hogy elérhető legyen a formális → implementációs útvonal. Egy ilyen AI eszköz radikálisan átalakíthatja, hogyan gondolkodunk a hibakeresésről, a verifikációról – és végső soron a programozásról is.
Zárszó: ez már nem sci-fi
A DeepMind és az OpenAI eredményei egyértelműen mutatják: az AI képes emberi szintű – sőt, bizonyos esetekben emberfeletti – matematikai problémamegoldásra. És ez még csak a kezdet. Most először tényleg úgy tűnik, hogy a gépek nemcsak számolnak, hanem érvelnek is – világos logikával, mély belátással és akár formális bizonyítással alátámasztva.
Én készen állok erre a jövőre. Te?