Bevezetés

Szerinted a Grok3 lesz az előre betanított modellek "végpontja"?

Elon Musk és az xAI csapata hivatalosan is bemutatta a Grok legújabb verzióját, a Grok3-at egy élő közvetítés során. Az esemény előtt jelentős mennyiségű kapcsolódó információ, valamint Musk non-stop promóciós felhajtása példátlan szintre emelte a Grok3 iránti globális elvárásokat. Mindössze egy héttel ezelőtt Musk magabiztosan kijelentette egy élő közvetítés során a DeepSeek R1-ről kommentálva: "az xAI egy jobb MI-modellt fog elindítani". Az élőben bemutatott adatok alapján a Grok3 állítólag felülmúlta az összes jelenlegi mainstream modellt a matematika, a természettudományok és a programozás terén, Musk pedig azt állította, hogy a Grok3-at a SpaceX Mars-küldetéseivel kapcsolatos számítási feladatokhoz fogják használni, "három éven belül Nobel-díjas áttöréseket" jósolva. Ezek azonban jelenleg csak Musk állításai. A bemutató után teszteltem a Grok3 legújabb béta verzióját, és feltettem a klasszikus trükkös kérdést a nagy modellek számára: "Melyik a nagyobb, a 9.11 vagy a 9.9?" Sajnos, mindenféle minősítés vagy jelölés nélkül, az úgynevezett legokosabb Grok3 még mindig nem tudta helyesen megválaszolni ezt a kérdést. Grok3 nem tudta pontosan meghatározni a kérdés jelentését.

Ez a teszt gyorsan felkeltette sok barátja figyelmét, és véletlenül számos hasonló külföldi teszt kimutatta, hogy a Grok3 nehezen tud megbirkózni az olyan alapvető fizikai/matematikai kérdésekkel, mint a "Melyik golyó esik le először a pisai ferde toronyból?". Ezért humorosan "egy egyszerű kérdésekre nem hajlandó zseniként" bélyegezték meg.

A Grok3 jó, de nem jobb, mint az R1 vagy az o1-Pro.

A Grok3 a gyakorlatban számos közismereti teszten „kudarcot” szenvedett. Az xAI indító eseményén Musk bemutatta, hogyan elemzi a Grok3 segítségével a Path of Exile 2 játék karakterosztályait és effektjeit – állítása szerint gyakran játszott vele –, de a Grok3 által adott válaszok többsége helytelen volt. Musk az élő közvetítés során nem vette észre ezt a nyilvánvaló problémát.

Ez a hiba nemcsak további bizonyítékot szolgáltatott a külföldi netezőknek, hogy Muskot gúnyolják a játékokban való „helyettesítő megoldás megtalálásáért”, hanem jelentős aggályokat is vetett fel a Grok3 gyakorlati alkalmazásokban való megbízhatóságával kapcsolatban. Egy ilyen „zseni” esetében, függetlenül a tényleges képességeitől, a megbízhatósága rendkívül összetett alkalmazási forgatókönyvekben, például a Mars-kutatási feladatokban, továbbra is kétséges.

Jelenleg sok tesztelő, aki hetekkel ezelőtt hozzáfért a Grok3-hoz, és azok is, akik csak tegnap tesztelték a modell képességeit néhány órán keresztül, mind egy közös következtetésre jutnak: "A Grok3 jó, de nem jobb, mint az R1 vagy az o1-Pro."

Kritikus nézőpont az „Nvidia felforgatásáról”

A hivatalosan a kiadás során bemutatott PPT-ben a Grok3 „messze előrébb” volt a Chatbot Arénában, de ez ügyesen grafikai technikákat alkalmazott: a ranglista függőleges tengelye csak az 1400-1300 pontszámtartományba eső eredményeket listázta, így az eredeti 1%-os különbség a teszteredményekben kivételesen jelentősnek tűnik ebben a prezentációban.

A tényleges modellpontozási eredményekben a Grok3 mindössze 1-2%-kal előzi meg a DeepSeek R1-et és a GPT-4.0-t, ami megfelel sok felhasználó gyakorlati tesztekben szerzett tapasztalatainak, amelyek „nem találtak észrevehető különbséget”. A Grok3 mindössze 1-2%-kal múlja felül utódjait.

Bár a Grok3 magasabb pontszámot ért el, mint az összes jelenleg nyilvánosan tesztelt modell, sokan nem veszik ezt komolyan: elvégre az xAI-t korábban már kritizálták a Grok2 korszakában a „pontszám-manipuláció” miatt. Mivel a ranglista büntette a válaszok hosszának stílusát, a pontszámok jelentősen csökkentek, ami arra késztette az iparági bennfenteseket, hogy gyakran kritizálják a „magas pontszám, de alacsony képesség” jelenségét.

Akár ranglista „manipulációról”, akár illusztrációk tervezési trükkjeiről van szó, ezek az xAI-t és Musk megszállottságát mutatják, aki megszállottan vágyott a „versenyzés élére” a modellképességek terén. Musk meredek árat fizetett ezekért a haszonkulcsokért: a bevezetés során azzal dicsekedett, hogy 200 000 H100 GPU-t használt (az élő közvetítés során „több mint 100 000”-et állított), és összesen 200 millió órás betanítási időt ért el. Ez egyeseket arra késztetett, hogy úgy véljék, ez egy újabb jelentős áldás a GPU-ipar számára, és a DeepSeek ágazatra gyakorolt hatását „ostobaságnak” tartsák. Különösen egyesek úgy vélik, hogy a puszta számítási teljesítmény lesz a modelltanítás jövője.

Néhány netező azonban összehasonlította 2000 H800 GPU fogyasztását két hónap alatt a DeepSeek V3 elkészítéséhez, és kiszámította, hogy a Grok3 tényleges betanítási energiafogyasztása 263-szorosa a V3-nak. A DeepSeek V3, amely 1402 pontot szerzett, és a Grok3 közötti különbség alig 100 pont alatt van. Ezen adatok közzétételét követően sokan gyorsan rájöttek, hogy a Grok3 "világ legerősebb" címe mögött egyértelmű határhasznossági hatás rejlik – a nagyobb modellek erősebb teljesítményének logikája csökkenő megtérülést mutat.

Még a „magas pontszám, de alacsony képesség” mellett is a Grok2 hatalmas mennyiségű, kiváló minőségű, saját féltől származó adattal rendelkezett az X (Twitter) platformról a használat támogatásához. A Grok3 betanítása során azonban az xAI természetesen beleütközött abba a „plafonba”, amellyel az OpenAI jelenleg szembesül – a prémium betanítási adatok hiánya gyorsan leleplezi a modell képességeinek marginális hasznosságát.

A Grok3 fejlesztői és Musk valószínűleg az elsők, akik mélyrehatóan megértik és azonosítják ezeket a tényeket, ezért Musk folyamatosan emlegette a közösségi médiában, hogy a felhasználók által jelenleg tapasztalt verzió „még mindig csak a béta verzió”, és hogy „a teljes verzió a következő hónapokban jelenik meg”. Musk elvállalta a Grok3 termékmenedzserének szerepét, és azt javasolja a felhasználóknak, hogy a hozzászólások részben osszák meg visszajelzésüket a felmerült különféle problémákról. Ő lehet a Föld legnépszerűbb termékmenedzsere.

Mégis, egy napon belül a Grok3 teljesítménye kétségtelenül riadalmat keltett azok körében, akik a „hatalmas számítási erőre” támaszkodva reméltek erősebb, nagyméretű modellek betanításához: a nyilvánosan elérhető Microsoft-információk alapján az OpenAI GPT-4 paramétermérete 1,8 billió paraméter, ami több mint tízszerese a GPT-3-nak. A pletykák szerint a GPT-4.5 paramétermérete még nagyobb is lehet.

Ahogy a modellparaméterek mérete szárnyal, a betanítási költségek is az egekbe szöknek. A Grok3 jelenlétével az olyan versenyzőknek, mint a GPT-4.5 és mások, akik továbbra is „pénzt égetnek” a jobb modellteljesítmény elérése érdekében a paraméterméret révén, figyelembe kell venniük a most már egyértelműen látható felső határt, és el kell gondolkodniuk azon, hogyan lehetne leküzdeni azt. Jelenleg Ilja Szutskever, az OpenAI korábbi vezető tudósa, tavaly decemberben kijelentette: „Az általunk ismert előtanítás véget ér”, ami újra felmerült a vitákban, és erőfeszítéseket indított a nagy modellek betanításának valódi útjának megtalálására.

Ilja nézőpontja vészharangot kongatott az iparágban. Pontosan előre látta a hozzáférhető új adatok küszöbön álló kimerülését, ami olyan helyzethez vezet, ahol a teljesítményt nem lehet tovább javítani adatgyűjtéssel, a fosszilis tüzelőanyagok kimerüléséhez hasonlítva. Megjegyezte, hogy „az olajhoz hasonlóan az ember által generált tartalom az interneten is korlátozott erőforrás”. Sutskever jóslatai szerint a modellek következő generációja, az előképzés után, „valódi autonómiával” és „az emberi agyhoz hasonló” érvelési képességekkel fog rendelkezni.

A mai, elsősorban a tartalomillesztésre (a korábban tanult modell tartalmán alapuló) előre betanított modellekkel ellentétben a jövőbeli mesterséges intelligencia rendszerek képesek lesznek tanulni és módszereket kidolgozni a problémák megoldására az emberi agy „gondolkodásához” hasonló módon. Egy ember alapvető jártasságot érhet el egy témában csupán alapvető szakirodalommal, míg egy nagyméretű mesterséges intelligencia alapú modell több millió adatpontot igényel ahhoz, hogy elérje a legalapvetőbb belépő szintű hatékonyságot. Még ha a megfogalmazást kissé megváltoztatjuk is, ezek az alapvető kérdések esetleg nem érthetők meg helyesen, ami azt mutatja, hogy a modell valójában nem fejlődött az intelligenciában: a cikk elején említett alapvető, mégis megoldhatatlan kérdések egyértelmű példái ennek a jelenségnek.

Következtetés

Azonban a nyers erőn túl, ha a Grok3-nak valóban sikerül felfednie az iparág számára, hogy az „előre betanított modellek a végükhöz közelednek”, az jelentős következményekkel járna a területre nézve.

Talán miután a Grok3 körüli őrület fokozatosan alábbhagy, több olyan esetnek leszünk tanúi, mint Fei-Fei Li példája, amikor "mindössze 50 dollárért hangoltak nagy teljesítményű modelleket egy adott adathalmazon", és végül felfedezték az AGI valódi útját.

ELV kábelmegoldások keresése

Vezérlőkábelek

BMS, busz, ipari és műszerkábelekhez.

Kattintson ide

Strukturált kábelezési rendszer

Hálózat és adat, optikai kábel, patch kábel, modulok, előlap

Kattintson ide

2024-es kiállítások és rendezvények áttekintése

Közzététel ideje: 2025. február 19.

A „világ legokosabbja”, a Grok3 tesztelése

Bevezetés

A Grok3 jó, de nem jobb, mint az R1 vagy az o1-Pro.

Kritikus nézőpont az „Nvidia felforgatásáról”

Következtetés

Vezérlőkábelek

Strukturált kábelezési rendszer

2024. április 16-18. Közel-Kelet-Energia Dubaiban

2024. április 16-18. Securika Moszkvában

2024. május 9. ÚJ TERMÉKEK ÉS TECHNOLÓGIÁK BEMUTATÓ RENDEZVÉNYE Sanghajban

2024. október 22-25., SECURITY CHINA Pekingben

2024. november 19-20. CONNECTED WORLD Szaúd-Arábia