Kimi Code är åtta gånger billigare än Claude Code och gör 75 % av ditt arbete. Frågan är om det räcker
För några dagar sedan lanserade det kinesiska företaget Moonshot AI Kimi K2.6, dess nya LLM som konkurrerar med modellfamiljerna Gemini, GPT och Claude och som dessutom är extra konkurrenskraftig i pris. Veckor tidigare hade man lanserat Kimi Code, en programmerande AI-agent som i sin tur konkurrerar med Gemini Cli, Codex och Claude Code. Frågan är uppenbar: kan Kimi Code/Kimi K2.6-kopplingen verkligen konkurrera med den fashionabla kopplingen, Claude Code/Opus 4.7?
Svaret är komplicerat. En fantastisk modell (men inte perfekt). Kimi K2.6 är en öppen viktmodell med en biljon parametrar totalt (en amerikansk biljon), varav 32 miljarder parametrar är aktiva och som använder den välkända Mixture-of-Experts-arkitekturen.
Lanseringsartikeln visar dess prestanda jämfört med GPT-5.4 och Opus 4.6 och sanningen är att dess siffror i dessa syntetiska tester verkar alldeles utmärkta: Här jämförs Kimi K2.6 med GPT-5.4, Claude Opus 4.6 och Gemini 3.1 Pro. Källa: Moonshot AI. Upp till 8 gånger billigare än Opus 4.6.
Den har prenumerationsplaner i Claude Pro- eller ChatGPT Plus-stil, men den kan också användas via API. Priset i det fallet är $0,60 per miljon inmatade tokens (0,16 om cachade) och $4 per miljon utdatatokens. Claude Opus 4.6 kostar 5 USD per miljon inmatade tokens och 25 USD per miljon output-tokens, eller upp till åtta gånger mer.
Claude Opus 4.7 har samma pris och är teoretiskt bättre i prestanda, men när Kimi K2.6 tillkännagavs hade denna version ännu inte dykt upp (inte heller GPT-5.5). Magin i svärmen av AI-agenter. Claude Code fungerar sekventiellt.
Analysera problemet, utför ett steg, kontrollera resultatet och bestäm hur du ska gå vidare. I Kimi Code används ett annat tillvägagångssätt: en "master agent" delar upp eller bryter ner uppgiften vi ber om den i oberoende deluppgifter och från den divisionen lanserar upp till 300 "subagenter" som körs parallellt och kan koordinera upp till 4 000 steg samtidigt. Är många som jobbar samtidigt bättre än en?
Det är den så kallade "svärmen av agenter" av Kimi K2.6 som används till fullo i Kimi Code och som vi även kan aktivera i dess gratisversion på dess officiella hemsida. I Kimi K2.5 kunde upp till 100 subagenter och 1 500 steg lanseras, så hoppet är betydande. I interna tester visade Moonshot hur dessa svärmar till exempel lyckades "refaktorera" en finansiell motor med öppen källkod, arbeta 13 timmar i sträck och göra mer än 1 000 verktygsanrop med en 185% förbättring av den genomsnittliga prestandan.
Naturligtvis var det interna tester. I Xataka fortsätter amerikanska företag att engagera sig i större och större AI-modeller. De från Kina fortsätter att visa att Beyond the benchmarks inte är nödvändigt.
Kilo.ai är ett företag som utvecklar verktyg som Kilo Code eller Kilo CLI – programmeringsagenter som liknar Kimi Code – och dess ingenjörer ville utvärdera prestandan för båda kombinationerna. De gav Claude Opus 4.7 och Kimi K2.6 samma 1 042 linjers uppmaning att skapa FlowGraph, ett arbetsflödesorkestrerings-API med riktad grafvalidering eller strömning av händelser i realtid. Båda modellerna körde på Kilo CLI eftersom det de ville jämföra var modellerna utan vidare.
Kimi var billigare, men han misslyckades också mer. Claude Opus 4.7 kom i mål på 20 minuter och slutkostnaden var $3,56. Kimi K2.6 tog längre tid, delvis för att servertillgängligheten var begränsad (modellen hade precis lanserats), men den kostade $0,67.
Fem gånger mindre. Kimi K2.6 gjorde det bra till ett löjligt pris. Claude gjorde det mycket bättre, men det kostade också fem gånger så mycket.
Kimi gjorde 75 % av vad Claude gjorde till 19 % av kostnaden. Problemet är att båda trodde att de hade gjort allt rätt och inte upptäckte om de hade gjort misstag. Ytterligare analys visade att Claude hade begått en och att Kimi hade begått sex av varierande betydelse.
Enligt Kilo.ai-analytiker var slutpoängen för båda 91 poäng av 100 för Opus 4.7 och 68 poäng av 100 för Kimi.
Två sätt att se glaset. Den poängen verkar tydliggöra att Kimi helt enkelt är billigare för att han gjorde ett sämre jobb. Men Kilo-ingenjörerna hade ett annat sätt att se på det.
De har under en tid jämfört modeller med öppen vikt från kinesiska företag och har märkt hur klyftan med "frontier"-modellerna av Anthropic eller OpenAI blir mindre och mindre uttalad. "Med ett pris på 0,67 USD och en grundlig granskning är Kimi K2.6 nu ett gångbart alternativ. Med ett pris på 3,56 USD och färre korrigeringar som behövs är Claude Opus 4.7 det säkrare alternativet. Valet mellan de två alternativen beror på analysen.
För ett år sedan var detta val praktiskt taget obefintligt på denna komplexitetsnivå." Eller vad är detsamma: om man efter arbetet med Kimi K2.6 genomförde en mer djupgående granskning och korrigering, är det troligt att alla dessa fel skulle upptäckas och korrigeras, men om vi var tvungna att lita på båda modellerna och vi bara kunde köra "en pass" av AI-exekvering, skulle Opus 4.7 vinna spelet. Nyckeln är att: man ska inte lita på koden för någon modell direkt, och det är tillrådligt att alltid granska den koden. I Xataka En ung man har på 80 minuter och med ChatGPT löst ett matematiskt problem som varade i 60 år.
Det är det minst intressanta med historien.
Den geopolitiska faktorn. Kimi och Kimi Code kommer från Kina, och startupen Moonshot AI har ekonomiskt stöd från Alibaba. Koden som bearbetas i dessa modeller passerar genom deras servrar, något som för en enskild utvecklare kan vara irrelevant.
Men för ett företag med känslig äganderätt, kontrakt som måste följa vissa europeiska eller amerikanska regler och projekt inom reglerade sektorer, kan detta vara ett betydande hinder. Kimi Code mildrar detta problem genom att erbjuda möjligheten att köra modellen lokalt tack vare dess öppna vikter, men det kräver mycket kraftfulla maskiner och eliminerar en del av kostnadsfördelen. Vad Kimi Code har som Claude Code inte har.
Den tydligaste skillnaden mellan de båda programmerande AI-agenterna är parallellism. Som vi sa är möjligheten att starta upp till 300 subagenter för att arbeta samtidigt och attackera samma problem på samma gång anmärkningsvärd. För analys av stora förråd eller generering av massiv dokumentation är denna skillnad i hastighet verklig och slående.
Det finns ett annat viktigt element: Kimi Code är modellagnostisk, och tillåter användning av molnmodeller som Claude, GPT eller Gemini, men även lokala modeller via Ollama. Claude Code accepterar även andra modeller, men det är lite mer komplicerat att använda med allt annat än Sonnet/Opus.
Slutsats: länge leve alternativen. Här är det tydligt att vad interna riktmärken säger skiljer sig mycket från vad verkliga erfarenheter säger.
Kilo.ai-jämförelsen är slående och bekräftar återigen två saker. Den första, att Claude Opus 4.6/4.7 fortfarande är överlägsen öppenviktsmodeller från kinesiska företag. Det andra och viktigaste, att det inte längre är så överlägset.
Skillnaden i prestanda minskar, men medan den gör det, spelar kostnadsaspekten in: om den "kinesiska modellen" är tillräckligt bra för dig (och det är det i allt högre grad), vad du kommer att uppnå är att spara mycket pengar. Anthropic, OpenAI eller Google borde oroa sig. Bild | Chris Ried i Xataka | DeepSeek lovade dem lycka som den stora kinesiska AI.
Jag hade ingen liten detalj: Kimi
Originalkälla
Publicerad av Xataka
28 april 2026, 12:31
Denna artikel har översatts automatiskt från spanska. Klicka på länken ovan för att läsa originaltexten.
Visa originaltext (spanska)
Rubrik
Kimi Code es ocho veces más barato que Claude Code y hace un 75% de su trabajo. La pregunta es si es suficiente
Beskrivning
Hace unos días, la empresa china Moonshot AI lanzaba Kimi K2.6, su nuevo LLM que compite con las familias de modelos de Gemini, GPT y Claude y que además es especialmente competitivo en precio. Semanas antes había lanzado Kimi Code, un agente de IA de programación que a su vez compite con Gemini Cli, Codex y Claude Code. La pregunta es obvia: ¿puede realmente competir el binomio Kimi Code/Kimi K2.6 con el binomio de moda, Claude Code/Opus 4.7? La respuesta es complicada. Un modelo estupendo (pero no perfecto). Kimi K2.6 es un modelo de pesos abiertos con un billón de parámetros en total (un trillón americano), de los cuales están activos 32.000 millones de parámetros y que usa la ya conocida arquitectura de Mixture-of-Experts. En el artículo de lanzamiento se muestra su rendimiento comparado con el de GPT-5.4 y Opus 4.6 y lo cierto es que sus números en estas pruebas sintéticas parecen realmente excelentes: Aquí Kimi K2.6 está comparado con GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro. Fuente: Moonshot AI. Hasta 8 veces más barato que Opus 4.6. Tiene planes de suscripción estilo Claude Pro o ChatGPT Plus, pero además se puede usar vía API. El precio en ese caso es de 0,60 dólares por millón de tokens de entrada (0,16 si están en caché) y 4 dólares por millón de tokens de salida. Claude Opus 4.6 cuesta 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, es decir, hasta ocho veces más. Claude Opus 4.7 tiene el mismo precio y teóricamente es mejor en rendimiento, pero cuando se anunció Kimi K2.6 esta versión aún no había aparecido (ni tampoco GPT-5.5). La magia del enjambre de agentes de IA. Claude Code trabaja de forma secuencial. Analiza el problema, ejecuta un paso, comprueba el resultado y decide cómo sigue actuando. En Kimi Code se usa un enfoque diferente: un "agente maestro" divide o descompone la tarea que le pedimos en subtareas independientes y a partir de esa división lanza hasta 300 "subagentes" que corren en paralelo y son capaces de coordinar hasta 4.000 pasos de forma simultánea. ¿Muchos trabajando a la vez mejor que uno solo? Es el llamado "enjambre de agentes" de Kimi K2.6 que se aprovecha al máximo en Kimi Code y que también podemos activar en su versión gratuita en su web oficial. En Kimi K2.5 se podían lanzar hasta 100 subagentes y 1.500 pasos, así que el salto es significativo. En pruebas internas Moonshot mostró cómo esos enjambres lograron por ejemplo "refactorizar" un motor financiero de código abierto trabajando 13 horas seguidas y más de 1.000 llamadas a herramientas con una mejora del 185% en el rendimiento medio. Por supuesto, se trató de pruebas internas. En Xataka Las empresas de EEUU siguen empeñadas en modelos IA más y más grandes. Las de China siguen demostrando que no hace falta Más allá de los benchmarks. Kilo.ai es una empresa que desarrolla herramientas como Kilo Code o Kilo CLI —agentes de programación similar a Kimi Code—, y sus ingenieros quisieron evaluar el rendimiento de ambas combinaciones. Les dieron a Claude Opus 4.7 y a Kimi K2.6 el mismo prompt de 1.042 líneas para crear FlowGraph, una API de orquestación de flujos de trabajo con validación de grafos dirigidos o streaming de eventos en tiempo real. Ambos modelos corrieron sobre Kilo CLI porque lo que quisieron comparar fueron los modelos sin más. Kimi fue más barato, pero también falló más. Claude Opus 4.7 terminó en 20 minutos y el coste final fue de 3,56 dólares. Kimi K2.6 tardó más, en parte porque la disponibilidad de los servidores era limitada (el modelo se acababa de lanzar), pero costó 0,67 dólares. Cinco veces menos. Kimi K2.6 lo hizo bien a un precio de risa. Claude lo hizo mucho mejor, pero también costó cinco veces más. Kimi hizo el 75% de lo que hizo Claude al 19% de su coste. El problema es que ambos creyeron haber hecho bien todo y no detectaron si habían cometido fallos. Un análisis más profundo reveló que Claude había cometido uno y que Kimi había cometido seis de diversa importancia. Según los analistas de Kilo.ai, la calificación final de ambos fue de 91 puntos sobre 100 para Opus 4.7 y de 68 puntos sobre 100 para Kimi. Dos formas de ver el vaso. Esa puntuación parece dejar claro que Kimi simplemente es más barato porque hizo un peor trabajo. Pero los ingenieros de Kilo tenían otra forma de verlo. Llevan tiempo comparando modelos de pesos abiertos de empresas chinas y han notado cómo la brecha con los modelos "frontera" de Anthropic o de OpenAI cada vez es menos pronunciada. "Con un precio de 0,67 dólares y una revisión minuciosa, Kimi K2.6 es ahora una opción viable. Con un precio de 3,56 dólares y menos correcciones necesarias, Claude Opus 4.7 es la opción más segura. La elección entre ambas opciones depende del análisis. Hace un año, esta elección prácticamente no existía a este nivel de complejidad".Revisar es obligatorio. O lo que es lo mismo: si tras el trabajo de Kimi K2.6 uno realizara una revisión y corrección más profunda, es probable que todos esos errores fueran detectados y corregidos, pero si nos tuviéramos que fiar de ambos modelos y solo pudiéramos ejecutar "una pasada" de ejecución de IA, Opus 4.7 ganaría la partida. La clave está en eso: uno no debe fiarse del código de ningún modelo de buenas a primeras, y lo recomendable es siempre revisar ese código. En Xataka Un joven ha resuelto en 80 minutos y con ChatGPT un problema matemático que resistió 60 años. Eso es lo menos interesante de la historia El factor geopolítico. Kimi y Kimi Code vienen de China, y la startup Moonshot AI tiene respaldo financiero de Alibaba. El código que se procesa en dichos modelos pasa por sus servidores, algo que para un desarrollador individual puede ser irrelevante. Sin embarego, para una empresa con código propietario sensible, contratos que deben cumplir cierta normativa europea o americana y proyectos en sectores regulados, eso puede ser un obstáculo importante. Kimi Code mitiga este problema ofreciendo la posibilidad de correr el modelo en local gracias a que tiene sus pesos abiertos, pero eso requiere máquinas muy potentes y elimina parte de la ventaja del coste. Lo que Kimi Code tiene que Claude Code no. La diferencia más clara entre ambos agentes de IA de programación es el paralelismo. Como decíamos, la capacidad de lanzar hasta 300 subagentes para que trabajen simultáneamente atacando el mismo problema a la vez es notable. Para análisis de repositorios grandes o generación de documentación masiva, esa diferencia de velocidad es real y llamativa. Hay otro elemento importante: Kimi Code es agnóstico del modelo, y permite usar modelos en la nube como Claude, GPT o Gemini, pero también modelos locales vía Ollama. Claude Code también acepta otros modelos, pero es algo más complicado usarlo con otra cosa que no sea Sonnet/Opus. {"videoId":"x9xm9vi","autoplay":false,"title":"Cómo China ha alcanzado a EEUU en la carrera de la IA en tan poco tiempo", "tag":"", "duration":"544"} Conclusión: que vivan las opciones. Aquí queda claro que lo que dicen los benchmarks internos es muy distinto de lo que dicen las experiencias reales. La comparativa de Kilo.ai es llamativa y vuelve a confirmar dos cosas. La primera, que Claude Opus 4.6/4.7 sigue siendo superior a los modelos de pesos abiertos de empresas chinas. La segunda y más importante, que ya no es tan superior. La diferencia de rendimiento se acorta, pero mientras lo hace entra en juego el apartado del coste: si el "modelo chino" es suficentemente bueno para ti (y cada vez lo es más), lo que conseguirás es ahorrar mucho dinero. Anthropic, OpenAI o Google deberían preocuparse. Imagen | Chris Ried En Xataka | DeepSeek se las prometía felices como la gran IA china. No contaba con un pequeño detalle: Kimi (function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })(); - La noticia Kimi Code es ocho veces más barato que Claude Code y hace un 75% de su trabajo. La pregunta es si es suficiente fue publicada originalmente en Xataka por Javier Pastor .