AI har vänt upp och ner på en gammal regel för servrar: minnet vill inte längre leva på varje maskin
För många av oss kan minnesbristen först låta som ett problem nära inhemsk konsumtion: RAM-moduler, komponenter och enheter betingade av en allt mer stressad efterfrågan. Men fenomenet som The Next Platform beskriver pekar också mot andra änden av kedjan. Den når de stora teknikföretagen som tränar, distribuerar och erbjuder artificiell intelligensmodeller i datacenter.
Molnet är inte en abstraktion, och dess aptit på minne tvingar oss att tänka på något som tills nyligen verkade ointuitivt: kanske varje maskin inte bara borde bero på RAM-minnet den har inuti.
Minnet byter plats. Den underliggande idén är att överföra till minnet en logik som vi redan känner till med lagring. Idag kan data leva på själva datorn, på en annan maskin i nätverket eller på ett delat system som nås av flera servrar.
Nästa generations servrar skulle kunna behandla RAM-minne på ett liknande sätt: behålla en del lokal för varje maskin, men ta med en mycket större del till stora externa system som kan fördela kapaciteten i enlighet med ögonblickets behov. Därifrån kommer det som vissa kallar "minnesgodlåda": en stor låda eller minneskluster som inte längre är knuten till en enda maskin.
CXL-ögonblicket. I flera år har Compute Express Link utvecklats långsamt, nästan som ett löfte om mer flexibla arkitekturer.
Tekniken introducerades för flera år sedan, men nuvarande minnestryck ger den ett mycket gynnsammare sammanhang. CXL tillhandahåller ett sammanhängande gränssnitt för att kommunicera processorer, minne, acceleratorer och annan kringutrustning, beroende på PCIe. Den slutliga idén är enkel att berätta, även om den är komplex att genomföra: att separera resurser utan att bryta känslan av att de fungerar tillsammans.
CXL kom inte på en gång. Den användes först för att utöka minnet på en server med moduler anslutna till kompatibla PCIe-platser. Sedan, med CXL 2.0, dök upp pooling, det vill säga möjligheten att poola minne i en gemensam pool och tilldela det till olika maskiner efter behov.
Gränsen var att det minnet kunde omfördelas, men inte riktigt delas mellan två system som arbetar på samma data. CXL 3.0 är punkten där den gränsen börjar röra sig, eftersom den introducerar bredare topologier och delat minne mellan maskiner, men med vissa tekniska begränsningar.
Det underliggande problemet. Enligt The Next Platform kommer AI inte bara till kort på grund av bristande beräkning, utan också på grund av bristande minne. HBM som följer med GPU:erna är mycket snabb och är designad för att driva dessa chips i hög hastighet, men dess kapacitet är begränsad och kostnaden är hög.
Inom träning brukar den stora utmaningen vara att bearbeta enorma mängder data för att bygga modellen. I slutsatsen talar vi dock om något annat: att använda den redan tränade modellen för att svara på en förfrågan. I Xataka satte An AI upp en cafeteria från grunden: fick tillstånd, anställde personal och förhandlade med leverantörer.
Sedan bad han om 3 000 gummihandskar Minnet av samtalet. Varje svar från en språkmodell byggs upp lite i taget, token för token. För att inte räkna om allt ovan vid varje steg sparar systemen en typ av arbetsminne som kallas KV-cache.
Next Platform förklarar att tidigare uppmärksamhetsvektorer finns bevarade där, vilket hjälper modellen att fortsätta ta hänsyn till sammanhanget samtidigt som svaret genereras. Problemet är att i tjänster med många användare kan denna cache växa till att uppta enorma mängder minne, till och med mer än själva modellen. Det är inte bara teori längre.
Denna idé lever inte längre bara i tekniska dokument eller arkitektoniska löften. Registret nämner Panmnesia, Liqid och UnifabriX som företag som arbetar med system för att flytta minne bort från servern och till räckhåll för flera maskiner. Vissa gör det med CXL-switchar, andra med stora reserver av DDR5 som kan fördelas på olika värdar.
Next Platform lägger till fallet med Enfabrica och dess Emfasys-system, designat för slutledning och kan, enligt media, nå 18 TB DDR5 per minnesserver och 144 TB i ett fullt rack. Slutsatsen är enkel: branschen letar inte bara efter mer minne, den vill placera det på ett annat sätt så att AI kan dra bättre nytta av det. Bilder | Xataka med nanobanan i Xataka | "Kinesiska Netflix" har utformat en plan för AI för att generera majoriteten av dess innehåll inom fem år.
Låter riskabelt
Originalkälla
Publicerad av Xataka
15 maj 2026, 21:31
Denna artikel har översatts automatiskt från spanska. Klicka på länken ovan för att läsa originaltexten.
Visa originaltext (spanska)
Rubrik
La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina
Beskrivning
Para muchos de nosotros, la escasez de memoria puede sonar primero a un problema cercano al consumo doméstico: módulos de RAM, componentes y dispositivos condicionados por una demanda cada vez más tensionada. Pero el fenómeno que describe The Next Platform apunta también al otro extremo de la cadena. Alcanza a las grandes tecnológicas que entrenan, despliegan y ofrecen modelos de inteligencia artificial en centros de datos. La nube no es una abstracción, y su apetito de memoria está obligando a pensar algo que hasta hace poco parecía poco intuitivo: quizá cada máquina no deba depender solo de la RAM que lleva dentro. La memoria cambia de sitio. La idea de fondo es trasladar a la memoria una lógica que ya nos resulta familiar con el almacenamiento. Hoy un dato puede vivir en el propio equipo, en otra máquina de la red o en un sistema compartido al que acceden varios servidores. La próxima generación de servidores podría tratar la RAM de una forma parecida: conservar una parte local en cada máquina, pero llevar una porción mucho mayor a grandes sistemas externos capaces de repartir capacidad según la necesidad de cada momento. De ahí sale lo que algunos llaman “memory godbox”: una gran caja o clúster de memoria que deja de estar atado a una sola máquina. {"videoId":"x9xr9ly","autoplay":false,"title":"CRISIS de la RAM- PRECIOS un 300% más ALTOS en el componente que está en TODOS tus dispositivos", "tag":"memoria ram", "duration":"348"} El momento de CXL. Durante años, Compute Express Link ha avanzado de forma lenta, casi como una promesa para arquitecturas más flexibles. La tecnología se presentó hace varios años, pero la presión actual de la memoria le está dando un contexto mucho más favorable. CXL proporciona una interfaz coherente para comunicar procesadores, memoria, aceleradores y otros periféricos, apoyándose en PCIe. La idea final es sencilla de contar, aunque compleja de ejecutar: separar recursos sin romper la sensación de que trabajan juntos. CXL no llegó de golpe. Primero sirvió para ampliar la memoria de un servidor mediante módulos conectados a ranuras PCIe compatibles. Después, con CXL 2.0, apareció el pooling, es decir, la posibilidad de reunir memoria en un fondo común y asignarla a distintas máquinas según hiciera falta. El límite era que esa memoria podía reasignarse, pero no compartirse de verdad entre dos sistemas trabajando sobre los mismos datos. CXL 3.0 es el punto en el que esa frontera empieza a moverse, porque introduce topologías más amplias y memoria compartida entre máquinas, aunque con ciertas limitaciones técnicas. El problema de fondo. Según The Next Platform, la IA no se queda corta solo por falta de cálculo, también por falta de memoria. La HBM que acompaña a las GPU es muy rápida y está pensada para alimentar esos chips a gran velocidad, pero su capacidad es limitada y su coste es alto. En entrenamiento, el gran reto suele estar en procesar cantidades enormes de datos para construir el modelo. En inferencia, en cambio, hablamos de otra cosa: usar ese modelo ya entrenado para responder a una petición. En Xataka Una IA montó una cafetería desde cero: sacó permisos, contrató personal y negoció con proveedores. Luego pidió 3.000 guantes de goma La memoria de la conversación. Cada respuesta de un modelo de lenguaje se construye poco a poco, token a token. Para no recalcular todo lo anterior en cada paso, los sistemas guardan una especie de memoria de trabajo llamada KV cache. The Next Platform explica que ahí se conservan los vectores de atención previos, que ayudan al modelo a seguir teniendo en cuenta el contexto mientras genera la respuesta. El problema es que en servicios con muchos usuarios esa caché puede crecer hasta ocupar cantidades enormes de memoria, incluso más que el propio modelo. Ya no es solo teoría. Esta idea ya no vive solo en documentos técnicos o promesas de arquitectura. The Register menciona a Panmnesia, Liqid y UnifabriX como compañías que trabajan en sistemas para llevar memoria fuera del servidor y ponerla al alcance de varias máquinas. Algunos lo hacen con switches CXL, otros con grandes reservas de DDR5 que pueden repartirse entre distintos hosts. The Next Platform añade el caso de Enfabrica y su sistema Emfasys, pensado para inferencia y capaz, según el medio, de alcanzar 18 TB de DDR5 por servidor de memoria y 144 TB en un rack completo. La conclusión es sencilla: la industria no solo busca más memoria, busca colocarla de otra manera para que la IA pueda aprovecharla mejor. Imágenes | Xataka con Nano Banana En Xataka | El 'Netflix chino' ha diseñado un plan para que la IA genere la mayoría de su contenido en cinco años. Suena arriesgado (function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })(); - La noticia La IA ha puesto patas arriba una vieja regla de los servidores: la memoria ya no quiere vivir en cada máquina fue publicada originalmente en Xataka por Javier Marquez .