Inteligencia artificial y TOPs
Los TOPs son una unidad de medida que podríamos comparar con otras más conocidas, como los FPS (fotogramas por segundo en juegos) o los GB/s (gigabytes por segundo) en unidades SSD. Esas siglas se refieren a trillones de operaciones por segundo, y como suele ocurrir en la mayoría de los casos cuando hablamos de rendimiento «más TOPs siempre es mejor».
Es una unidad muy fácil de entender. Los TOPs se refieren a los trillones de operaciones que un componente es capaz de realizar en un segundo. Por ejemplo, si una NPU (unidad de procesamiento neural) tiene un valor de potencia de 50 TOPs significa que es capaz de realizar 50 trillones de operaciones en un segundo. Esta sería menos potente que otra NPU con una potencia de 60 TOPs.
Los modelos de inteligencia artificial que utilizamos actualmente necesitan de ciertos valores de rendimiento para poder trabajar de forma óptima, y estos se miden en TOPs. Por ejemplo, Microsoft Copilot+ necesita de un mínimo de 40 TOPs para funcionar de forma óptima. Esto representa un valor orientativo que nos permite establecer el nivel mínimo para que funcionen modelos de IA sencillos de forma local.
Para poder mover modelos de IA mucho más avanzados y complejos impulsados por inteligencia artificial generativa, como por ejemplo los asistentes inteligentes de creación de contenidos digitales, la tecnología de reescalado inteligente aplicada a juegos en PC (NVIDIA DLSS), la generación de imágenes a partir de texto o vídeo y los LLMs (grandes modelos de lenguaje) es necesario contar con mucha más potencia, y es aquí donde entran en juego las GPUs.
Una NPU de última generación puede ofrecer alrededor de 50 TOPs, mientras que una GeForce RTX 4090 puede alcanzar, gracias a sus núcleos tensor de cuarta generación, la friolera de 1.300 TOPs. La diferencia es espectacular, y deja claro también que hay una importante división entre inteligencia artificial básica que se puede afrontar de forma asequible y eficiente, e inteligencia artificial avanzada, que requiere de componentes más punteros y avanzados.
Los TOPs son solo una cara de la moneda, conoce a los tokens
Ya sabes qué son exactamente los TOPs, pero cuando hablamos de LLMs la unidad de medida de rendimiento cambia y pasamos a utilizar los tokens. Sé lo que estás pensando, ¿qué es un token? Pues es muy sencillo, podemos definirlo como la cantidad de elementos de salida que puede generar un LLM. Por ejemplo, un token puede ser una palabra en una frase o incluso un elemento mucho más pequeño, como una letra o un signo de puntuación.
Por tanto, el rendimiento de los LLMs se puede medir en tokens por segundo. Llegados a este punto es importante introducir también otro concepto clave que es todavía menos conocido, pero que resulta fundamental cuando hablamos de modelos grandes de lenguaje, el tamaño de los lotes, que se define como la cantidad de operaciones de entrada que se pueden procesador de forma simultánea en una única pasada de inferencia.
Un LLM que sea capaz de trabajar con varias operaciones de entrada o «inputs» de fuentes y aplicaciones diferentes será superior a otro que se tenga que limitar a una única fuente. Trabajar con lotes más grandes mejorará el rendimiento y el proceso de inferencia, pero al mismo tiempo aumentará la cantidad de memoria necesaria para que ese LLM pueda funcionar correctamente.
Para afrontar este tipo de cargas de trabajo lo ideal es contar con una GPU dedicada que tenga una cantidad de memoria gráfica adecuada. Por ejemplo, una GeForce RTX 4080 con 16 GB de memoria gráfica podrá trabajar con lotes más pequeños que una GeForce RTX 4090 con 24 GB de memoria gráfica, y lo mismo ocurrirá si comparamos a esta última con una NVIDIA RTX 6000, que tiene 48 GB de memoria gráfica.
La memoria gráfica importa, pero el hardware especializado y el software también juegan un papel fundamental para conseguir el máximo rendimiento trabajando con LLMs. Estos pueden aprovechar los núcleos tensor de las GeForce RTX y NVIDIA RTX, y tienen un soporte pleno en el kit de desarrollo NVIDIA TensorRT, lo que se traduce en una inteligencia artificial más eficiente y precisa, y en una mayor capacidad de respuesta a futuros desafíos.
Si halamos de generación de imágenes el rendimiento se puede medir también partiendo del tiempo necesario para generar cada imagen. Esto es lo que hace Procyon, por ejemplo, como podemos ver en la imagen adjunta, donde tenemos el rendimiento medio de una GeForce RTX 4090 para portátiles trabajando bajo FP16 (precisión media) y TensorRT como sistema de aceleración para mejorar el rendimiento.
Interesante, ¿verdad? Si te has quedado con ganas de saber más sobre la inteligencia artificial te recomiendo que eches un vistazo a la serie
AI Decoded de NVIDIA, donde encontrarás más información sobre esta tecnología aplicada a diferentes sectores, y también sobre otros conceptos muy importantes que son clave para entenderla.
0 Comentarios
Queremos ver tus comentarios, estos nos enriquecen y ayudan a mejorar nuestras publicaciones :
_______________________________________________