Inteligencia artificial, TOPs y tokens: todo lo que debes saber

LA VOZ DE GOICOECHEA (Por Isidro Ros).- Hace cosa de seis años hablábamos de la inteligencia artificial como una tecnología prometedora, como un proyecto de futuro que podría transformar profundamente nuestra sociedad. Recuerdo perfectamente que en aquél momento no faltaron los escépticos que decían que todo era puro humo, y también había un sector que decía que no debíamos tener muchas expectativas, porque sus posibilidades reales se habían exagerado.

El tiempo ha pasado, y la verdad es que no hemos tenido que esperar mucho para ver que las predicciones más positivas eran las que tenían razón. La inteligencia artificial está transformando la forma en la que trabajamos, creamos, socializamos y jugamos. Su potencial es tan enorme que se ha extendido a diferentes sectores y niveles, y sigue siendo prometedora porque todavía nos encontramos en una etapa relativamente temprana, lo que significa que seguirá experimentando mejoras muy importantes.

Cuando hablamos de inteligencia artificial todos tenemos, más o menos claro, a qué nos estamos refiriendo. Sin embargo, con la popularización de esta tecnología han ido surgiendo nuevos conceptos que están profundamente vinculados a ella y que son muy importantes, pero que al mismo tiempo son menos conocidos. Hoy quiero profundizar en este tema, y me voy a centrar en dos grandes claves, los TOPs y los tokens.

Inteligencia artificial y TOPs

Los TOPs son una unidad de medida que podríamos comparar con otras más conocidas, como los FPS (fotogramas por segundo en juegos) o los GB/s (gigabytes por segundo) en unidades SSD. Esas siglas se refieren a trillones de operaciones por segundo, y como suele ocurrir en la mayoría de los casos cuando hablamos de rendimiento «más TOPs siempre es mejor».

Es una unidad muy fácil de entender. Los TOPs se refieren a los trillones de operaciones que un componente es capaz de realizar en un segundo. Por ejemplo, si una NPU (unidad de procesamiento neural) tiene un valor de potencia de 50 TOPs significa que es capaz de realizar 50 trillones de operaciones en un segundo. Esta sería menos potente que otra NPU con una potencia de 60 TOPs.

Los modelos de inteligencia artificial que utilizamos actualmente necesitan de ciertos valores de rendimiento para poder trabajar de forma óptima, y estos se miden en TOPs. Por ejemplo, Microsoft Copilot+ necesita de un mínimo de 40 TOPs para funcionar de forma óptima. Esto representa un valor orientativo que nos permite establecer el nivel mínimo para que funcionen modelos de IA sencillos de forma local.

Para poder mover modelos de IA mucho más avanzados y complejos impulsados por inteligencia artificial generativa, como por ejemplo los asistentes inteligentes de creación de contenidos digitales, la tecnología de reescalado inteligente aplicada a juegos en PC (NVIDIA DLSS), la generación de imágenes a partir de texto o vídeo y los LLMs (grandes modelos de lenguaje) es necesario contar con mucha más potencia, y es aquí donde entran en juego las GPUs.

Una NPU de última generación puede ofrecer alrededor de 50 TOPs, mientras que una GeForce RTX 4090 puede alcanzar, gracias a sus núcleos tensor de cuarta generación, la friolera de 1.300 TOPs. La diferencia es espectacular, y deja claro también que hay una importante división entre inteligencia artificial básica que se puede afrontar de forma asequible y eficiente, e inteligencia artificial avanzada, que requiere de componentes más punteros y avanzados.

Los TOPs son solo una cara de la moneda, conoce a los tokens

Ya sabes qué son exactamente los TOPs, pero cuando hablamos de LLMs la unidad de medida de rendimiento cambia y pasamos a utilizar los tokens. Sé lo que estás pensando, ¿qué es un token? Pues es muy sencillo, podemos definirlo como la cantidad de elementos de salida que puede generar un LLM. Por ejemplo, un token puede ser una palabra en una frase o incluso un elemento mucho más pequeño, como una letra o un signo de puntuación.

Por tanto, el rendimiento de los LLMs se puede medir en tokens por segundo. Llegados a este punto es importante introducir también otro concepto clave que es todavía menos conocido, pero que resulta fundamental cuando hablamos de modelos grandes de lenguaje, el tamaño de los lotes, que se define como la cantidad de operaciones de entrada que se pueden procesador de forma simultánea en una única pasada de inferencia.

Un LLM que sea capaz de trabajar con varias operaciones de entrada o «inputs» de fuentes y aplicaciones diferentes será superior a otro que se tenga que limitar a una única fuente. Trabajar con lotes más grandes mejorará el rendimiento y el proceso de inferencia, pero al mismo tiempo aumentará la cantidad de memoria necesaria para que ese LLM pueda funcionar correctamente.

Para afrontar este tipo de cargas de trabajo lo ideal es contar con una GPU dedicada que tenga una cantidad de memoria gráfica adecuada. Por ejemplo, una GeForce RTX 4080 con 16 GB de memoria gráfica podrá trabajar con lotes más pequeños que una GeForce RTX 4090 con 24 GB de memoria gráfica, y lo mismo ocurrirá si comparamos a esta última con una NVIDIA RTX 6000, que tiene 48 GB de memoria gráfica.

La memoria gráfica importa, pero el hardware especializado y el software también juegan un papel fundamental para conseguir el máximo rendimiento trabajando con LLMs. Estos pueden aprovechar los núcleos tensor de las GeForce RTX y NVIDIA RTX, y tienen un soporte pleno en el kit de desarrollo NVIDIA TensorRT, lo que se traduce en una inteligencia artificial más eficiente y precisa, y en una mayor capacidad de respuesta a futuros desafíos.

Si halamos de generación de imágenes el rendimiento se puede medir también partiendo del tiempo necesario para generar cada imagen. Esto es lo que hace Procyon, por ejemplo, como podemos ver en la imagen adjunta, donde tenemos el rendimiento medio de una GeForce RTX 4090 para portátiles trabajando bajo FP16 (precisión media) y TensorRT como sistema de aceleración para mejorar el rendimiento.

Interesante, ¿verdad? Si te has quedado con ganas de saber más sobre la inteligencia artificial te recomiendo que eches un vistazo a la serie AI Decoded de NVIDIA, donde encontrarás más información sobre esta tecnología aplicada a diferentes sectores, y también sobre otros conceptos muy importantes que son clave para entenderla.

- Goicoechea es el cantón número 8 de la provincia de San José, fundado en 1891. Hoy conformado por siete distritos: Guadalupe, San Francisco, Calle Blancos, Mata de Plátano, Ipís, Rancho Redondo y Purral. Donde orgullosamente decimos: "De la montaña a la ciudad, así se extiende mi cantón". "Goicoechea, Goicoechea, te llevo en el corazón." -

Los comentarios expresados en las secciones de opinión, reclamos del pueblo, campos pagados, negociemos, en la opinión de los lectores y comentarios de terceros al final de las notas o en las páginas de redes sociales, son responsabilidad exclusiva de sus autores.

La Voz de Goicoechea (www.lavozdegoicoechea.info) es un medio de comunicación independiente, y no toma como suyas dichas opiniones por lo que no se responsabiliza por el contenido emitido por terceros. Todas las imágenes que muestra este medio, se utilizan solo con fines ilustrativos, por tanto se respetan todos los derechos de autor según corresponda en cada caso, siendo nuestra principal labor de la informar a nuestros lectores.

Déjanos tus comentarios al final de cada nota que presentamos ;
nos interesa tú opinión al respecto. Te invitamos a participar...

Pueden escríbenos también a nuestro correo electrónico