arrow_back Volver
Inicio keyboard_arrow_right Artículos keyboard_arrow_right Artículo

Qué son los tokens en inteligencia artificial generativa

Uriel Hernández

CTO de Código Facilito

av_timer 5 Min. de lectura

remove_red_eye 1897 visitas

calendar_today 06 Enero 2026

El concepto de tokens en la era de la inteligencia artificial generativa se ha convertido en un tema de mucha relevancia, con poca claridad de qué significa y por qué los utilizamos, en este artículo vamos a explicar qué son los tokens, para qué los utilizamos, y cómo podemos usarlos para optimizar nuestras aplicaciones.

Qué son los tokens

Un modelos de IA generativa de texto utiliza tokens para procesar y generar texto nuevo.

El token es la unidad más pequeña de texto que puede ser procesada por un modelo de IA generativa; cada modelo tiene su propio vocabulario de tokens, y su propio modo de procesarlos, de manera que no todos los tokens son iguales en todos los modelos.

En teoría, un token puede representar un caracter, parte de una palabra, o una palabra completa, dependiendo del modelo y del contexto. Para GPT-4 un token corresponde, en promedio, a 4 caracteres.

Al proceso de dividir el texto en tokens se le conoce como tokenización.

Puedes utilizar el sitio web de OpenAI para visualizar la tokenización de un texto. Por ejemplo para el texto “Hola, mundo” el tokenización sería:

[
  "hola",
  ",",
  "mundo"
]

Como puedes ver, el texto se divide en 3 tokens: “hola”, “,”, y “mundo”.

¿Por qué no palabras?

Para entender qué son y por qué existen los tokens primero resolvamos una pregunta importante, ¿por qué no palabras?

Los tokens utilizan “sub palabras” para representar el texto, en lugar de palabras completas, y existen varias razones por las cuales los investigadores de IA han optado por este enfoque:

  1. Eficiencia: Los tokens son más pequeños que las palabras, lo que permite procesar más texto en menos tiempo.
  2. Flexibilidad: Los tokens permiten representar palabras compuestas y frases complejas de manera más eficiente.
  3. Generalización: Los tokens pueden ser reutilizados en diferentes contextos, lo que permite una mayor generalización del modelo.
  4. Escalabilidad: Los tokens permiten procesar grandes cantidades de texto de manera más eficiente.

El diccionario de inglés contiene cientos de miles de palabras, si el modelo tuviera que aprender cada una de estas, el diccionario del modelo sería enorme y poco práctico. Al optar por estas “sub palabras” el modelo puede mantener un diccionario más pequeño y aún así procesar cualquier palabra o frase que se le pase.

Un ejemplo de este proceso es la “sub palabra” “ing” del inglés, por ejemplo la palabra “working” se puede representar con 2 tokens: “ing” y “work”.

Para los modelos más modernos como GPT-4 esta división de palabras sólo se realiza para las palabras menos comúnes como “instagrameable” que puede dividirse en “instagram” y “meable”.

Esta funcionalidad, además, le permite al modelo procesar palabras que no están en su diccionario, al dividirla en tokens conocidos que le den una idea de lo que significa la palabra.

Tokenización

El proceso más simple de tokenización es el de dividir el texto en palabras, un proceso conocido como “word level tokenization”, en este proceso el texto se divide por los espacios en blancos, y caracteres especiales.

Después de esta división se crea un vocabulario de tokens, un diccionario de tokens que se utiliza para representar el texto. En este vocabulario los tokens son mapeados a un número entero, de manera que el texto se puede representar como una secuencia de números.

Un ejemplo de este proceso es el siguiente:

{
  "hola": 1,
  "mundo": 2
}

En este ejemplo el texto “Hola, mundo” se representa como la secuencia de tokens [1, 2].

Cada modelo cuenta con un vocabulario predefinido resultado del entrenamiento del modelo con un corpus de texto. Cuando una palabra no está en el vocabulario se representa como un token desconocido, a esto se le conoce como “out of vocabulary” (OOV).

Otro proceso de tokenizacion popular es el Byte Pair Encoding (BPE), en este proceso el texto se divide en pares de caracteres, y se crea un vocabulario de tokens a partir de estos pares.

Un ejemplo de este proceso es el siguiente:

{
  "i": 1,
  "'m": 2,
  "work": 3,
  "ing": 4,
  "from": 5,
  "home": 6
}

En este ejemplo el texto “I’m working from home” se representa como la secuencia de tokens [1, 2, 3, 4, 5, 6]. Esta solución es más eficiente que la tokenización por palabras, ya que permite representar palabras compuestas y frases complejas de manera más eficiente.

La importancia de los tokens

Para un modelo los tokens son relevantes por 2 principales razones:

  1. El precio de ejecución de una tarea está medido por los tokens utilizados para entender el prompt y generar la respuesta.
  2. La velocidad de respuesta del modelo puede medirse en la cantidad de tokens procesados por segundo.

Input vs. Output: No todos los tokens “cuestan” lo mismo

Aunque un token es una unidad de medida estándar, desde la perspectiva del hardware y los costos, existe una diferencia crucial entre los tokens que el usuario envía (Input o Prompt) y los que el modelo genera (Output o Completion).

A menudo los tokens de salida son significativamente más caros, hasta 3 veces más que los de entrada. ¿A qué se debe esto?

  1. Uso eficiente del cómputo
    En el procesamiento de entrada, la GPU puede procesar todas las relaciones entre las palabras de tu entrada en paralelo. Es una operación matemáticamente pesada que aprovecha al 100% la capacidad de cálculo de la tarjeta gráfica. Esto no es posible en el procesamiento de salida, donde el modelo debe generar un token a la vez, y debe tener presente todo el contexto anterior.

  2. Uso eficiente de la memoria
    Aquí es donde entra el verdadero costo técnico. Para generar cada nuevo token de salida, el modelo no solo “piensa” en la palabra actual, sino que debe tener presente todo el contexto anterior.

Para no recalcular todo desde cero cada vez, el modelo utiliza algo llamado KV Cache (Key-Value Cache), que guarda los cálculos previos. El problema es que, por cada palabra que el modelo genera, la GPU debe mover toda esa memoria (el caché) desde el almacenamiento a los núcleos de procesamiento.

En el Input, la GPU pasa más tiempo calculando (Compute-bound).

En el Output, la GPU pasa más tiempo esperando a que los datos se muevan de la memoria al procesador (Memory-bound).

Esto explica por qué los tokens de salida son más caros, ya que la tarjeta gráfica es ocupada más tiempo que cuando se leen tokens de entrada.

Mejores prácticas para optimizar tokens

Optimizar tokens significa optimizar costos, y optimizar tiempos de respuesta, para ello existen varias mejores prácticas:

  1. Elegir adecuadamente el contexto
    La ingeniería de contexto es una de las claves para optimizar los tokens, ya que el contexto es el conjunto de información que el modelo utiliza para generar la respuesta (Input). Entre más contexto se le proporcione al modelo, más tokens se necesitarán para generar la respuesta.

  2. Ingeniería de prompts optimizada
    Evita explicaciones verbosas y omite ejemplos innecesarios. Enfócate en proporcionar la información más relevante y necesaria para generar la respuesta.

  3. Define el límite para la respuesta del modelo
    Define un límite para la respuesta del modelo, ya que el modelo puede generar una respuesta muy larga si se le proporciona un contexto muy largo. Puedes utilizar el prompt para definir el límite de la respuesta, o utilizar el parámetro corespondiente de la API del proveedor.

  4. Reinicia la conversación
    No recicles conversaciones anteriores cuando buscas nuevas respuestas, ya que el modelo debe procesar el contexto anterior para generar la nueva respuesta. Esto es especialmente importante cuando se utiliza un modelo de IA que no tiene memoria.