Comprender los tokens GPT de OpenAI: Una guía completa

ejemplo de cómo funcionan los tokens con cuadrados que encajan

Los modelos GPT de OpenAI se cuentan entre los modelos lingüísticos más potentes de la actualidad, con capacidad para generar textos muy coherentes y pertinentes desde el punto de vista contextual. Estos modelos emplean tokens como unidad elemental para calcular la longitud de un texto. Pero, ¿qué son exactamente los tokens y cómo funcionan? En esta guía profundizaremos en los detalles de los tokens de OpenAI GPT, analizando su definición, los métodos para contarlos y sus aplicaciones prácticas.

Entender los tokens GPT de OpenAI

Los tokens en el contexto de los modelos GPT de OpenAI son grupos de caracteres que representan la unidad fundamental del texto. Estos tokens son generados por un algoritmo tokenizador que segrega el texto en segmentos más pequeños siguiendo ciertas reglas, como espacios, signos de puntuación y caracteres especiales. Los tokens pueden corresponder en ocasiones a palabras, pero no siempre, ya que el tokenizador contempla todos los caracteres, incluidos los emojis, como tokens potenciales.

Recuento de tokens en el texto

Para conocer el número de tokens de un texto, es necesario tokenizarlo mediante un algoritmo tokenizador. OpenAI proporciona un tokenizador oficial que puede ayudarle en este proceso. El número de tokens producidos por el tokenizador dependerá del idioma y del modelo específico utilizado. Sin embargo, como pauta general, puede utilizar las siguientes proporciones de palabra a token:

Inglés: 1 palabra ≈ 1,3 tokensEspañol: 1 palabra ≈ 2 tokensFrancés: 1 palabra ≈ 2 tokens

Es fundamental tener en cuenta que los signos de puntuación se cuentan como un token, mientras que los caracteres especiales y los emojis pueden contarse de uno a tres tokens, y de dos a tres tokens, respectivamente.

Aplicación práctica de los tokens

En los modelos GPT de OpenAI, los tokens se utilizan junto con el parámetro max_tokens para la generación de texto. El parámetro max_tokens estipula el número máximo de tokens que deben generarse en cualquier solicitud de API. El valor de max_tokens siempre debe adherirse a la siguiente restricción: prompt_tokens + max_tokens ≤ límite del modelo, donde prompt_tokens denota el número de tokens en el prompt.

El coste de una ficha dependerá del modelo específico utilizado, y se factura por 1000 fichas. Por ejemplo, el precio de 1000 tokens para ChatGPT es de 0,0020 USD, mientras que para GPT-4 32k context, es de 0,1200 USD.

Conclusión

Los tokens son un concepto fundamental en los modelos GPT de OpenAI, ya que simbolizan la unidad básica de texto empleada para generar texto contextualmente relevante y coherente. Si comprende la naturaleza de los tokens y su uso práctico, podrá liberar todo el potencial de los modelos GPT de OpenAI y crear contenidos cautivadores que atraigan y eduquen a su audiencia.

Google Bard y Duet AI: cómo Europa y Canadá pueden utilizar el poder de la IA en Google Workspace Now

Back to Blog