Entendendo os tokens GPT do OpenAI: Um guia abrangente

como funciona a inteligência artificial, representada por pequenos quadrados que se encaixam num quadrado maior

Os modelos GPT da OpenAI estão entre os modelos de linguagem mais potentes atualmente disponíveis, com a capacidade de gerar texto altamente coerente e contextualmente pertinente. Estes modelos utilizam tokens como a unidade elementar para calcular o comprimento de um texto. Mas o que são exatamente tokens e como funcionam? Neste guia, vamos aprofundar os detalhes dos tokens do OpenAI GPT, discutindo a sua definição, métodos para os contar e as suas aplicações práticas.

Entendendo os Tokens GPT do OpenAI

Os tokens no contexto dos modelos OpenAI GPT são grupos de caracteres que representam a unidade fundamental do texto. Estes tokens são gerados por um algoritmo de tokenização que separa o texto em segmentos mais pequenos seguindo determinadas regras, tais como espaços, sinais de pontuação e caracteres especiais. Por vezes, os tokens podem corresponder a palavras, mas nem sempre, uma vez que o tokenizador contempla todos os caracteres, incluindo emojis, como potenciais tokens.

Contagem de tokens no seu texto

Para determinar o número de tokens no seu texto, tem de o tokenizar utilizando um algoritmo de tokenização. O OpenAI fornece um tokenizador oficial que o pode ajudar neste processo. O número de tokens produzidos pelo tokenizador dependerá do idioma e do modelo específico utilizado. No entanto, como orientação geral, pode utilizar os seguintes rácios de palavra para token:

 

Inglês: 1 palavra ≈ 1,3 tokens

Espanhol: 1 palavra ≈ 2 tokens

Francês: 1 palavra ≈ 2 tokens

 

É crucial reconhecer que os sinais de pontuação são contados como um token, enquanto os caracteres especiais e os emojis podem ser contados como um a três tokens e dois a três tokens, respetivamente.

Aplicação prática de símbolos

Nos modelos GPT do OpenAI, os tokens são utilizados em conjunto com o parâmetro max_tokens para a geração de texto. O parâmetro max_tokens estipula o número máximo de tokens que devem ser gerados em qualquer requisição API. O valor de max_tokens deve sempre aderir à seguinte restrição: prompt_tokens + max_tokens ≤ limite do modelo, onde prompt_tokens denota o número de tokens no prompt.

O custo de um token dependerá do modelo específico utilizado e é facturado por 1000 tokens. Por exemplo, o preço de 1000 tokens para o ChatGPT é de USD 0,0020, enquanto para o contexto GPT-4 32k é de USD 0,1200.

Conclusão

Os tokens são um conceito fundamental nos modelos OpenAI GPT, simbolizando a unidade básica de texto empregue para gerar texto contextualmente relevante e coerente. Ao compreender a natureza dos tokens e a sua utilização prática, pode desbloquear todo o potencial dos modelos OpenAI GPT e criar conteúdo cativante que envolve e educa o seu público.

 

Google Bard e Duet AI: como a Europa e o Canadá podem utilizar o poder da IA no Google Workspace Now