Os modelos GPT da OpenAI estão entre os modelos de linguagem mais potentes atualmente disponíveis, com a capacidade de gerar texto altamente coerente e contextualmente pertinente. Estes modelos utilizam tokens como a unidade elementar para calcular o comprimento de um texto. Mas o que são exatamente tokens e como funcionam? Neste guia, vamos aprofundar os detalhes dos tokens do OpenAI GPT, discutindo a sua definição, métodos para os contar e as suas aplicações práticas.
Entendendo os Tokens GPT do OpenAI
Os tokens no contexto dos modelos OpenAI GPT são grupos de caracteres que representam a unidade fundamental do texto. Estes tokens são gerados por um algoritmo de tokenização que separa o texto em segmentos mais pequenos seguindo determinadas regras, tais como espaços, sinais de pontuação e caracteres especiais. Por vezes, os tokens podem corresponder a palavras, mas nem sempre, uma vez que o tokenizador contempla todos os caracteres, incluindo emojis, como potenciais tokens.
Contagem de tokens no seu texto
Para determinar o número de tokens no seu texto, tem de o tokenizar utilizando um algoritmo de tokenização. O OpenAI fornece um tokenizador oficial que o pode ajudar neste processo. O número de tokens produzidos pelo tokenizador dependerá do idioma e do modelo específico utilizado. No entanto, como orientação geral, pode utilizar os seguintes rácios de palavra para token:
Inglês: 1 palavra ≈ 1,3 tokens
Espanhol: 1 palavra ≈ 2 tokens
Francês: 1 palavra ≈ 2 tokens
É crucial reconhecer que os sinais de pontuação são contados como um token, enquanto os caracteres especiais e os emojis podem ser contados como um a três tokens e dois a três tokens, respetivamente.
Aplicação prática de símbolos
Nos modelos GPT do OpenAI, os tokens são utilizados em conjunto com o parâmetro max_tokens para a geração de texto. O parâmetro max_tokens estipula o número máximo de tokens que devem ser gerados em qualquer requisição API. O valor de max_tokens deve sempre aderir à seguinte restrição: prompt_tokens + max_tokens ≤ limite do modelo, onde prompt_tokens denota o número de tokens no prompt.
O custo de um token dependerá do modelo específico utilizado e é facturado por 1000 tokens. Por exemplo, o preço de 1000 tokens para o ChatGPT é de USD 0,0020, enquanto para o contexto GPT-4 32k é de USD 0,1200.
Conclusão
Os tokens são um conceito fundamental nos modelos OpenAI GPT, simbolizando a unidade básica de texto empregue para gerar texto contextualmente relevante e coerente. Ao compreender a natureza dos tokens e a sua utilização prática, pode desbloquear todo o potencial dos modelos OpenAI GPT e criar conteúdo cativante que envolve e educa o seu público.
Google Bard e Duet AI: como a Europa e o Canadá podem utilizar o poder da IA no Google Workspace Now