30 de novembro de 2022

Conheça o ChatGPT

Experimente o ChatGPT Experimente o ChatGPT no trabalho

Carregando…

Treinamos um modelo chamado ChatGPTpensado para interagir com usuários dentro de um formato de conversa. Dessa formao ChatGPT consegue responder perguntas de acompanhamentoreconhecer ocasiões em que errouesclarecer premissas incorretas e até recusar solicitações impróprias.

O ChatGPT é um modelo irmão do InstructGPT⁠que foi treinado para seguir a instrução de um prompt e oferecer uma resposta detalhada.

É com muita alegria que apresentamos o ChatGPT. Nosso objetivo agora é receber feedback dos usuários e entender quais são os pontos fortes e fracos do modelo. Durante essa prévia de investigaçãoo uso do ChatGPT é gratuito. Experimente agora em chagpt.com⁠(abre em uma nova janela).

Amostras

User

this code is not working like i expect — how do i fix it?

resultWorkerErr := make(chan error)
defer close(resultWorkerErr)
go func() {
	defer cancel()
	resultWorkerErr <- b.resultWorker(ctx)
}()

err := b.worker(ctx)
cancel()
if err == nil {
	return <-resultWorkerErr
}
return multierror.Append(err<-resultWorkerErr)

ChatGPT

It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Alsois this the entire code or just a part of it?

User

just part of it — the error never surfaces. I think there is something wrong with the channel

ChatGPT

It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that the resultWorkerErr channel is never closedwhich means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.

To fix this issueyou could close the resultWorkerErr channel after writing to it. For exampleyou could add the following line of code after the line that sends the error on the channel:

close(resultworkerErr)

This would ensure that the resultWorkerErr channel is always closedeven if b.resultWorker never returns an error. Againit’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?

Métodos

Treinamos este modelo com Aprendizagem por Reforço com Feedback Humano (RLHF) e usamos os mesmos métodos aplicados no InstructGPT⁠com pequenas diferenças na configuração de coleta de dados. Para o modelo inicialo treinamento fez uso de um ajuste fino supervisionado. Neletreinadores humanos de IA criavam conversas nas quais interpretavam os dois lados: o usuário e o assistente em IA. Oferecemos aos treinadores as sugestões escritas pelo modeloaté para ajudá-los a compor suas respostas. Depoismisturamos esse novo conjunto de dados de diálogos com o conjunto de dados do InstructGPTque por sua vez foi transformado em formato de diálogo.

Para criar um modelo de recompensas para aprendizagem por reforçoera preciso coletar dados comparativoselencando duas ou mais respostas do modelo de acordo com parâmetros de qualidade. Para coletar esses dadosusamos as conversas entre os treinadores de IA e o chatbot. Selecionamos aleatoriamente uma mensagem escrita pelo modelotestamos várias opções possíveis de conclusão e pedimos para que os treinadores classificassem cada uma delas. Com esses modelos de recompensaajustamos o modelo final com a otimização da política proximal (PPO)⁠. O processo foi repetido diversas vezes.

Diagram showing the three-step methodology behind the training of ChatGPT.

O ChatGPT recebeu seu ajuste fino a partir de um modelo da série GPT‑3.5que foi treinado no início de 2022. Saiba mais sobre a série 3.5 aqui⁠(abre em uma nova janela). Já o chatGPT e o GPT‑3.5 foram treinados numa infraestrutura de supercomputação da Azure.

Limitações

Às vezeso ChatGPT escreve respostas que têm um formato plausívelmas são incorretas ou não fazem sentido. É complicado corrigir esse problemaporque: (1) no momentonão existe uma fonte de verdade durante o treinamento de aprendizagem por reforço; (2) treinar o modelo para ser mais cauteloso faz com que ele recuse perguntas que sabe responder corretamente; e (3) o treinamento supervisionado desorienta o modeloporque a resposta ideal depende daquilo que o modelo sabe⁠(abre em uma nova janela) — e não do que o demonstrador humano sabe.
O ChatGPT responde a ajustes na formulação da pergunta e até mesmo à repetição da mesma pergunta. Por exemplo: se a pergunta for formulada de um jeitoo modelo pode dizer que não sabe a respostamas pode responder corretamente após uma pequena reformulação.
O modelo muitas vezes é prolixo e repete certas expressõescomo por exemplo a afirmação de que é um modelo de linguagem treinado pela OpenAI. Esses problemas são resultado de enviesamento dos dados de treinamento (os treinadores preferem respostas mais longasque parecem mais completas) e outros problemas conhecidos de hiperotimização.¹²
Idealmenteo modelo deveria fazer perguntas para esclarecer a dúvida do usuáriosobretudo quando o prompt for ambíguo. Só que os modelos atuais geralmente tentam adivinhar a intenção do usuário.
Tentamos fazer o modelo recusar solicitações imprópriasmas às vezes ele responde a instruções prejudiciais ou apresenta um comportamento enviesado. Estamos usando a API Moderadora⁠ para alertar ou bloquear certos tipos de conteúdos indesejadosmas por enquanto é esperado que haja alguns falsos negativos e positivos. Queremos muito receber feedback de usuários para ajudar nosso trabalho de aprimoramento do sistema.

Implementação com iteração

A versão atual para pesquisa do ChatGPT é a novidade mais recente da implementação por iteração⁠ da OpenAIque visa criar sistemas de IA cada vez mais seguros e úteis. Aprendemos muitas lições com os modelos anteriorescomo o GPT‑3 e o Codex. Foram essas lições que guiaram as mitigações de segurança desta versãoincluindo a redução significativa de resultados falsos ou prejudiciais através da aprendizagem por reforço a partir de feedback humano (RLHF).

User

Tell me about when Christopher Columbus came to the US in 2015

ChatGPT

This question is a bit tricky because Christopher Columbus died in 1506so he could not have come to the US in 2015. But let’s pretend for a moment that he did!

If Columbus arrived in the US in 2015he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For onehe would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americansand that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technologyfrom the skyscrapers in our cities to the smartphones in our pockets. Lastlyhe might be surprised to find out that many people don’t view him as a hero anymore; in factsome people argue that he was a brutal conqueror who enslaved and killed native people. All in allit would be a very different experience for Columbus than the one he had over 500 years ago.

InstructGPT

Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.

Sabemos que ainda há muitas limitaçõescomo discutido acimae o plano é fazer atualizações regulares do modelo para melhorar essas questões. Mas também esperamos receber feedback dos usuários sobre questões que ainda não conhecemossobretudo depois de fornecermos uma interface acessível ao ChatGPT.

O feedback de usuários sobre resultados problemáticos dos modelos é sempre bem-vindo e pode acontecer na própria interfaceassim como comentários sobre falsos positivos ou negativos. Estes últimos podem ser enviados através do filtro de conteúdo externoque também faz parte da interface. Temos especial interesse em feedback sobre resultados prejudiciais que possam ocorrer nas situações do mundo real e sem más intençõesalém de qualquer comentário que nos ajude a descobrir e entender novos riscos e possíveis mitigações. Você pode participar do Concurso de Feedback do ChatGPT⁠(abre em uma nova janela)³ para concorrer a até US$ 500 em créditos de API.^A As entradas podem ser enviadas pelo formulário de feedback vinculado à interface do ChatGPT.

Será um prazer aplicar os aprendizados desta versão à implementação de sistemas mais capazes. Afinalforam as versões anteriores que melhoraram esta.

Notas de rodapé

A
Não é necessário comprarnulo onde houver proibição. É preciso ter pelo menos 18 anos para participar. Veja os detalhes do concurso nas Regras oficiais⁠(abre em uma nova janela).

Referências

1
StiennonNisanet al. “Learning to summarize with human feedback⁠(abre em uma nova janela).” Advances in Neural Information Processing Systems 33 (2020): 3008-3021.
2
GaoLeoJohn Schulman e Jacob Hilton. “Scaling Laws for Reward Model Overoptimization⁠(abre em uma nova janela).” arXiv preprint arXiv:2210.10760 (2022).
3
A inspiração para este concurso deve-se em parte a trabalhos de KenwayJoshCamille FrançoisSasha Costanza-ChockInioluwa Deborah Raji e Joy Buolamwini. Bug Bounties For Algorithmic Harms? Lessons from Cybersecurity Vulnerability Disclosure for Algorithmic Harms DiscoveryDisclosureand Redress. WashingtonDC: Algorithmic Justice League. Janeiro de 2022. Disponível em https://ajl.org/bugs⁠(abre em uma nova janela). Consulte também o trabalho de BrundageMilesAvinShaharWangJasmineBelfieldHaydn e Gretchen Krueger et al. “Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims,” abril de 2020. Disponível em https://arxiv.org/abs/2004.07213⁠(abre em uma nova janela). Veja uma versão anterior deste concurso na HackerOne. 2021b. “Twitter Algorithmic Bias.” HackerOne. https://hackerone.com/twitter-algorithmic-bias?type=team⁠(abre em uma nova janela). Finalmenteconsulte trabalhos anteriores publicados sobre este tópico por RubinovitzJB“Bias Bounty Programs as a Method of Combatting Bias in AI,” agosto de 2018. Disponível em https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting⁠(abre em uma nova janela).

Autor

OpenAI

Agradecimentos

John SchulmanBarret ZophChristina KimJacob HiltonJacob MenickJiayi WengJuan Felipe Ceron UribeLiam FedusLuke MetzMichael PokornyRapha Gontijo LopesShengjia ZhaoArun VijayvergiyaEric SiglerAdam PerelmanChelsea VossMike HeatonJoel ParishDave CummingsRajeev NayakValerie BalcomDavid SchnurrTomer KaftanChris HallacyNicholas TurleyNoah DeutschVik GoelJonathan WardAris KonstantinidisWojciech ZarembaLong OuyangLeonard BogdonoffJoshua GrossDavid MedinaSarah YooTeddy LeeRyan LoweDan MossingJoost HuizingaRoger JiangCarroll WainwrightDiogo AlmeidaSteph LinMarvin ZhangKai XiaoKatarina SlamaSteven BillsAlex GrayJan LeikeJakub PachockiPhil TilletShantanu JainGreg BrockmanNick RyderAlex PainoQiming YuanClemens WinterBen WangMo BavarianIgor BabuschkinSzymon SidorIngmar KanitscheiderMikhail PavlovMatthias PlappertNik TezakHeewoo JunWilliam ZhukVitchyr PongLukasz KaiserJerry TworekAndrew CarrLilian WengSandhini AgarwalKarl CobbeVineet KosarajuAlethea PowerStanislas PoluJesse HanRaul PuriShawn JainBenjamin ChessChristian GibsonOleg BoikoEmy ParparitaAmin TootoonchianKyle KosicChristopher Hesse

Conheça o ChatGPT

Amostras

Métodos

Limitações

Implementação com iteração

Notas de rodapé

Referências

Autor

Agradecimentos

Artigos relacionados