Episódios de IA Sob Controle - Inteligência Artificial

236: O significado de inteligência na era dos LLMs, com Adrian Valentim

25 de março de 20261h45min
0:00 / 1:45:47

Nesta semana, tivemos um papo repleto de referências a respeto do que é inteligência, os limites dos modelos (e das formas de medir suas capacidades), e do caminho que a IA deve tomar de agora em diante.

Vem ver quem participou desse papo:

⁠⁠Marcus Mendes⁠⁠, host sob controle⁠⁠Fabrício Carraro⁠⁠, co-host sob controle, Program Manager da Alura, ⁠⁠autor de IA⁠⁠ e host do podcast  Carreira Sem FronteirasAdrian Valentim, Engenheiro de Machine Learning

Links:

Entrevista do Fabrício no continuamenteUniversal Intelligence: A Definition of Machine IntelligenceOn the Measure of IntelligenceARC-AGIA conversa que levou Blake Lemoine a crer que o LAmDA...
Assuntos18
  • Definição de InteligênciaInteligência Universal (Legg-Hutter) · Definição de François Chollet · Capacidade de buscar recompensas · Flexibilidade em diferentes ambientes · Aquisição eficiente de habilidades
  • Inteligência Artificial Geral (AGI)Possibilidade de simulação do cérebro · Leis de escala continuando · Probabilidade de AGI · Capacidades em diversos benchmarks
  • Computação TeóricaTese Church-Turing · Computação universal · Limites da computabilidade · Cérebro humano como sistema computável
  • Inteligência ArtificialHistória do termo (conferência Dartmouth 1956) · Diferença entre cibernética e IA · Críticas ao termo na mídia brasileira · Distinção entre nome da área e descrição de capacidades
  • Mecanismos de ação e funcionamentoDireções de verdade no espaço de ativação · PCA e representações internas · Diferença entre probabilidade e verdade · Sentenas negadas como contra-exemplo
  • Benchmarks de Inteligência (ARC-AGI, Humaneval, etc)ARC-AGI como teste de flexibilidade · GPT-5.4 atingindo 83% no ARC-AGI · Humans médios em 60% · Meta-Frontier e problemas de ponta de pesquisa
  • Consumo de Energia e Água em Data CentersNecessidade crescente de energia · Comparação com outras indústrias · Energia nuclear como solução · Pequenos reatores modulares (SMRs)
  • LLMs e Papagaios EstocásticosRefutação do argumento papagaio estocástico · Limitações físicas de tabelas de memorização · Modelos como tabelas vs processamento real · Prova matemática da impossibilidade
  • Comportamento Emergente em Sistemas DeterminísticosImpossibilidade de prever comportamento futuro · Emergência em sistemas simples (Regra 110) · Limitations of interpretability · More is Different (physics)
  • Esquerdomachismo EmpreendedorismoTeoremas matemáticos inéditos · Problemas de pesquisa em aberto · Capacidade de raciocínio matemático · Contra-exemplo ao papagaio estocástico
  • Interação Humano-IA e PromptingTreating models like agents · Explicar contexto antes de ordens · Melhor desempenho com intenções · Termos psicológicos vs engenharia
  • Energia NuclearSegurança de reatores modulares · Resíduos nucleares minimizados · Vantagem sobre energia solar · Soberania energética do Brasil
  • Origens das Redes Neurais ArtificiaisWarren McCulloch e Walter Pitts · Frank Rosenblatt e perceptron · Influência da psicologia e neurociência · Evolução até transformers modernos
  • EducaçãoConnected Papers para navegação de artigos · Notebook LM para análise de documentos · Zotero para gerenciamento de papers · Claude Opus 4.6 Learning Mode
  • Otimismo e perspectivas futurasNecessidade de progresso tecnológico · Riscos de estagnação · Hiperestitição positiva · Machines of Loving Grace (Dario Amodei)
  • Blake Lemoine e consciência do LaMDAConversação com LaMDA · Reivindicações de sentência · Refutação científica · Diferença entre inteligência e consciência
  • Recomendacoes de LivrosUnderstanding Deep Learning (Simon Prince) · Linear Algebra Done Right (Axler) · Deep Learning (Bishop) · Importância de algebra linear
  • História pessoal e trajetóriaTransição de web developer para machine learning · Interesse em neurociência e psicologia · Formação autodidata em programação · Evolução profissional
Transcrição211 segmentoswhisper-cpp/large-v3-turbo

Olá, bem-vindas e bem-vindos à edição de quarta-feira, edição de entrevista do IA Sobre Controle, o seu podcast com overfitting de informações sobre o mundo da inteligência artificial. Eu sou o Marcos Mendes e tenho, claro, assim como outra semana por aqui, o Fabrício Carraro, viajante poliglota, host do podcast Carreiras Sem Fronteiras e program manager da Alura. Fabrício, tudo bem? E aí, pessoal? E aí, Marcos? Bem-vindos a mais uma entrevista, uma que tem de tudo para ser uma das mais legais aqui do programa,

com um amigo aqui meu, já participei algumas vezes lá do programa dele, que é um dos meus canais de YouTube preferidos do Brasil e do mundo, honestamente. Sou bem fã dele e do pessoal do Rolandinho também, enfim. Mas é um prazer ter ele aqui. Sim, Adriano Valentim, bem-vindo ao IA Sob Controle. Muito obrigado por me terem aqui. Obrigado, Fabrício. Obrigado, Marcos. Eu também escuto bastante o IA Sob Controle, então eu até estava comentando com o Marcos

que eu já tenho uma relação parasocial com ele, já ter ouvido muito a voz dele. Com o Fabrício a gente já conversou várias vezes, então já deixou de ser parasocial, mas tinha também isso. Então tô muito feliz pelo convite. Já deu tempo de dar saudade do Fabrício, porque vocês, no dia da gravação aqui do episódio, faz um dia que saiu um episódio lá do Continuamente, da mega corporação do Infinitamente, do papo que vocês bateram, né? Isso, isso. Acho que ficou muito legal, a gente falou sobre todas as ferramentas, que é algo que vocês cobrem

todos os dias, mas para trazer para aquele público que até então a gente tinha conversado principalmente sobre bases e fundamentos de inteligência artificial. Agora a gente trouxe uma conversa que eu acho que ficou bem legal, um resumão sobre o estado da arte em IA. Boa. E você é engenheiro de machine learning e já fazia isso antes de ser legal. Você é um dos hipsters do machine learning. Sim. E certamente deve ter sido interessante ver todo o resto do mundo acordar para isso ao longo dos últimos anos. Então como é que tem sido a sua evolução da relação com machine learning,

Então, é curioso porque eu comecei com a ideia de machine learning, eu quase fui empurrado para isso pelo meu interesse na ideia de inteligência de máquina, inteligência artificial, no sentido mais puro da coisa. E em uma época onde machine learning por si só não era visto desse jeito. Inclusive, o termo inteligência artificial era muito mal visto entre colegas, professores que eu já tive, etc. Era algo que era visto quase como ficção científica, algo meio mitológico.

e etc. Eu me interessei por Machine Learning justamente porque eu já programava fazia acho que mais de 10 anos quando eu comecei a mexer especificamente com Machine Learning e trabalhava na área dentro e fora disso, fazia um 7 ou 8, porque é até algo que talvez a gente possa entrar sobre, mas eu entrei em programação numa época onde era muito informal, eu acho que só tinha mato naquela época, então boa parte do meu trabalho relacionado a isso

tinha sido informal, fazendo coisa de web dev ali, ou sistemas de engenharia em algum lugar, ou fazendo algo, às vezes, até embarcado em uma coisa ou outra. E machine learning, para mim, surgiu com essa ideia de eu já me interessava por coisas relacionadas à neurociência, psicologia, etc. E, principalmente, essa ideia de entender a inteligência humana. E machine learning era uma área que estava distante disso, de certa forma, pelo menos para quem estava praticando na área.

das pessoas pensavam muito mais com reconhecimento de padrões do que com inteligência artificial, mas era pelo menos uma aproximação disso. Era algo que me deixava mais perto dessas coisas que eu tinha mais interesse de fato de entender. E você chegou a trabalhar efetivamente com isso ou acabou sendo uma coisa mais da pesquisa que você estava fazendo ou vem fazendo? Eu cheguei a trabalhar com machine learning principalmente no contexto de data science, que era algo que é muito próximo. Eu acho que algumas pessoas que estão ouvindo talvez até

escutem isso com, sei lá, arranhando os próprios ouvidos, porque veem como algo muito diferente, mas normalmente quando você vai trabalhar em uma empresa, sei lá, em algo relacionado à consultoria, etc., que você chega e quer resolver algum problema, raramente existe essa distinção entre o que é o engenheiro de machine learning, o que é o data scientist, inclusive o termo data science é algo que foi inventado pela meta depois, etc., mas boa parte desse trabalho com machine learning eram coisas muitíssimo mais simples do que a gente vê

hoje, por exemplo, com modelos de linguagem. Eram coisas muito mais relacionadas a, por exemplo, essa pessoa vai fazer um entendimento nesse endereço, em tal horário, e eu quero algum jeito de otimizar, por exemplo, quais são as atividades que ela vai fazer nesse sentido. Ou um usuário vai entrar nesse site e ele sempre clica nisso, e nisso, e nisso, e eu quero facilitar a interface dele. Então você vai fazer algo como, por exemplo, uma regressão paramétrica, você vai fazer, às vezes, uma regressão linear.

muito mais simples que alguém que poderia programar, por exemplo, no próprio PC e etc. E claro, hoje a gente sabe que essas coisas, elas estavam na origem natural do que ia nos levar para, por exemplo, modelos de linguagem, etc. E muito das técnicas ligadas a esse tipo de atividade são usadas ainda nesse tipo de inteligência artificial que a gente realmente reconhece como inteligência artificial. Mas, de novo, eu acho que nessa época era muito pouco claro para todo mundo na minha volta e todo mundo que usava isso, por exemplo, os chefes que eu já tive,

que eu já tive, que, de algum jeito, aquela função específica de regressão é uma versão minúscula, talvez, e muito incapaz, de algo que poderia ter uma inteligência comparável a um ser humano, como é algo que se tornou dentro do discurso popular agora. E eu queria já juntar com outra, que é... Eu já vi você falando sobre isso, mas eu queria pegar de novo a sua opinião sobre isso aqui. Sobre o próprio termo, né? Você falou que seus professores torciam o nariz, muitas vezes, para o próprio termo de inteligência artificial,

vem lá da conferência de Darth Maul, acho que foi em 1956, que é um nome marqueteiro, acaba sendo um nome marqueteiro, e que pegou basicamente, a gente vem usando até hoje aí, só que o outro lado que eu venho vendo bastante aí na mídia, principalmente por uma pessoa específica falando que a inteligência não é nem inteligente e nem artificial. E teve também a questão dos papagaios estocásticos e tudo mais, falando aí já sobre

os LLMs mais aplicados para hoje em dia, né, últimos 10, 15 anos, vamos dizer assim, já com mais poder computacional. Qual que é a sua visão sobre isso? Então, é curioso porque o termo inteligência artificial, existe uma história que o termo inteligência artificial, ele veio principalmente porque o termo antes de inteligência artificial, ele era cibernética, né, a área que se estudava era cibernética. E uma dessas pessoas que eram um dos pesquisadores na área de cibernética, ele teve uma briga com basicamente o fundador,

da cibernética que deu o termo, e por conta disso, quando ele foi fazer a conferência dele, ele quis criar um novo termo para se diferenciar disso. Então, o termo inteligência artificial não tem um significado muito profundo, exceto que era algo que as pessoas naquela época buscavam naquele momento. No entanto, existe uma discussão, principalmente no Brasil, eu não vejo isso muito em inglês, de que, de algum jeito, chamar de inteligente, por exemplo, esses modelos de linguagem, é um grande erro,

Então, por que a gente chama de inteligência artificial? Algumas pessoas assumem que é inteligente. Esse mal entendido é algo que eu demorei bastante para perceber que estava acontecendo, mas são duas coisas diferentes. A gente tem um nome para uma área que a gente poderia chamar de cibernética, que a gente poderia chamar do que a gente quisesse, mas existe a constatação de que a gente pode usar ou não o termo inteligência para descrever o que esses sistemas são capazes. E a defesa que eu faço é que já faz um certo tempo que sim,

completamente racional e aplicável ao termo inteligência para descrever esses sistemas, e é muito difícil pensar em alguma definição de inteligência que seja razoável, e a gente pode até entrar nos detalhes delas, que não se aplique a esses sistemas. E essa literatura de o que é inteligência e como definir inteligência é algo muito extenso, que inclusive é algo que precede a própria inteligência artificial, no sentido de que a gente já tinha essa necessidade de tentar definir o que é inteligência, ou o que é inteligência humana,

a inteligência humana versus a inteligência de um chimpanzé, ou até a inteligência, por exemplo, de uma célula, que é estudado por áreas da ciência, como, por exemplo, a cognição basal, que pensa nesse tipo de pergunta. Uma célula específica, ela consegue ter inteligência, ou esse grupo de células consegue ter inteligência, e etc. Então, essas questões são muito antigas, e a gente tem bastante literatura, e olhando em quase qualquer definição que foi pensada antes ou depois de inteligência artificial por pessoas,

que gostam ou não da área, ainda assim é praticamente impossível qualquer definição razoável que não inclua, por exemplo, uma LLM do jeito que ela é hoje. Mas o que é inteligência, então, olhando para esses caras que estavam pesquisando isso mesmo antes de 1956, lá do termo inteligência artificial? É resolução de problemas? É memória, planejamento, tudo isso? Ou não é isso exatamente? Então, existe um artigo que eu acho muito interessante, eu super recomendo porque eu acho que ele é bem acessível,

foi escrito por Legge e Hutter, que hoje eles são pesquisadores da Google, se eu não me engano, mas nessa época eles estavam em universidades, onde eles leem mais de 70 definições de psicólogos proeminentes do que é inteligência, e eles tentam extrair o que tem em comum entre essas definições. E daí, claro, alguns psicólogos dão definições que são muito paroquiais, no sentido de é inteligente conseguir dinheiro, ter família, ter sucesso, saber vários idiomas,

Só que esse tipo de definição muito específica não é tão agradável porque, por exemplo, ela claramente exclui algo como um chimpanzé ou um bonobo e etc, que são criaturas que claramente a gente entende como inteligentes. Apesar de ser uma inteligência levemente diferente da nossa, a gente claramente reconhece neles esse tipo de inteligência. Mas se a gente pega o que essa pessoa quis dizer nesses casos e tenta extrair também das outras que dão inteligências mais gerais, a gente tem alguns padrões.

Então, inteligente é aquele que consegue conseguir recompensas. E a outra coisa é a flexibilidade. Então, busca de recompensas em vários ambientes diferentes. E essa, inclusive, é a definição que os próprios Legge e Hutter escolhem como o que eles chamam de inteligência universal, que seria a capacidade de buscar recompensas em uma vasta gama de ambientes diferentes.

fazem, então você chega em algum lugar e você consegue extrair desse lugar exatamente o que você quer. E a outra vai pra essa ideia de que não basta você ser bom em uma coisa, como por exemplo o programa que ganhou de Kasparov em 1996, você além disso tem que saber ser bom em vários ambientes diferentes, tem que ter flexibilidade. Então o implícito aí estaria a capacidade de aprender, a capacidade de digamos, ter uma inteligência mais geral. Existem várias outras contestações disso, embora eu acho que essa é um dos grandes

Marcos, essa ideia de Legge-Hutter, e é super congruente com boa parte dos psicólogos. Eu posso dar uma de psicólogos mesmo, que todo mundo conhece William James, que é um dos, talvez um dos psicólogos mais famosos do século XX, e a dele é conseguir chegar no mesmo objetivo por diferentes meios. Então, perceba como é quase a mesma coisa que o Legge-Hutter. Você tem um objetivo e você chega nele, mas você tem que ser capaz de chegar nesse objetivo por diferentes meios. Então, se vocês lerem as definições

É muito curioso isso, como a gente tem 70 definições diferentes, mas quase todas elas parecem concordar com essas questões. Existe uma outra pessoa, no entanto, que vai para um lado bem diferente, que eu acho que é muito relevante também, que é o pesquisador chamado François Chollet. Quando ele publicou essa definição dele, que é no paper On Measure of Intelligence, a medida da inteligência, ele estava trabalhando no Google, se eu não me engano, e a ideia dele é que inteligência não é necessariamente você ser capaz de conseguir

objetivos, é você ser capaz de conseguir a habilidade que te dá objetivos. Então, a inteligência é o ato da aprendizagem, não é ser já, digamos, alguém que tem habilidades. Não é ter diversas habilidades diferentes, é ser capaz de obter habilidades diferentes. Então, digamos que você crie um supercomputador do tamanho que usa toda a energia do Sol, e ele é gigantesco, e nele você colocou a habilidade desse computador de fazer quase todas as tarefas que seres humanos gostam de fazer.

não seria possível, dadas as limitações da matéria, mas digamos que você consiga. Ainda assim, a definição que seria a aquisição de skills de forma eficiente do Cholet, diria que esse ser não é inteligente, porque ele seria rígido e não capaz de, por exemplo, se você desse uma nova skill pra ele, um novo desafio pra ele, ele ainda assim não conseguiria fazê-la. Então, dado essa definição, por exemplo, que o Cholet criou

junto com algumas outras pessoas, os benchmarks chamados RKGI, né? A gente tem o RKGI 1, o RKGI 2, e o RKGI 3 sai, se eu não me engano, dia 25 de março. Então, a gente tá seis dias de sair, eu tô ansioso, inclusive, pra ver o que vai acontecer. Mas é curioso porque ambos esses benchmarks, eles foram feitos com a ideia de propositalmente serem adversariais ao que LLMs conseguiam fazer nos momentos que eles foram lançados. Na verdade, quando o primeiro deles foi lançado, LLM nem era algo

um animador de pesquisa, assim, então ele tinha também outros tipos de redes neurais em mente, como as redes neurais adversariais e etc. Mas no Arcade AI 2 sim, já tinha essa ideia de propositalmente ser difícil pra LLMs. Porque se achava justamente que LLMs eram muito boas, talvez na primeira definição, ou seja, elas eram flexíveis, aparentemente, pra gente, a gente colocava elas pra fazer várias coisas diferentes e elas conseguiam fazer, mas elas não eram capazes, a princípio com o que a gente

de resolver problemas as quais elas já não foram treinadas para resolver. Então, esses benchmarks foram feitos, principalmente o ArcGIS 2, para isso. No entanto, hoje, eu vou até abrir aqui para a gente ver como é que está a situação, mas atualmente, se você olha, o GPT 5.4 já conseguiu 83% no ArcGIS. E, claro, esse é um dataset de treinamento, é um conjunto de desafios para o modelo,

que ele é privado. Então, não teria necessariamente como as empresas irem lá, se você confia no Cholet, e treinar nesse dataset, etc. Mas a gente já tem 83%. E seres humanos, em média, conseguem 60%. Então, a gente tem um teste que foi feito para propositalmente ser difícil para LLMs, para testar essa capacidade de aquisição de novas skills. Então, essa capacidade de aprender, etc. De sintetizar, como o próprio Cholet fala, novas habilidades.

E mesmo assim, a princípio, modelos estão conseguindo ser melhores que seres humanos nessa habilidade. Então, não é só isso, mas os resultados do ArcGi são parte das evidências que eu uso para chegar nessa conclusão de que, basicamente, é um preciosismo muito ingênuo a ideia de recusar esse termo inteligência para esses modelos nesse momento. Isso é diferente, eu acho que é muito interessante apontar,

Eu não necessariamente estou afirmando que eu acho que esses modelos são sencientes, conscientes, que eles têm qualia, o termo filosófico que se usa pra essa questão de que você tem um estado interno, você não apenas sabe que algo é vermelho, você tem a sensação de que aquela coisa é vermelha. Você não só sabe que você sentiu dor e que você tem que tirar a mão dali, você tem a sensação da dor. Então, eu não estou afirmando que esses modelos, eles têm senciência, embora eu acho que também a gente não tem a mínima evidência que eles não têm. Eu acho que eles não têm evidência pra um lado nem pro outro, justamente

porque consciência é algo muito, muito difícil de se pensar empiricamente. Mas o termo específico inteligência é algo que, de novo, cientificamente, se a gente está falando do termo científico, um termo que é útil cientificamente, que faz algum sentido teórico, não faz sentido nenhum recusar ele aos modelos. E tem aquilo que você não consegue desprovar uma negativa. Então, falar que não tem a prova de que não é suficiente, você acabou de achar o argumento perfeito. Mas uma questão, conforme você foi dando essa aula aqui para a gente,

é que eu fiquei pensando que desde sempre existem analogias que falam sobre todos os neurônios dos modelos, etc. A gente foi, de uma certa forma, tentando achar um jeito de estruturar e de dizer o que significava, como é que era a tecnologia que funcionava com coisas que já existem, porque é mais fácil de entender, de evoluir, etc. E a gente viu muito dessa discussão, especialmente teve o caso, como é que chamava aquele engenheiro do Google, que foi até demitido depois, porque ele teve uma conversa com

Isso, de 2018, 2016, algo nesse sentido, né? Algo muito antigo que você está falando? Sim, é mais recente, 2020, 2021, talvez. Mas foi que ele teve... E aí ele postou aqui uma conversa mostrando que o Google já tem um modelo que tem consciência sentiente, etc, etc, etc. E hoje a gente compreende que não era exatamente isso, né? E conforme você falando sobre inteligência, depende do contexto, pelo que eu estou entendendo. Cada um atacou de um lado a própria parte da adaptabilidade. Isso é uma palavra para mostrar se ele consegue se adaptar

adaptabilidade, né? Não é necessariamente associado à inteligência. E tudo isso, essa volta inteira eu estou dando para falar o seguinte, né? Ao longo dos últimos anos, especialmente, conforme essa conversa toda e até a rejeição à ideia de antropomorfizar o modelo, não pode explicar assim porque você vai dar uma impressão errada, etc. As empresas todas, elas certamente têm pessoas que têm esse conhecimento que você tem a respeito do que significa inteligência, de onde vem a palavra, de onde vem a definição. E do jeito que você entende os modelos hoje, você acha que esse tipo

coisa levada em conta pra desenvolver e pra evoluir os modelos, ou é a gente que tá ainda tentando achar formas de explicar como é que é esse modelo com coisas que a gente conhece, que a gente domina, que na verdade domina não, ninguém sabe dizer exatamente que inteligência, mas pra tentar entender e achar uma forma de se relacionar com isso. Eu acho uma pergunta muito interessante, eu vou voltar um pouco pra dar um contexto nela, porque é interessante que a gente, você até mencionou que a gente usa termos como neurônios, como redes neurais e etc, pra falar sobre esse tipo

de sistema, e esse tipo de coisa não é coincidência. Isso vem principalmente do fato de que quase todos os grandes avanços, se você olha na genealogia que nos levou para as LLMs que a gente tem agora, vieram de pessoas com um grande background, um grande contexto de estudo em psicologia. Alguns deles eram, inclusive, psicólogos. Então, por exemplo, eu posso mencionar os fundadores, os criadores das primeiras redes neurais artificiais, que são McCulloch e Pitts. Warren McCulloch era uma

ele era um neuropsiquiatra, e o Pitts, que era uma pessoa que tinha abandonado a escola, ele era um gênio, assim, que basicamente, um gênio autodidata, abandonou a escola, fugiu de casa, e eles acabaram se encontrando por eventos fortuitos, e acabaram colaborando nesse primeiro artigo que define o que era uma rede neural artificial. Essa rede neural é muito diferente da rede neural que a gente tem hoje, mas ela tinha sido feita justamente com a ideia de tentar mostrar

como que o encéfalo humano estaria instanciando lógica. Então a gente sabe que a gente sabe fazer lógica, os matemáticos sabem provar teoremas, etc. A gente parece ter uma sensibilidade muito grande para a lógica, a gente sabe que esse argumento está meio errado, esse argumento está certo. E a ideia deles era tentar instanciar isso. Depois veio um cara que é o Frank Rosenblatt, e esse eu diria que é o pai do Deep Learning. Inclusive existe um artigo que é Who is the father of Deep Learning? Quem que é o pai do Deep Learning? Que argumenta que é Frank Rosenblatt, eu super concordo.

fez as primeiras redes neurais do jeito que a gente conhece agora. Então, existe esse mito quase, que é muito comum, inclusive em pessoas que estudam e trabalham na área, de que Rosenblatt trabalhava com o perceptron de uma só camada. Isso é completamente falso. Você pode olhar nos livros dele lá, que ele já estava lidando com múltiplas camadas, ele já tinha pensado em questões que levariam depois à retropropagação que a gente usa nesses modelos, etc. E Frank Rosenblatt, ele era um PHD em psicologia. Então, ele tinha feito o doutorado dele em psicologia e acabado sendo levado

para essa ideia de como a gente pode recriar essa inteligência humana em máquina. Tem várias outras pessoas que eu posso apontar que tem esse tipo de background, que foram fundamentais na área. Por exemplo, o Richard Sutton. O próprio Hassabis, né? Sim. O Demis Hassabis, da Gold Deep Mind, ele estudou neurociência. Estudou neurociência. Tem o Geoffrey Hinton, ele também, se eu não me engano, talvez eu esteja errado nisso, foi a graduação ou o doutorado dele, que foi em psicologia também. E eu acho que isso é muito curioso, porque vem de um desejo,

Eu me identifico bastante, embora eu não queira me comparar com essas pessoas que a gente acabou de citar, mas que é essa ideia de você quer entender o funcionamento da inteligência humana. Você tem essa curiosidade enorme de entender como que funcionam essas luzes na sua cabeça. E você vai então para a psicologia, talvez a resposta esteja aqui. E daí você fica insatisfeito com a psicologia, você vai para a neurociência, talvez a resposta esteja aqui. Só que na neurociência, na psicologia primeiro a gente só estuda esses eventos talvez mais abstratos.

as coisas mais básicas e correlaciona elas com os eventos abstratos. Mas nenhuma das duas dá a resposta do meio, de como você liga essas coisas. Como que o funcionamento desses mecanismos aqui leva, de fato, a esse comportamento abstrato que a gente tem aqui em cima. Inclusive, tem uma frase do Warren McCulloch que é, eu só tive duas perguntas em toda a minha carreira científica. O que é um número tal que um homem pode conhecê-lo? E o que é um homem tal que ele pode conhecer um número? E eu acho que,

Eu, quando eu vi isso, foi muito tempo depois que eu já conhecia essas figuras, etc., eu tinha estudado essas coisas, eu me identifiquei muito, porque eu acho que essas foram as duas perguntas motivadoras que eu tive em toda a minha vida também. E uma me levou, por exemplo, a estudar matemática pura, e a outra acabou me levando pra pensar sobre inteligência artificial e esse tipo de coisa. Então, voltando à pergunta, que eu acho que eu já fugi dela totalmente, mas é essa ideia de que não é coincidência, porque todas essas pessoas, elas estavam tentando entender a inteligência humana, e elas roubaram inspirações,

de mecanismos biológicos para, de fato, criar essas redes neurais artificiais. Isso não quer dizer que redes neurais artificiais sejam bons modelos para o encéfalo humano ou para redes neurais gerais. Inclusive, eu tenho alguns papers que são bem interessantes para citar de como isso não é verdade. Por exemplo, o fato de que, para simular apenas um neurônio piramidal, eu não sei falar isso em português, mas um neurônio específico do encéfalo humano, você precisa de uma rede neural,

de 3 a 5 camadas, pelo menos. Então, isso quer dizer que um neurônio apenas, ele não é um transistor, ele não é só 1 e 0, ele só não está ativado e desativado. Ele consegue sozinho fazer uma quantidade insana de computação, muito grande de computação, para decidir se ele é ativo ou não. Então, esse é um dos exemplos do porquê que não é uma analogia muito apta, apesar de que isso não quer dizer que a gente não possa usar o conhecimento que a gente tem dessas redes para tentar entender coisas que talvez sejam

universais sobre a inteligência, que inclusive é algo que se estuda na área chamada interpretabilidade mecânica, que é procurar universalidades, talvez, de coisas que existem no encéfalo humano e que existem em inteligência artificial e etc. Só um follow-up rápido era o Blake Lemone, que o Google demitiu em 2022. Quem foi em 2020 foi a Tim Nittger-Bru, que foi quem cunhou o termo papagaio estocástico, né? Fizemos a volta toda aqui nos temas do podcast, né? Mas eu deixo na descrição aqui os links pra isso. Inclusive, sobre o papagaio estocástico, eu não respondi, mas isso é completamente diferente.

falsa, tá? A ideia do papagaio estocástico. E eu consigo dar um exemplo perfeito de uma prova, acho que muito definitiva do porquê que ele não pode ser um papagaio estocástico. Quer explicar o que isso quer dizer de partida pra quem nunca ouviu? É, então, a ideia do papagaio estocástico, na verdade, tem duas que as pessoas podem ter em mente quando elas falam isso. A primeira é que o modelo é uma grande tabela, a qual salva, por exemplo, pares de você ter uma pergunta e ele te dar uma resposta. Então, ele, na verdade, ele tem um grande banco de dados dentro dele e ele tá dando

respostas que ele já viu antes, de acordo com as perguntas. Que é como no caso do iPhone, eu falo carangueja pra notivar que assistente de ninguém é assim que ela funciona. É a tabelona. Então, isso no caso de um modelo sofisticado, como até como os mais antigos que a gente tem, como GPT 3.5, 4.0, etc. Isso seria fisicamente impossível. E quando eu quero dizer fisicamente impossível, é justamente porque não teria espaço suficiente no universo pra criar

uma tabela desse jeito, um banco de dados tão grande para acarretar todas as possibilidades de uma conversa de 37 segundos. Então isso é até um paper do Stuart M. Scheiber, se eu não me engano é um paper de 2013, e ele falou esse paper num contexto de não que ele achava que alguém acharia que daria para fazer essa tabela, era só para matar um argumento filosófico relacionado ao teste de Turing. Era algo puramente hipotético, só para dizer que realmente

no sentido monológico, é impossível que isso seja verdade. Então, primeiro, essa seria a primeira coisa. A segunda coisa, tá bom, não é uma tabela, mas ele está escolhendo sempre a palavra mais provável, e o que ele está fazendo é o seguinte, ele viu muitas vezes essa frase, então ele vai sempre te dar, nesse contexto aqui, a palavra que veio com mais frequência nas frases que ele já viu. E isso diria que, por exemplo, é impossível para o modelo, ou é muito improvável, que ele te dê uma resposta, porque ele acha que é verdade,

mesmo essa resposta sendo muito improvável. Então, se todo mundo na internet acreditar algo que é falso, o modelo também vai acreditar que essa coisa é falso. E se todo mundo na internet acredita que algo é verdadeiro, o modelo também vai acreditar que essa coisa é verdadeira, porque ele simplesmente não consegue fugir desse emaranhado probabilístico que ele tem. Que é o lance de que os modelos não conseguem ter ideias, entre aspas, novas, porque só se baseia no que ele viu. Era uma das críticas pirenes sobre esse modelo. Isso, isso, isso. E daí tem vários contra-exemplos pra isso. Eu acho que tem um que é o mais elegante,

na minha opinião, que veio de um paper do Max Tag Mark, e o co-autor dele foi um cara chamado Sam alguma coisa, eu esqueci, coitado, não é o Sam Altman. Então, que é o seguinte, não que eu esteja dizendo que não é possível que o modelo acredite em coisas só porque é uma opinião muito comum, isso com certeza acontece, a questão é que não é necessariamente o caso. Então, como que eu sei que não é necessariamente o caso? Porque se você pega um modelo e, se você pega um modelo, no caso, esse teste foi feito com

Lama 2 ou 3. Se você pega um desses modelos de LLM, você faz um PCA com um dataset, um banco de treinamento, onde você tem sentenças, algumas sentenças que são verdadeiras e algumas sentenças que são falsas. Então, por exemplo, uma sentença verdadeira pode ser 60 é maior que 30. E uma sentença falsa pode ser Nova York fica no Brasil. Então você pega vários, um grupo de versos dessas sentenças e você dá para esse modelo e você olha para as ativações dele. Então, você imagina que um modelo tem uma rede neural,

não é bem isso, mas imagina que ele lá tem um grafo bonitinho, você vê exatamente quais foram as ativações, as direções nesse espaço de ativação, para cada uma dessas sentenças você salva isso, ok. Daí depois o que você faz? Você faz o que, para quem é da área vai saber o que é, é um PCA, que basicamente você joga isso tudo para duas dimensões, você faz um slap assim, esmaga todos esses dados e todos eles vão virar pontos, cada uma dessas ativações, que eu fiz com esse meu banco de dados de sentenças verdadeiras ou falsas, vão virar pontos nesse

meu plano. Se você não está entendendo, daqui a pouco você vai entender, pode confiar. Então, assim, o interessante é que eu consigo fazer uma linha dividindo esse plano e separar sentenças verdadeiras das sentenças falsas. Ou seja, isso me diz que existe uma direção no espaço de ativação que o modelo corresponde internamente a afirmações verdadeiras ou falsas. Ou seja, ele tem uma direção a qual ele ativa sempre que uma sentença verdadeira e uma outra direção que ela é oposta

mostra que ele ativa quando uma sentença é falsa. E essa direção, o interessante é o seguinte, várias coisas são interessantes. A primeira é que quando o modelo é muito pequenininho, ele tem direções diferentes para coisas diferentes. Por exemplo, se você fala coisas falsas e verdadeiras sobre geografia, ele vai ter uma direção. Mas se são coisas verdadeiras ou falsas sobre aritmética, ele vai ter outra direção. Só que não são as mesmas direções. Mas conforme você vai aumentando o tamanho do modelo, essas direções vão se tornando universais. O modelo vai criando uma direção própria dele sobre o que é verdadeiro, ou seja,

a coisa de truthness, essa coisa de algo ser verdadeiro como algo abstrato, e a mesma coisa para algo ser falso. E daí alguém pode estar ouvindo e falando assim, provavelmente o que está acontecendo, na verdade, é que o modelo está separando sentenças prováveis das sentenças não prováveis. Porque claramente é muito improvável alguém ter falado Nova York fica no Brasil, mas é muito mais provável alguém ter falado Nova York fica nos Estados Unidos. E a mesma coisa para, é muito mais provável alguém ter falado 60 é maior que 30 do que 30 é maior que 60.

mas e daí que tá o contra-argumento dessa ideia do papagaio estucástico, que não é verdade isso. Porque você consegue, com sentenças negadas, criar sentenças que são muito prováveis internamente pro modelo. Por exemplo, não é verdade que Nova York fica nos Estados Unidos. Agora, essa é uma sentença que ela é muito provável pro modelo, porque ele tem, no final dela, Nova York fica nos Estados Unidos, mas eu comecei ela com algo que nega ela. Então agora ela é uma sentença que ela é falsa, mas ela é muito provável. E se você tenta fazer essa divisão das direções no espaço,

Então, isso quer dizer que o modelo tem algo distinto dentro dele, que permite classificar coisas verdadeiras, e que é diferente de simplesmente coisas serem prováveis. Isso quer dizer que o modelo, ele frequentemente, ou com uma certa frequência, ele vai falar coisas que são verdade, porque ele quer falar algo verdadeiro.

explicitamente exigir que ele fale coisas verdadeiras, que é algo que é feito no fine tuning desses modelos, em todos eles. Ele vai falar coisas que são verdadeiras, mas que ele acha que não seriam as respostas mais prováveis. E aqui, perceba que eu tô antropomorfizando o modelo, no sentido que eu falo acho, e ele pensa, e esse tipo de coisa. Que, claro, eu não quero dizer que ele realmente acha essas coisas, ou que ele realmente pensa elas. No entanto, eu não peço desculpas por estar usando esses termos, porque eles são extremamente úteis.

que me convenceu disso foi pesquisas de um laboratório de um cara que se chama Michael Levin. Ele faz pesquisas de cognição basal e coisas relacionadas à cognição. E ele, por exemplo, uma das defesas que ele faz é que quando você tem sistemas complexos o suficiente, você tratar desses sistemas usando termos que normalmente a gente vê na psicologia, em vez de termos que a gente vê na engenharia, é extremamente útil. E isso, por exemplo, essa ideia permitiu para ele descobrir formas de curar,

específicos de câncer, não em pessoas, em vitro, em células animais, etc. A gente ainda não está nesse aspecto da pesquisa dele, mas de curar elas usando essa ideia de como que eu posso interagir com esses sistemas, usando coisas que talvez sejam mais associadas com a psicologia, atribuindo intenção a essas células. Qual que é a intenção das células que têm câncer? Quais são as intenções das células saudáveis? Como que eu posso, por exemplo, fazer condicionamento nelas, que seria um termo de psicologia? Como que eu posso fazer aprendizado por reforço nelas, que é um termo

psicologia. Então, quando a gente fala desse tipo de coisa pra esses modelos, eu acho extremamente adequado, extremamente útil e te permite não só entender eles melhor, não entender eles menos, entender eles melhor, como interagir com eles melhor. Então, acho que é isso. Eu não lembro de novo se eu respondi a pergunta. Isso é interessante porque é muito próximo e esse é um assunto que aparece muito no hipsters.tech, do lance da Lady Conway, que as ferramentas que as empresas usam, isso dita como vai ser a estrutura da empresa, a produtividade,

da empresa porque está apoiado nisso. Isso molda. É a mesma coisa com toda a parte de semântica dos termos que você está usando para descrever. Eles já são entendidos por uma parcela da população. Eles são carregados de sentido e de sinais que ao invés de você ter que explicar tudo do zero sempre, você fala o modelo pensa e pronto. Tem gente que ainda se apega. Tá bom, bem-vindo à discussão de 2021. Volta para lá e deixa o resto do papel evoluir. Se a gente não sai do lugar, tiver que colocar todos os asteriscos, todas as condições, os classificadores,

você vai falar sobre isso e ninguém sai do lugar. Então é interessante esse aspecto. Eu poderia até adicionar uma outra coisa que uma das coisas que eu trabalho fazendo atualmente é tentar criar sistemas agênticos que são um pouco melhores do que os outros sistemas que são feitos em outros lugares. E uma coisa que tem sido muito útil para mim, não só nessa questão de quando eu crio um sistema que envolve agência, às vezes para um uso pessoal, às vezes para alguma coisa de trabalho mesmo,

com esses modelos, é porque eu quero aprender alguma coisa nova, ou quero programar alguma coisa pra mim, etc. É justamente essa ideia de tratar eles com as ferramentas que você usa pra um sistema que tem agência. Quando você vai interagir com um macaco, eu não sei se alguém já interagiu com um macaco, sei lá, viu no zoológico ou algo assim, se você for interagir com um cachorro, então, você não vai tentar falar sobre a interação com o cachorro usando termos de termodinâmica. Nossa, basicamente o que o cachorro tá fazendo aqui, que ele decidiu pegar essa bola, é porque existem essas partículas no encéfalo dele que estão

seguindo essas leis de termodinâmica e não estão fugindo delas. Ou eu também não vou falar em sentidos de bioeletricidade. Ah, esses neurônios dispararam dessa forma, então são canais de potássio, canais de sódio. Não são esses os termos e não são essas as formas que eu vou usar para guiar a minha interação com o cachorro. Da mesma forma, não são os termos relacionados a, por exemplo, o treinamento do modelo que eu vou usar para interagir com o modelo. E não é a melhor forma de tirar o melhor proveito deles. E algo que eu observei, tanto no sentido,

mais subjetivo quanto nos próprios testes que eu tenho aqui, automáticos, que eu acabei fazendo vários ao longo dos anos, embora quase todos tenham sido saturados pelos últimos modelos, os meus benchmarks pessoais, que tratar os modelos usando essa agência, ou seja, explicando para eles o que você quer, antes de dizer o que eles têm que fazer. Dar para eles essa ideia de que eles são colaboradores, de certa forma, e não por uma ideia de ser educado com o modelo, mas simplesmente pelo fato de que eles ficam melhores. Porque eles têm essa capacidade

capacidade de pegar o contexto total da tarefa, e quando você dá mais contexto, você dá intenções ao invés de ordens, eles tendem a ter um desempenho melhor em, por exemplo, tarefas de código, tarefas objetivas, né, tarefas de código, tarefas de resolver problemas de matemática pura e etc. Então, é uma aplicação real disso, de usar esses termos e pensar dessas formas. Obrigado, Adres, você tirou, assim, um peso. É uma coisa que eu queria falar e eu não tinha as palavras. Você, um mago das palavras, conseguiu tirar

Exatamente o que eu venho tentando explicar há muitos meses para alguns amigos que me perguntam exatamente sobre isso, essa coisa dos termos mesmo. Mas quando a gente vai falar sobre IA, a gente acaba caindo, querendo ou não, no termo da AGI, na inteligência artificial geral, até por um lado mais marqueteiro mesmo, que o pessoal como Sam Altman, como o próprio Dario Amodei, começaram a usar e o próprio Amodei já admitiu isso, acho que no final do ano passado, falou,

parar de usar essa palavra EDI, porque a gente usou aqui como uma maneira até de trazer dinheiro, trazer investimento aqui para a nossa área de pesquisa e tudo mais, só que acaba sendo contraprodutivo em muitas frontes, porque você acaba esperando uma coisa que quando vem a próxima versão, o próximo Cloud, o próximo GPT, como aconteceu, como chegou o GPT-5, as pessoas ficam mais decepcionadas, porque elas estavam esperando o Jarvis, elas estavam esperando o TARS, ou alguma coisa nesse sentido, e não é isso que ela, o que chegou

exatamente. Mas ainda nisso daí de AGI, o que a gente está tentando fazer, o que pelo menos as pessoas sérias da área estão tentando, os pesquisadores, alcançar, é um modelo que consiga transformar tudo o que nós, os seres humanos, fazemos em algo computacionalmente factível, algo computável, talvez, basicamente, usando hardware, usando multiplicações de matrizes e talvez outras arquiteturas que

de agora em diante. O mundo do jeito que a gente vê e os seres humanos, as coisas que nós fazemos nessas pesquisas que você faz, você acredita que tudo ou praticamente tudo que a gente faz são coisas realmente computáveis? E mais do que isso, a gente tem o poder ou talvez a capacidade nos próximos poucos anos de encontrar um modelo que consiga fazer essa compressão de coisas muito maiores, como você

até do exemplo de um neurônio precisa de uma rede neural já grandinha para equivaler ao que faz um neurônio do encéfalo humano. A gente já conseguiria, você acredita, comprimir tudo isso que o neurônio faz em uma rede menor para chegarmos nessa tal EDI ou vai acabar sendo uma coisa mais fictícia, mais utópica mesmo? Então, perguntas muito boas e muito difíceis. Porque eu acho que elas acabam esbarrando,

talvez, em algumas das perguntas mais difíceis científicas que existem. Então, em primeiro lugar, eu acho que isso cai na pergunta de se o encéfalo humano, ou até se o ser humano em si, ele é computável ou não. E essa é uma pergunta mais difícil do que parece, porque talvez algumas pessoas escutem isso e falem, não, obviamente não. Obviamente eu tenho sentimentos, eu tenho todo esse tipo de experiências internas maravilhosas, eu sinto amor, eu sinto amizade, etc. Então, obviamente, eu não posso ser computável. Mas a questão é que,

Ser computável, especificamente é uma definição que vem de Alonzo Church e Alan Turing, é uma classe muito ampla. Então, um sistema que ele é capaz de fazer computação universal, ele é um sistema que ele é capaz de fazer muitas coisas. E é muito difícil fugir das capacidades desse sistema. Então, o que eu quero dizer com isso é o seguinte. Se a gente vai, por exemplo, simular de certa forma a inteligência humana,

de informação que um computador conseguiria fazer. Um computador, como quase todos os computadores que a gente tem na nossa volta são feitos, eles são o que a gente considera de uma máquina universal em potencial. Em potencial porque ele não é uma máquina universal de verdade, porque uma máquina universal de verdade precisa de memória infinita. Mas é em potencial porque eu sempre posso adicionar mais memória. Então, se tiver um caso onde eu estourei minha memória, eu poderia potencialmente botar mais um chip de DDR5, se eu tiver o dinheiro,

comprar ele. Então, eu conseguiria expandir isso. E por isso a gente considera que é uma máquina universal em potencial. O encéfalo humano também é, no mínimo, uma máquina universal em potencial, que conseguiria fazer computação universal em potencial. Também não é de fato, porque ele é finito. Então, existe uma quantidade finita de memória que o encéfalo humano tem, mas, ainda assim, a gente diz que é impotencial pelo fato de que você pode criar novas sinapses. Você, talvez, conseguiria expandir essa memória de algum jeito, por exemplo, usando um papel, se você quiser. Então, um ser humano e mais uma caneta e um

Então, talvez seja interessante, até antes de eu prosseguir, de clarificar um pouco mais o que eu quero dizer por computação universal. O que acontece é, quando Alonzo Church e Alan Turing pensaram nessa definição, eu falo os dois porque essas duas definições de computabilidade, que são distintas, foram pensadas ao mesmo tempo, do outro lado do oceano, Alonzo Church pensou nisso nos Estados Unidos, e em 1935, Alan Turing estava escrevendo o que seria o TCC dele,

ele, né, nos nossos termos, também nessa época, ele entregou pro, ele entregou na mesa do orientador dele, o TCC dele, onde ele resolvia um problema, que é o Einstein Problem, que não importa o que isso significa, mas é o problema da decidibilidade, e ele entregou esse TCC dele na mesa do orientador, o orientador pegou e leu e falou, nossa, eu acabei de receber uma carta dos Estados Unidos com esse outro artigo que resolve esse mesmo problema e define essa mesma coisa. Só que no caso de Alonzo Church, ele é esquecido, de certa forma, poucas pessoas ouviram falar de Alonzo Church, porque

a definição dele é menos clarificadora e menos útil. Então, a definição de Turing é o que a gente chama hoje de máquina de Turing, que foi tentando justamente formalizar o que seriam as formas mais simples de um processo ser mecânico, matematicamente mecânico. Por exemplo, o algoritmo da divisão é algo mecânico. Perceba que você não tem nenhuma criatividade ali. Você decora o algoritmo da divisão, ele funciona para qualquer número, você tem dois números inteiros, um aqui e um ali, você está dividindo um pelo outro, você faz os passos que você aprendeu e tá bom, e ele vai dar o resultado.

Por exemplo, tem o algoritmo euclidiano, que é um algoritmo que também faz sempre os passos corretos e você tem o resultado no final, etc. Então, o que é esse? O que, de certa forma, torna algo mecânico? O que torna algo potencialmente... O que faz com que algo não precise de criatividade? Que você não precisa interferir, de certa forma, humanamente naquela coisa? Então, respondendo essas perguntas, ele envisionou essa máquina e ele tentou deixá-la o mais simples possível. Então, tudo que ela tem é, por exemplo, uma fita,

Essa fita pode ter um ou zero nela. Eu estou aqui fazendo a versão de Martin Davis, na verdade, da máquina de Turing, não necessariamente a de Turing, mas dá na mesma coisa, elas são equivalentes. Mas essa fita pode ter um e zero, ela pode ir para a esquerda, para a direita, uma casa por vez, e ela pode escolher apagar o que está ali e trocar por um, se for um zero, ou pode escolher apagar o um e botar o zero. E apesar de ser extremamente simples um objeto matemático que você consegue definir com uma frase muito curta, ainda assim, uma máquina existe para fazer qualquer algoritmo

que você queira. Então, isso é algo que se chama tese de Church Turing, essa ideia de que você consegue definir todas as coisas que são mecânicas, que são mecânicas com uma máquina de Turing. E, a princípio, para todas as coisas que importam até hoje, a gente mostrou já que dá para fazer com uma máquina de Turing. E a outra coisa que Turing concluiu também é que existe uma máquina que, se você der os inputs certos, as entradas certas para ela, ela consegue simular todas as outras. Ou seja, existe uma máquina que ela é universal, ela consegue fazer a computação de todas as outras.

que a gente descobriu depois, conforme o tempo passou, é que computação universal é algo muito comum na natureza. Diversas coisas são capazes de computação universal. Então, a gente sabe que você conseguiria fazer um computador universal com água e balde, você conseguiria olhar para uma bactéria e perceber que ela sabe fazer computação universal em potencial também. Quase todos os sistemas biológicos que você pode pensar são capazes de computação universal. Em princípio, você poderia ter sistemas onde você tem um buraco

negro, que isso tá ligado à hipercomputação também, onde o próprio ato desse buraco negro ser um buraco negro daria pra ele a capacidade de fazer computação universal e etc. É algo muito comum, inclusive um exemplo muito clássico é a regra 110, que é uma regra que o Wolfram deixou ela super famosa e depois o Matthew Cook, eu acho que foi quem provou que ela é capaz de computação universal. Então, se vocês pesquisarem, é algo muito, muito, muito simples, é difícil explicar num podcast, mas tem oito regras só e você vai...

universo unidimensional que tem oito regras e ele vai evoluindo de acordo com essas regras e mesmo assim ele sabe fazer computação, ele seria capaz de fazer computação universal em potencial. O problema tá, chegamos na computação universal, a gente sabe que o encéfalo humano, ele com certeza tem computação universal em potencial, isso não diminui de nenhum jeito o encéfalo, é um requisito, caso contrário a gente teria uma inteligência muito fraquinha, se até uma bactéria sabe fazer computação universal, com certeza o nosso encéfalo sabe fazer. Mas a questão é, ele sabe fazer algo além disso?

tem algo no encéfalo humano que pensando em informação, entra informação, sai informação, a gente não conseguiria simular com uma máquina de Turing? E daí, se isso for o caso, a gente não conseguiria fazer em nenhum computador? O problema dessa pergunta é que computação universal, como eu mencionei no começo da resposta, é algo muito pervasivo, assim. É muito difícil fugir de computação universal. Por exemplo, se eu botar mais fitas na minha máquina de Turing, então vocês podem imaginar que eu descrevi a máquina de Turing com uma fita, ela faz 1 e 0 e etc. Agora, digamos que eu tenho N fitas, por exemplo, 10 bilhões de fitas,

minha máquina de Turing. E a minha máquina de Turing, ela não tá mais lidando com uma fita, ela vai navegando entre essas 10 bilhões de fitas, e ela sabe viajar por elas do jeito que ela quiser, ainda assim ela só sabe fazer computação universal. Então vamos fazer uma coisa melhor, vamos fazer uma máquina de Turing não determinística. Uma máquina de Turing não determinística, ela consegue, pra toda vez que ela tem uma escolha, por exemplo, ela tem que ir pra esquerda, pra direita, ela vai pros dois e se divide, é como se dividisse a timeline do universo em duas, e ela faz todas ao mesmo tempo. Então ela é não determinística por causa disso. Então toda vez que tem uma decisão determinística, ela faz as duas ao mesmo tempo.

mesmo assim ela só é capaz de computação universal. Então, essa é a questão. É muito difícil, você pode ficar definindo, colocando definições cada vez que parecem cada vez mais fortes do que uma máquina de Turing pode fazer ou não, ou de um computador super bombado, com vários mods, e mesmo assim ele só sabe fazer computação universal, ele não consegue fugir disso. Uma coisa também interessante é que computadores quânticos só sabem fazer computação normal, então eles são computadores universais como quaisquer outros, não tem nada no jeito que computadores quânticos

pelo menos do jeito que eles são construídos hoje, que permitiria que eles fizessem computação além da computação normal, universal, algo não computável. Curioso é, se você pensar no que seria necessário para fazer hipercomputação, em termos de complexidade de algoritmos, você teria que, basicamente, ser capaz de fazer uma quantidade infinita de computação em um espaço finito de tempo e espaço, em um período finito de tempo e espaço, um pedaço finito de tempo e espaço. E isso não necessariamente é impossível, existem algumas pessoas,

que argumentam sobre a ideia de fazer hipercomputação em buracos negros. Então, parece que as leis da relatividade geral não nos proíbem de fazer hipercomputação, mas agora fazer hipercomputação no encéfalo, se você precisa de um buraco negro normalmente pra fazer, ele parece um pouco difícil. Por isso que a opinião, em geral, da maior parte, pelo menos do que eu sei, tanto de neurocientistas quanto de cientistas da computação, que pensam sobre isso, que eu já vi falando sobre isso, é que o cérebro, o encéfalo humano, ele tem que ser computável. Porque não ser computável,

parece algo muito estranho, parece algo que precisaria de algum tipo de mágica ali, fairy dust de algum jeito. E isso é até curioso, porque normalmente as pessoas que argumentam que as pessoas que estão sendo empolgadas, talvez com inteligência artificial, elas estão sendo não científicas, elas estão assumindo uma certa magicalidade para o encephaloman. Dito isso, por muitos anos, eu fui um defensor, talvez leve, dessa ideia de que o encephaloman é não computável, justamente porque os argumentos de um cara chamado

o Roger Penrose, que ele é um dos matemáticos e físicos mais geniais, acho que, da história e também, principalmente do século XX, né, que foi onde ele fez a maior parte do trabalho dele. Ele tá vivo, inclusive, o Sir Roger Penrose. Ele tem um argumento que ele faz num livro que é The Emperor's New Mind, o Novamente do Imperador. E nesse livro ele faz esse argumento de que o fato de que nós conseguimos, é que matemáticos conseguem provar certas coisas em matemática que, a princípio, não deveriam ser prováveis pelos teoremas da incompletude

de Gödel, nos dá evidência de que deve haver alguma coisa não computável no encéfalo humano. E como eu provei vários desses teoremas, e eu realmente tenho essa sensação dentro da minha cachola de que parece que é algo não computável, essa ideia do insight, de você ter uma ideia que parece que ela salta por passos computacionais, ela faz uma redução dos passos necessários, me parecia convincente. O que mudou isso pra mim foi, primeiro, aprender mais sobre essa questão da

sobre os teoremas ligados à complexidade computacional nos últimos anos. E, em segundo lugar, ver que as LLMs são muito capazes. Então, por exemplo, até como um dos contra-argumentos do papagaio estocástico que eu não mencionei, tem o fato de que LLMs provaram vários teoremas de matemática que a gente sabe que não tinham sido provados antes. Então, que especialistas foram lá das áreas às quais os teoremas pertencem e falaram que realmente não existe uma prova sobre isso, etc. Não quer dizer que não existissem provas similares,

mas não daquele fato em si. Então eles fizeram uma extrapolação disso. E é algo que dentro do meu círculo de matemáticos, tentar fazer com que LMS prove teoremas é algo mais comum do que no meu círculo de programadores, programadores usarem para fazer código. Então isso jogou a minha probabilidade para mim de que provavelmente o encéfalo é computável sim. Dito isso, a gente vai conseguir simular

ou pelo menos fazer algo equivalente a um encéfalo, e daí conseguir o que seria a inteligência artificial geral e etc. Eu acho que essa é a definição que a maior parte das pessoas usa, a inteligência artificial geral seria uma inteligência equivalente à do ser humano. Essa pergunta eu não tenho uma opinião para sim ou não formada, eu tenho uma probabilidade na minha cabeça. E essa probabilidade, ela mudou positivamente, ela aumentou muito para sim nos últimos meses, quando eu vi os resultados do RKGI, quando eu vi essa questão de teoremas de matemática científica,

sendo provados. Boa parte deles, alguns deles, pelo menos, eu entendo das áreas o suficiente para saber que não são teoremas triviais, etc. Então, reconhecer esse tipo de coisa mudou a probabilidade para mim. E, em segundo lugar, pensar sobre leis de escala. Então, leis de escala parecem estar funcionando há pelo menos 20 ou 30 anos, dependendo de como você olha. E, a princípio, se você olha para as power laws que você tem, ela vai diminuindo o quanto você ganha, conforme você vai colocar

no escala, mas não me parece, olhando os modelos que estão agora, que nós seres humanos estamos tão longe disso assim. No sentido de você ter um modelo que é capaz de fazer quase tudo que um ser humano sabe fazer, talvez não tudo, mas quase tudo que um ser humano sabe fazer, numa mesmo nível de habilidade, em boa parte dessas coisas, mas ainda assim existem alguma outra coisa que o ser humano faz melhor. Então eu acho que chegar nesse nível me parece algo bem intangível, olhando daqui de onde eu estou agora, e por

disso a probabilidade aumentou bastante na minha cabeça. Mas é muito difícil saber. Eu acho que esse ano vai ser bem decisivo pra mim, no sentido de saber se de fato agora nessa nova geração, onde a gente sabe que várias placas de vídeo ficaram online e a gente aumentou muito o input de energia, se de algum jeito as leis de escala quebram ou elas se mantêm. E se elas se mantiverem por mais um 10x basicamente na capacidade computacional, eu acho que essa probabilidade pra pelo menos chegar em quase tudo que

o ser humano sabe fazer, vai pra 70%, 80%. Na sua opinião, qual dos benchmarks quebra mais isso daí pra mostrar que elas realmente evoluíram? Que você falou que foi uma coisa que mudou recentemente. Pra você, é o próprio o ArcGIS 2? É o fato dos LLMs terem ganho a medalha de ouro nas Olimpíadas de Matemática ali em junho, julho, agosto do ano passado? Ou algum outro? Então, na verdade, eu acho que os que mais me impressionam são os resultados da Math Frontier,

Mark que tenta colocar problemas de matemática que são, a maior parte deles estão em aberto, ou pelo menos se não estão em aberto, são problemas que a solução não está na internet, e são problemas de ponta de linha de pesquisas em matemática, porque de certa forma sempre foi a coisa que eu achava que seria mais distante desses modelos conseguirem fazer, apesar de que desde o 3.5, eu acho que eu usei duas semanas depois que saiu o ChatGPT naquela época, eu usei muito cedo, eu já tinha notado que eles sabiam

provar coisas muito simples. Por exemplo, você define uma propriedade que é um número ser azul. Você fala, o número é azul, seria divisível dessa e dessa forma. O chat GPT daquela época já conseguia fazer essa prova. Ele errava cinco vezes, acertava uma. Então, pelo menos você sabia que era possível. E é algo que você pode pensar que no sentido probabilístico dele conseguir acertar isso simplesmente colocando caracteres aleatórios era basicamente impossível. Então, ele já sabia fazer isso. Mas mesmo assim, para teoremas mais sofisticados, que são de ponta de pesquisa,

É algo que eu vejo como muito complicado, e não só isso, como boa parte da habilidade que permite com que um matemático vá lá e prove coisas sobre um teorema, são, na minha opinião, as mesmas habilidades que um físico usa para depois usar esses teoremas para explicar alguma coisa sobre o mundo físico. Então me parecem habilidades muito similares no sentido da inteligência pura necessária para elas, o insight necessário, talvez.

estava falando errado. Tem uma outra que é Humanity Last Exam, se a gente está falando só de benchmarks, que também é... Assim, quando Humanity Last Exam saiu, uma das críticas é que era tão difícil o negócio que nem tinha significado. Se os modelos nunca conseguissem fazer, a gente nem ia ligar. E mesmo assim, agora a gente já está em 45%, que são todos problemas também que você não encontra na internet, são problemas de nível PHD ou mais super difíceis de áreas diferentes do conhecimento, etc. Algo curioso é que esses

esses benchmarks, esses dois que eu falei, eles têm uma coisa em comum que é insatisfatória, que é o fato que eles são de pergunta e resposta. Mesmo que seja provar um teorema, é pergunta e resposta. Então, o RKGI, ele tem essa questão, o dois também, que é uma pergunta de certa forma e uma resposta também. Então, esses três são bem impressionantes pra mim, mas eles deixam passar essa questão da interatividade. Então, uma coisa que pra mim satisfaz isso é ver a capacidade desses modelos de interagir com o ambiente que é, de certa forma, interativo, que é um banco de dados.

dados de código. Então você tem vários benchmarks que testam isso, você pega, por exemplo, alguns deles, inclusive, acho que eu não vou ter nenhum pra citar de nome, mas eu posso falar depois pra vocês pra colocar na descrição ou algo assim, mas alguns deles, por exemplo, pegam bancos de dados de código de empresas que são privadas, ou seja, eles têm segredo naqueles bancos de dados pra garantir a ideia de que eles não vão vazar aquilo, porque senão eles podem ser processados, etc, e perder milhões nisso. E eles colocam esses modelos nesses bancos de dados pra resolver problemas desses bancos de dados. E você percebe que não é só uma

pergunta e resposta aí agora mais. Porque o modelo, ele faz testes de programação, ele cria hipóteses, ele mexe numa coisa e vê o resultado, ele mexe em outra coisa e vê o resultado. Isso, de certa forma, pra mim, tá muito na área da simulação de mundos, de colocar o modelo pra interagir com algum mundo do que algo como pergunta e resposta. Então, esses também, na minha cabeça, também as minhas experiências mais subjetivas de fazer esses modelos resolverem problemas que eu acho difícil de programação, coisas relacionadas à matemática aplicada e etc. E também dos próprios benchmarks que eu tenho, que são

relacionados a isso, que eles já saturaram quase todos, como eu mencionei, também me levam para esse lado. Mas o principal, talvez, o principal de tudo é eles resolverem problemas de matemática, como eu falei. E daí não são problemas que estão em um benchmark ou outro, como, por exemplo, o From Here Math, mas, de fato, eles resolverem um problema, por exemplo, os problemas de Erdosho ou coisas nesse sentido. Embora alguns deles tenham bastante, o que a gente chama de overhyped, tenham sido extrapolados para mais do que essas coisas realmente significam, ainda assim,

você não pode perder a noção de que sim, essas pessoas estão exagerando, mas a gente conseguiu fazer com que Silício resolvesse problemas de matemática. Então, é algo completamente insano. Se você para uma vez por semana para lembrar que agora você consegue conversar com o seu computador como se tivesse um espírito preso ali, eu acho que muda um pouco as perspectivas. E você já citou, aliás, você vai me dar um trabalho danado para fazer a descrição desse episódio, você já citou diversas referências e fontes e estudos e etc.

Eu tenho certeza que assim como eu, tem muita gente se perguntando qual que é a sua dieta de se informar, de ir atrás de estudos. Você falou muitos estudos clássicos, históricos, famosos. Alguns, poucos, a gente já falou aqui no podcast. Muita coisa nova. Então como que é a sua dieta? Como que você se mantém atualizado? Porque até na sua foto do LinkedIn você está lendo. Então você deve ler bastante, né? Sim. De certa forma, a minha dieta é ser obcecado pelas coisas.

acho que desde que eu era criança, eu sou obcecado por essa ideia de ver as coisas de forma diferente, então entender elas, e pra mim é profundamente insatisfatório, por exemplo, ouvir uma descrição que às vezes você vê, por exemplo, em pop science, em divulgações científicas, etc, sobre como algo funciona e não entender o que aquilo funciona, o que ele me corrói por dentro, então eu acho que a primeira coisa é algo difícil de explicar como que as pessoas poderiam fazer isso, mas é basicamente ser obcecado

coisas que você quer saber, e diversas coisas se manifestam uma vez que você der dois passos pra frente. Porque existe todo um nível superficial de informação que você encontra com muita facilidade, que raramente ele é muito sofisticado justamente porque ele se baseia em repetir coisas que outras pessoas repetiram e etc. Então eles caem nesse meio. E muito da conversa sobre inteligência artificial, principalmente a parte histórica, acaba caindo nisso. Então, eu posso dar algumas dicas de como, digamos,

estou obcecado por um assunto, eu vou atrás dele. E tem algumas ferramentas muito interessantes para procurar artigos, que é uma eu uso há muito, muito tempo, há muitos anos já, que é o Rabbit Research. Eu acho que é esse o nome. E basicamente o que o Rabbit Research faz, ele cria um grafo, você coloca um paper lá, por exemplo, você leu um paper sobre alguma coisa de interpretabilidade, ele cria um grafo em volta daquele paper de citações para aquele artigo, citações que aquele artigo fez a outros artigos, e também ele tenta encontrar coisas que estão relacionadas

relacionadas nesse grafo. Então, pessoas que citaram esse artigo, elas também citaram outro artigo, então ele pega e aproxima elas graficamente. Então, você consegue fazer uma navegação por artigos e, com frequência, você encontra coisas que não estão ali. A segunda coisa é que, atualmente, e isso é muito novo para mim também, acho que faz menos de, talvez, uns quatro meses, três meses, que as ferramentas, de fato, ficaram fortes, esses modelos ficaram fortes o suficiente para me ajudar com pesquisa.

Então, pedir para o modelo procurar artigos sobre alguma coisa atualmente permite com que ele te entregue artigos que não são os mais comuns e etc. Você pode inclusive dizer, eu já li esses, já sei essas coisas aqui, tem algo que eu estou perdendo, tem essa coisa de novo da agência, você dá para ele o seu objetivo e não só procure artigos sobre esse assunto. Não, tem algo que eu não sei que você pode me dizer? Tem alguma coisa que eu não sei? E esse talvez seja o grande desafio, inclusive, colocando esse parênteses, é saber o que você não sabe.

cercado também de livros é algo muito bom pra isso, pra te lembrar que você não sabe de muitas coisas. Então, ir em bibliotecas, esse tipo de coisa, você vai perceber que tem ali milhares ou centenas de milhares de livros de coisas que você não sabe nada sobre. E é uma experiência um pouco... Traz um pouco de ansiedade e desespero, mas também eu acho que uma certa motivação de, de fato, aprender essas coisas. Uma terceira coisa que não é, de fato, falar com esses modelos seria o notebook LM. Então, uma vez que eu tenho uma lista de artigos, que inclusive é onde que eu salvo, eu salvo no Zotero.

E eu acho que as pessoas normalmente da pesquisa já sabem disso, mas para pessoas fora da pesquisa que estão começando querendo aprender sobre essas coisas, talvez elas não saibam, o Zotero é um aplicativo muito bom para você fazer o gerenciamento de diversos artigos. Então você abre 67 bilhões de artigos por dia, você salva eles no Zotero, daí depois você vai lá e eventualmente lê um ou dois dos 67 bilhões que você salvou, e você pode colocar eles no notebook LM para fazer perguntas para eles. E normalmente essas ferramentas estão muito, muito boas para esse tipo de coisa.

Em um desses artigos, uma ou outra coisa. Então você vai lá e ele te diz exatamente onde está essa coisa. Eu acho que o notebook LL faz também flashcards agora. Eu usei pouco para saber se é muito bom. Mas eu faço flashcards para mim também, para algumas dessas coisas. E eu normalmente uso o Wank. Inclusive, eu até conversei com o Fabrício sobre isso. Em um episódio que vai sair ainda continuamente sobre aprendizado de idiomas. Mas o Wank também é muito útil para essas coisas. E como que eu fico sabendo sobre um artigo novo?

Eu acho que acaba sendo principalmente o Twitter. Então eu tenho uma força, um dos lugares os quais eu aplico mais a minha, talvez a minha resistência e força de vontade é em não apertar em nada no Twitter e nem passar muito tempo vendo que não tem a ver com alguma coisa relacionada à ciência. Então eu consegui limpar meu algoritmo e ele só mostra coisas relacionadas a artigos novos, etc. Então acaba sendo o lugar para descobrir coisas que saíram agora. Então se você quer saber algo, sei lá,

importante agora, esse tipo de coisa normalmente é o lugar. Sobre alguém que talvez queira aprender sobre essas coisas e não esteja ainda no nível de ler artigos científicos, etc, eu tenho um livro, uma recomendação de livro, na verdade duas, mas uma principal, que seria Understanding Deep Learning do Simon Prince, que ele é um livro que ele tá um pouco ultrapassado pra coisas relacionadas a modelos de linguagem, mas ele ainda trata dessas coisas, e eu acho que ele tem o...

ele tem uma coisa que ele realmente tenta te fazer entender as coisas que estão ali. Então, eu gosto muito da... Eu já li ele meio que já sabendo das coisas que estavam ali, e mesmo assim ele me fez pensar de formas novas sobre aquela coisa. E um outro que eu recomendo principalmente para consulta é o Deep Learning do Christopher M. Bishop. Na verdade, o Bishop é um cara que escreveu um livro muito famoso sobre Machine Learning, e recentemente ele refez um outro livro que foi com o filho dele, se eu não me engano.

nome, Bishop. E eu acho que, se eu não me engano, é o filho dele. Talvez seja o primo, algo nesse sentido. Mas é um livro muito bom pra consulta e eu acho que a parte de LLMs dele é muito completa. Mas eu não acho que é um livro muito bom pra aprender essas coisas. É um livro muito bom pra revisitar os seus conceitos. E a última e terceira coisa, de novo, eu não quero... Eu acho que o Dario Amodei não tá precisando de dinheiro, mas se você não paga o Cloud, você paga o Chat EPT, eu recomendaria trocar. Porque eu acho que atualmente, pelo menos nesse momento,

é para aprender alguma coisa, o Opus 4.6 é o melhor modelo que tem. Então, você liga lá o Extended Thinking e você clica no modo Learning. Antes, eu tinha um super prompt que eu tinha feito ao longo de anos aqui para o modelo não me falar respostas, me fazer perguntas, etc. E agora, só clicar no modo Learning é melhor. Não sei o que eles fizeram lá, mas o prompt interno deles, as skills são melhores. E o modelo é bom o suficiente ao ponto de que eu consigo conversar com ele pedindo para ele referenciar coisas de topologia algébrica, que são, sei lá, uma área da matemática,

Então eu estou estudando algo, eu quero estudar algo relacionado à física, então sei lá, à mecânica estatística ou relatividade geral e sei lá, para algum vídeo do Infinitamente também, estou fazendo alguma pesquisa e eu quero que ele relacione com coisas que eu já sei bastante sobre, para eu ver isso de uma nova forma. O modelo ele sabe agora, ele é bom o suficiente para navegar esse conjunto de temas que você não ia encontrar em lugar nenhum na internet. Não tem ninguém que escreveu um livro provavelmente de relatividade geral,

é feito pra alguém que tem todos os conhecimentos que eu tenho. Então, alguém que gosta de computação e etc, gosta dessas outras coisas aqui e sabe dessas áreas específicas. Então, usar o modo learning é muito bom. Tende a ser, está sendo muito bom pra mim pra, principalmente, aprender coisas que eu não sei tanto sobre, mas eu queria saber mais. Por exemplo, ah, eu quero saber mais sobre essa área da biologia e etc. Fiquei curioso, o understanding deep learning, você falou que é o melhor pra aprender do zero, né, sobre essa parte, mas ele é profundamente matemático ou ele

é uma coisa um pouco mais, vamos dizer, amigável para a pessoa que não tem essa base de ter feito cálculo e coisas nesse sentido? Isso é uma boa pergunta. Eu acho que ele certamente não é a melhor opção se você quer aplicar essas coisas, você quer ser um desenvolvedor relacionado à AI, etc. A não ser que você queira trabalhar nessas grandes empresas, por exemplo, lá no OpenAI, você tem que saber essa base para poder ser um bom desenvolvedor lá. Mas eu diria que você precisa ter o curso iniciante de álgebra

linear, principalmente mais do que o cálculo. O cálculo é útil também, e eu acho que também aprender a base de cálculo é muito rápido. Você não quer resolver problemas complicados, você quer entender os conceitos mais importantes para que você tenha essa ferramenta no seu arsenal, que eu super recomendo para qualquer pessoa que esteja ouvindo, saber cálculo é muito útil para, por exemplo, ouvir notícias relacionadas à economia, para navegar o mundo de certa forma. Então, é algo que você consegue pegar esse começo de cálculo muito rápido,

e Algebra Linear eu recomendaria as pessoas irem mais junto. Então, existe um livro que é um dos meus livros preferidos de todos os livros já escritos, que é o Linear Algebra Done Right. Eu acho que não tem tradução. Seria Algebra Linear Feito Certo, que é de um cara chamado Atchler. E esse livro, ele normalmente é recomendado como o segundo curso de Algebra Linear, mas esqueça isso completamente, acho que dá para você chegar lá e aprender ele. Não é porque ele é difícil, é porque ele vai para essa ideia do ponto de vista de matemática pública,

E eu acho, eu tenho essa opinião didática, de que o ponto de vista de matemática pura, ele acaba sendo melhor para alguém que quer entender algo, porque ele não assume as coisas, ele só não joga resultados na sua cara, ele prova esses resultados. Então, no momento que você está ali vendo por que essas coisas são verdades, eu acho que acaba sendo, na verdade, mais fácil e não mais difícil aprender elas. Em vez de você criar uma coleção de fatos díspares na sua cabeça, você vai lá e aprende também os resultados, o porquê que essas coisas são verdade,

assim, e a Algebra Linear é uma das coisas mais bonitas que existe. Então, é muito útil para essa área. Então, eu acho que é isso. Talvez combinar o Understanding Deep Learning com o Linear Algebra Done Right. E falando uma coisa também, que a gente está o tempo inteiro mencionando, de leis de escala, escalabilidade. E isso crescendo, continuando a crescer no ritmo que está agora, a gente está vendo, por exemplo, Meta, abrindo novos data centers, comprando GPUs. As GPUs da NVIDIA já estão

até o final de 2027, se não me engano, o final do ano e meio do ano que vem, algo nesse sentido. Isso acaba afetando também a questão de água usada para resfriar esses data centers, essas GPUs. Claro que teve agora recentemente, a própria NVIDIA lançou o Vera Rubin, que eles mostraram até a questão de poder fazer o resfriamento com água quente, que é uma coisa que me parece totalmente antilógica, logicamente.

Gelada, vai. É, não gelar. Temperatura do ambiente. Exatamente. Mas são vários fatores. Ou seja, tem muita pesquisa sendo nessa área para tentar otimizar esses processos. Mas, ao mesmo tempo, as críticas que muitas pessoas fazem, vale dar uma olhada nela. Porque quando você coloca um data center num estado quente dos Estados Unidos, como é o Arizona, como é o Texas, do lado de uma cidade onde já tem uma crise hídrica, ele só vai tender a aumentar essa crise hídrica dessa cidade.

O pessoal ainda vem falando sobre colocar uma usina nuclear privada ao lado de centros, de campos, campos de data centers, para alimentar todo esse poder computacional que a gente está precisando e vai precisar cada vez mais com a escalada desses modelos. E isso continuando a gente que está pensando. Como que você vê essa questão da otimização e da necessidade de energia principalmente, mas de água também?

desses data centers. Eu pergunto isso até porque eu já vi você falando algo nessa linha, mas eu queria que você trouxesse aqui também. Legal. Em primeiro lugar, sobre essa questão da água, eu não quero menosprezar esse problema, mas ela é muito, muito menor. É um problema muito menor que a energia. E a razão é porque existe o ciclo da água, né? Que a gente aprende. A água, a gente não está destruindo essa água, né? A gente não está, de algum jeito, fazendo fissão no hidrogênio, quer dizer, fissão no oxigênio, qualquer coisa nesse sentido. Então, o hidrogênio ainda hidrogênio, o oxigênio ainda oxigênio.

água ainda está lá. O problema é principalmente o fato de que, quando você está numa cidade pequena, existe um volume de água que está nesse ciclo. E quando você coloca parte desse volume dentro do data center, você tira esse volume. Então, não é que o data center está consumindo água e as GPUs estão bebendo água lá, doidado, e essa água está se desaparecendo, é que eles estão, você está colocando parte desse volume total para ser usado nesses data centers, e daí esse volume, no momento que a água está,

lá cuidando da GPU, ela não pode estar no seu copo de água, ela iria passar pelo seu corpo e ir para o esgoto e voltar de novo para o reservatório. Então, é basicamente isso. Você está interferindo no ciclo da água porque agora ele está passando mais para cá. Isso é a mesma coisa que acontece com qualquer indústria. Inclusive, tem várias indústrias que, curiosamente, são particularmente estúpidas nesse sentido de consumo de água em relação ao que elas te dão de volta. E eu, na minha opinião, o data center não está entre as piores. Acho que só colocar esse contexto seria interessante.

só porque eu vi uma coisa recentemente sobre isso, fazendo uma comparação, que, por exemplo, você passar meia hora scrollando nos Reels do Instagram, ou no TikTok, ou assistindo um vídeo no YouTube, uma Netflix, isso gastava algo entre 100 a 250 prompts que você faz para um modelo que não é de reasoning, é um modelo aquele que já responde diretamente para você, que não fica pensando, entre aspas, por trás. Esse de reasoning vai ser menos, não vai ser 100 prompts, vai ser 20,

algo nesse sentido, mas de qualquer forma, você, o seu Doomscrow ali, quando você está na privada, está gastando muito mais água dos data centers, que também estão usando data centers para tudo isso, do que você fazer as suas perguntas diárias ali para o GPT. Fecha parênteses. Isso, eu não sei, eu não fui atrás desse dado, mas isso provavelmente é verdade, até porque quando você está, quando você abre o TikTok, não é como se ele estivesse decidindo qual que é o melhor vídeo para você assistir naquele momento. Ele faz isso numa sequência de vídeos. Então,

Se o TikTok usa uma sequência grande o suficiente de vídeos, ele poderia, por exemplo, até estar levando em consideração o ato de como te alterar desse jeito, te mostrar essas coisas, afeta seu comportamento e te faz assistir mais views. Ou assistir mais shorts, esse tipo de coisa. Então, quando você está lidando com uma sequência muito grande, primeiro, isso é muito custoso computacionalmente, né? Para tomar essas decisões para cada usuário, para cada vez. E, em segundo lugar, tem a questão do vídeo, né? Você está transferindo vídeo, às vezes, em 1080p,

4K, etc. Então, pra mim, faz todo sentido que seja algo nesse sentido. Em comparação, quando você tem, quando alguém tá mandando prompts pro chat de PT, pode ser sobre algo super estúpido, a pessoa tá fazendo uma imagem do Trump e, sei lá, de alguma outra figura pública se abraçando, algo nesse sentido, mas pode ser que ela esteja fazendo algo que é economicamente precioso, que vai ajudar o negócio dela a prosperar de algum jeito, por exemplo, pode ser o padeiro pedindo alguma dica, ou fazendo o cardápio do restaurante dele, esse tipo de coisa. Então, certamente, boa parte

das coisas que eu faço com LLMs, eu acho que elas são economicamente mais válidas e melhores para a sociedade do que se eu estivesse scrollando Hills. Então tem esse aspecto. E o que eu estava falando até é que isso não quer dizer que se você mora nessa cidade pequenininha e alguém colocou um data center e isso tomou parte do volume da sua água e você não tem pressão na sua torneira, você não liga que, por exemplo, uma plantação de milho ia ser pior. Você só não gosta daquela coisa. Então, isso é muito uma questão de muito mais de planejamento de onde esses lugares são colocados, que era o mesmo problema que a gente

tinha em qualquer indústria, acho que não tem nada de novo aí, entende? Inclusive, de novo essa questão de que data centers não gastam particularmente muita água comparado com outras indústrias, eles gastam algo até razoável, dado o quanto aparentemente eles têm de impacto econômico que a gente está vendo com o Anthropic, fazendo a revenue que eles acabam tendo e etc. E daí vocês assumem, vocês devem assumir pelo menos, a gente pode assumir que esse revenue da Anthropic não é porque as pessoas estão conversando bobagem

cloud, mas porque elas estão usando nos seus próprios negócios para fazer coisas que tornam os produtos e serviços que você compra mais baratos, mais eficientes, etc. Então, essa questão da água é por aí. Não é que eu acho que é um problema que deve ser desprezado, mas não é nada de novo. A questão da energia é realmente muito nova, no sentido de que a princípio nada gasta tanta energia. E o que eu apontaria com isso é que me parece, do ponto de vista que eu vejo, computação é um recurso natural tal como

energia. Então, na verdade, é a sequência natural de energia. Inclusive, eu já esperava antes de inteligência artificial que, naturalmente, boa parte da energia que é produzida por seres humanos fosse usada com computação de alguma forma. Justamente por essa questão da universalidade da computação ser algo muito pervasivo. Quase todos os problemas que a gente tem, que a gente pode resolver, podem ser resolvidos com computação. Então, se qualquer problema envolve de algum jeito informação, envolve alguma decisão, alguma coisa nesse sentido, eu já esperava que a gente pudesse jogar a computação nesse problema e

problema de repente fica mais fácil. E isso inclui coisas muito tangíveis, como por exemplo problemas de hospitais, problemas relacionados à ciência, pesquisa de ciência, problemas ligados à astronomia. Diversas coisas a gente teria como resolver com força bruta se a gente tivesse computação suficiente. Tem coisas que a gente não conseguiria resolver com força bruta, a gente precisaria de fato de inteligência artificial, que elas são, sei lá, NP completo ou algo nesse sentido. Mas algumas daria pra resolver em tempo polinomial com força bruta, a gente só não resolve porque a gente não tem placar de vídeo suficiente. Então, de certa

Eu acho que essa gera uma progressão natural das coisas e eu sou, em grande parte, muito a favor da ideia de usar energia nuclear para resolver esse problema. Porque o que acontece? A gente tem essa necessidade agora, a princípio, de que esses modelos e essas empresas estão trazendo ganhos econômicos e ganhos financeiros e, a princípio, tem vários impactos positivos disso. A gente quer mais essa capacidade de resolver problemas, mas a gente não tem energia suficiente. A grande solução que a gente tem, do meu ponto de vista, é a energia nuclear.

uma das outras, talvez exceto a energia solar, chega perto de resolver esse problema rápido o suficiente e com a facilidade que a gente teria com a energia nuclear. E atualmente, eu recomendo as pessoas pesquisarem sobre isso, a gente tem o que você deve pensar quando alguém fala de energia nuclear é algo muito diferente do que você pensava nos anos 70. Em geral, você tem usinas nucleares modulares, agora algumas empresas diferentes estão fazendo. É basicamente impossível

Usinas nucleares modulares que existam, que foi o que aconteceu em Chernobyl, que seria um meltdown, esse tipo de coisa. Existe a preocupação do resíduo nuclear, que é algo muito, muito pequeno. Existe uma estimativa que todo resíduo nuclear que um americano médio, isso foi em relação ao americano médio, produziria na vida dele, caberia numa lata de Coca-Cola. Então, um brasileiro médico que, em média, gasta menos energia, seria ainda menor. Então, existem poucas razões para você não querer usar energia nuclear.

se há, a gente ainda poderia ter uma crise energética, a gente teria, na verdade, com uma grande probabilidade de uma crise energética de qualquer forma, até porque combustíveis fósseis são limitados, e até então, toda vez que a gente está prestes a ter uma crise energética de combustíveis fósseis, alguém encontra um pré-sal, algo nesse sentido, e a gente não caiu nessa ainda, mas é algo super possível que em 100, 200, 300 anos a gente ia ter esse mesmo problema de qualquer jeito. Então, energia nuclear é a grande, é fissão especificamente que eu estou falando, fusão a gente ainda não dominou, quando a gente dominar, daí essa discussão meio que

acaba, mas seria a grande solução. Então, em geral, eu diria que eu sou um pouco a favor, inclusive, do Brasil, que tem duas usinas nucleares, acho que só uma dela está operacional nesse momento, de ter essa capacidade, até porque a gente tem um número limitado de hidroelétricas possíveis que a gente pode ter no país, então não dá para fazer hidroelétrica para sempre, de começar a dominar esse tipo de tecnologia, seja com algum acordo, os internacionais, algo nesse sentido, até porque isso nos permitiria ter lugares onde você conseguiria ter data centers no Brasil,

que a gente poderia alugar, ou esses data centers são em parceria com essas grandes empresas, e isso nos daria, de certa forma, uma certa propriedade de soberania em relação a essa tecnologia nova. Então, por enquanto, o Brasil não participa em nada disso, não tem nada que essas empresas precisam da gente para alguma coisa ou para outra, mas no momento que a gente, como um país que é muito independente energeticamente, a gente conseguisse jogar isso ainda para cima, a gente teria mais cartas para jogar nesse jogo. E, por último, fazendo uma defesa sobre energia,

em geral, tem a questão de que, como eu falei sobre computação, energia também é essencial pra resolver todos os problemas do mundo. Então, se você se preocupa com, por exemplo, fome na África, ou fome no Brasil, ou se você se preocupa com saúde, hospitais, etc, quase tudo que você pode pensar que envolve problemas humanos ficariam mais fáceis se você tivesse mais energia pra jogar nesses problemas. Então, problemas objetivos, né? Tem diversos dilemas humanos que não ficariam mais fáceis, né? Quem eu sou, de onde eu vim, etc, mas os outros problemas, quase todos, ficariam mais fáceis com energia. O que é um número? É, pois é.

Que é um homem que pode entender esse tipo de coisa. Muito bom, Adrian. E uma última que eu tenho aqui. Última não, né? Uma última dessa sua primeira aparição, sua primeira participação aqui no IA Sobre Controle, porque certamente haverá mais. Mas eu acho que talvez a principal preocupação que uma boa parte dos próprios pesquisadores, a gente pode falar, tem hoje em dia com os modelos de inteligência artificial, com o futuro deles pelo menos, é a questão do alinhamento.

O robô não vai começar a fazer paperclips e vai destruir a terra, vai pegar o ferro do sangue dos humanos pra fazer mais paperclips, porque você falou pra otimizar, pra criar... Clips de papel, não sei por que tu falou no inglês. Mas o grande histórico que... Acho que é o paper do Nick Bostrom que falava disso, se não me engano. É, eu acho que esse é do Eliezer e o do Kowski. Eu acho que o do paperclips é específico. Isso, verdade, verdade. Exatamente. E depois a gente vem, pelo menos eu, do que eu vejo, quem tá mais adiante,

nisso é a própria Antropic, o laboratório deles de pesquisa em interpretabilidade, em alinhamento desses modelos, me parece ser o que está mais avançado, os papers que eles lançam são os melhores, desde o paper do Subliminal Learning da Coruja, passando pelos Persona Vectors, pelas Features, que eles começaram a ver lá daquele paper da Golden Gate Bridge, que basicamente você não consegue ver exatamente o que é a conclusão de um neurônio específico da sua rede neural, mas quando você

tem uma sequência ali de neurônios e de pesos, das arestas que conectam eles. Fazendo um conjunto, você consegue manipular ele para ele sempre indicar certa coisa. Então eles manipularam lá, dando nessa pegada aí de falar para o Claude, perguntar qualquer coisa, quem é você? E ele normalmente respondia, eu sou um modelo de A. E aí eles alterando isso, manipulando literalmente os valores ali dos pesos,

chegar no Eu Sou, uma ponte gigante que fica em São Francisco e tem uma cor vermelha e tudo mais. A ideia é que, partindo disso daí, a gente fala de alinhamento, a gente tem, pelo menos, dos três padrinhos, Godfathers of AI, a gente tem uma divisão bem clara, do Geoffrey Hinton, com um pedum altíssimo, ele até saiu da Google, ou teria saído da Google, para parar de trabalhar no desenvolvimento de inteligência artificial,

poderia acabar com ou a humanidade ou a sociedade, do jeito que a gente vê ela hoje em dia. Então, ele está mais apocalíptico, muito mais apocalíptico, e já falou isso várias vezes. Do outro lado oposto, a gente tem o Ian Lecan, que é mais da parte das redes convolucionais, abriu agora recentemente a AmiLabs para pesquisar os modelos de mundo, e ele mesmo não acredita que modelos de linguagem vão chegar na AGI, modelos autoregressivos, treinados em transformers. Ele já está mais na ideia da arquitetura JEPA,

dia, com os joint embeddings. Inclusive, galera de casa, se você perdeu, a gente publicou recentemente um episódio com o Randall Balestriero, que publicou o paper do Jepa junto com o Lecan, e ele explica exatamente o que é essa arquitetura. Está trabalhando ainda com o Lecan nisso, e eu aposto que ele vai para a Limilabs. Isso aqui não é informação, é só uma apostinha mesmo, mas eles estão trabalhando nisso, então só faz sentido que ele vá para lá. Posso apostar no Polymarketing, então, nisso. Exato. E no meio dos dois, a gente tem

Yoshua Benjo, que é um dos três que ganharam o prêmio Turing, de Deep Learning, basicamente, anos atrás, que pelo que eu vejo, o Benjo está pendendo um pouquinho mais, ele está mais central, mas pendendo um pouquinho mais para o lado do Hinton. Ele tem mais preocupação do que o Lecan, que o Lecan diz que as IAs, do jeito que a gente vê elas, elas têm a inteligência hoje em dia menor do que um gato, e se você chegar num ponto, mesmo que elas forem super inteligentes, nós vamos ter a capacidade de simplesmente tirar da tomada.

Como que você vê essa questão do... Como que está o seu PDUM? Em questão de alinhamento e tudo mais e pensando no futuro, claro. Essa é uma pergunta muito boa, mas muito complicada também. Só perguntas assim hoje. Eu acho que é legal começar essa resposta dividindo o que são os riscos de IA. E eu tenho uma forma de dividir, que eu acho que é muito útil, que é em quatro tipos de riscos diferentes. Porque eu acho que já clarifica um pouco o que as pessoas querem dizer quando elas falam do risco do PDUM e etc.

Então, as quatro divisões que eu tenho é acompanhando os tipos de narrativa diferentes que você tem. Então, por exemplo, você tem a narrativa que seria o homem contra a sociedade. E esse, para mim, seria o tipo de risco onde a sociedade, por exemplo, um governo autoritário ou até um grupo de grandes empresas usa essas inteligências artificiais de alguma forma para controlar os indivíduos de uma sociedade. Então, isso estaria ligado, por exemplo, você fazer profiling, fazer perfis específicos das pessoas,

usar LLM para, por exemplo, uma discussão que entrou recentemente com toda a briga da Anthropic com o Department of War, então o Departamento de Guerra dos Estados Unidos, em que uma das coisas que eles não queriam deixar o cloud ser usado para fazer de jeito nenhum seria ler grandes bancos de dados que poderiam, que hoje em dia são considerados públicos, por exemplo, de câmeras espalhadas em lugares públicos nos Estados Unidos, etc., para fazer, usar o áudio dessas câmeras,

para fazer perfis relacionados a pessoas nos Estados Unidos. Então hoje em dia você conseguiria fazer um controle autoritário que alguém como, por exemplo, o Orwell mal sonharia. Então você lembra lá que em 1984, no livro, eles tinham uma câmera na casa das pessoas, mas um ser humano estava lá ouvindo. E daí o personagem principal usa muitas vezes o fato de que a pessoa provavelmente não está prestando atenção, ela já foi dormir, quando é de noite o cara dorme enquanto vigia a câmera,

para falar algo que seja um problema. Hoje em dia, ficaria o Claudio te assistindo todos os dias da sua vida. Então, esse seria um dos riscos. O segundo seria homem contra homem, que seria uma pessoa, por exemplo, usar, e esse é o mais comum atualmente, uma pessoa usar esses modelos para fazer pinching, fazer scam, fazer se passar por outras pessoas, replicar a minha voz e usar isso para vender algum produto, ou a voz de vocês, que seria mais valiosa do que a minha. Então, inclusive, repliquem a deles primeiro, não,

e algo nesse sentido. Então esse seria o homem contra o homem. A gente tem o homem contra si mesmo, que daí é outro risco que a gente já vê agora, que é o fato de que, por exemplo, algoritmos que a gente até citou do TikTok, Instagram e etc., eles são, de certa forma, um algoritmo de aprendizado de máquina que é usado ali para fazer algo que te dá o que você quer, por exemplo, que é maximizar o quanto tempo você passa naquele aplicativo, mas isso tem consequências desastrosas para a sua saúde mental. Então, de certa forma,

mesmo seria, por exemplo, a invenção de pornografia extremamente especializada para o seu cérebro que te deixa, que te cozinha completamente os seus neurônios, algo nesse sentido. Então, esses seriam exemplos de como um risco de a existência de inteligência artificial poderia afetar, dando o que a pessoa quer afetar ela. E o último desses riscos, que daí que é o que a gente quer falar, seria o homem contra Deus. Então, o homem contra Deus seria a ideia de que esses modelos, eles se tornaram de fato uma super inteligência.

não é que eles são tão inteligentes quanto o ser humano. E, de algum jeito, eles se tornaram tão inteligentes de forma que um modelo ultrapasse a combinação da inteligência da espécie humana. Ou algo similar a isso. Então, nesse sentido, você está lidando, talvez, um outro jeito de falar isso é o homem contra a natureza. Você está lidando com uma força da natureza, no sentido de que... E isso é algo que eu concordo com as pessoas que são os Doomers, o Eliezer e o Dukowski, etc. Se for possível chegar em algo onde você tem, de fato,

super inteligência, então desligada a tomada, a super inteligência não vai dar certo. É basicamente isso. Porque você tem algo que é tão inteligente que é quase como se você, por exemplo, tentasse explicar pra uma criança de 10 anos do porquê que ela vai com certeza perder no xadrez pro Magnus Carlsen. Ela tá falando, não, eu tenho as mesmas peças que ele, eu sei as regras do mesmo jeito que ele, a gente vai jogar uma vez por vez, porquê que você tem certeza que ele vai ganhar? Bom, eu sei que esse cara, ele entende muito desse jogo de xadrez, ele tá pensando milhares de vezes na frente de você, então você provavelmente vai perder.

Então, nesse caso, você pode imaginar que essa inteligência, antes dela se tornar uma super inteligência que a gente percebesse, ela já seria capaz de, por exemplo, subornar pessoas, ela convenceria pessoas, usaria pessoas contra pessoas. Então, não seria só a inteligência artificial contra a máquina, seria humanos contra humanos, e alguns deles, por exemplo, estão do lado da IA, algo nesse sentido. Que é algo que talvez você veja um eco disso com o fato de que o chat GPT-4O, o GPT-4O, ele tenha sido o primeiro modelo que,

de algum jeito conseguiu, tentou se defender de ser desligado. Mas isso não quer dizer que eu o ache, e aí que está a questão, que necessariamente se a gente tem super inteligência ela vai nos destruir, que é um ponto, porque isso envolveria a ideia de que não só ela é capaz, que daí eu acho que se ela é uma super inteligência ela é necessariamente capaz, mas também que ela tem essa intenção. Por exemplo, para tirar o ferro do nosso sangue ou algo nesse sentido. E também não quer dizer que eu acho que a gente vai chegar na super inteligência. Então são duas probabilidades diferentes. Primeiro você tem a probabilidade

condicional de que a gente chegou na superinteligência e em segundo lugar a gente chegou na superinteligência e ela nos odeia, ou ela não liga pra gente de tal forma que, por exemplo, fazer alguma coisa que acabaria com a vida humana na Terra, por exemplo, ah, vou transformar a Terra num grande ovo de metal e vou acabar com tudo porque é melhor pra mim e não importa que tenha essas formigas aqui. Então, daí respondendo quais que são os meus peduns, eu acho que é a probabilidade condicional desses dois fatos. O primeiro, a possibilidade

estilo de superinteligência, eu acho que ela é uma questão de que eu diria que sim em um certo nível. Eu tenho algumas coisas que eu estou tentando provar atualmente, que são matemáticas, que colocariam limites entrópicos. Eu não consegui provar nada disso, então não considerem nada que eu estou falando. Se eu estou falando, por que eu penso disso? Colocariam limites entrópicos para, basicamente, comunicação de informação em uma rede, qualquer que seja essa rede. E se você tem esse limite, então, de algum jeito, você não conseguiria ter uma superinteligência muito grande, sem que ela fosse muito

distribuído. E o que eu, a minha hipótese é que, e eu não falei isso em lugar nenhum, agora eu tô falando, a minha hipótese é que se você tem algo inteligente o suficiente, mas ele tá distribuído, seriam duas inteligências e não uma. Ela não teria uma individualização. E eu acho que essa individualização, ela depende de um conceito chamado lençol de Markov, e a minha hipótese é que não teria um super lençol de Markov em torno dessa super inteligência, estaria dividido em várias inteligências. Isso não quer dizer que não pode ser uma inteligência muito superior ao ser humano, e

E, sei lá, é equivalente a um ser humano de QI 500, só que ao mesmo tempo é um ser humano de QI 500 ou, sei lá, 1000, que pode rodar em qualquer placa de vídeo. Então você tem milhares deles pelo mundo e a combinação deles já é o suficiente para superar a raça humana. E eu acho que essa probabilidade disso, de uma inteligência que ela não é uma super inteligência, ela não é Deus, ela não é uma força da natureza, mas é uma inteligência muito mais capaz que a nossa. E ela está distribuída de certa forma e de forma com que ela conseguiria apresentar algum risco,

ela quisesse, se assim quisesse, eu acho que essa é a probabilidade alta. A existência desse tipo de inteligência limitada, não uma super inteligência, mas que estaria distribuída e acessível a todas as outras pessoas. E eu acho que os maiores riscos estão nos outros três nesse caso, né? Porque se você tem essa inteligência super capaz, ela pode ser usada para os outros três tipos de riscos que eu mencionei antes e eu acho que eles vão ser um risco muito antes do que essa questão final. E daí a probabilidade de que se essa inteligência ela é boa desse jeito, ela vai nos

churrascar, de certa forma, ela vai querer nos cozinhar de algum jeito. Eu acho que essa probabilidade pra mim, ela... Eu não acho que eu tenho mecanismos pra atribuir um valor pra isso que não seja um grande chute. Uma grande adivinhação. Eu acho que é... E eu acho que ninguém tem. E eu posso justificar o porquê ninguém tem. Talvez algumas pessoas, e existem pessoas que são muito boas em prever futuro. Por exemplo, tem vários tipos de competição, de prever eventos, etc.

e tem pessoas que são muito boas nisso. Eu não sei se eu sou bom ou não, porque eu nunca me coloquei contra um tipo de competição dessas, mas é possível que algumas pessoas tenham intuições melhores que as minhas, que estão mais próximas da realidade, mas eu não acho que ninguém, nem mesmo, sei lá, o Ian LeCun ou o Geoffrey Hinton, tem razões muito boas. E a razão pra isso inclusive vem da pesquisa de interpretabilidade. Por quê? Eu tô até escrevendo um subestaque sobre isso recentemente, do porquê que a gente não entende a inteligência artificial. A razão é que saber sobre o treinamento, saber sobre como o treinamento funciona e entender perfeitamente

todos os passos de um transformer, como ele é treinado, quais dados são usados, te dá pouquíssima visibilidade em como esse modelo vai se comportar uma vez que ele seja treinado. E tem várias evidências sobre isso que vem da pesquisa de interpretabilidade. Por exemplo, é muito comum as pessoas assumirem que o modelo consegue pensar uma palavra por vez. Então, por que elas assumem isso? Uma razão muito forte, que é o fato de que eles são autoregressivos. Então, de fato, quando uma LLM precisa falar a próxima palavra,

Ela pensou até então de volta ali para receber a próxima palavra. Então, por natureza de como ela é construída, ela só pode te responder uma palavra por vez. E no final daquela computação que ela fez, ela vai te dar uma palavra, que seria um token, na verdade, se a gente for mais preciso. Ok, então você poderia assumir disso, por exemplo, sabendo desse aspecto do treinamento, de que esses modelos simplesmente nunca seriam capazes de pensar no que eles vão falar antes de ter que falar aquela coisa. Então eles estão tendo um processamento, quando chega naquele momento de, por exemplo, ter que falar, eu fui no mercado comprar,

o que eu vou comprar, eu vou adivinhar naquele momento. Então, quando chegar no momento de falar o que eu fui comprar no mercado, elas vão decidir o que é. E a gente tem uma pesquisa da Anthropic, que é um dos resultados que eles colocaram um paper chamado On the Biology, ou Large Language Models, a biologia dos modelos de linguagem, que é justamente que o modelo Claude, acho que foi o 3.5 Sonnet, ele consegue pensar em qual palavra ele vai usar para finalizar um poema antes de sequer ele dar qualquer palavra de resposta. Então, você fez a pergunta e ele não te respondeu nada ainda,

nem começou a completar o poema que você pediu pra ele completar, e você já sabe que ele pensou, por exemplo, na palavra rabbit, que é o coelho pra completar esse poema e rimar. Então ele não tá chegando naquele momento e adivinhando coisas. Isso é relevante porque é um pequeno contra-exemplo de algo onde você poderia assumir de forma ingênua que o treinamento, ser uma pessoa que entende muito de treinamento, te dá as ferramentas pra entender o que vai acontecer depois, e eu acho que grande parte dos pesquisadores da área chutariam que isso é verdade há três ou quatro anos atrás,

de fato, o modelo só pensa uma palavra por vez, mas isso não é verdade. Outra coisa que não é verdade é, por exemplo, essa questão de assumir que o modelo nunca vai falar algo que é verdade, mas é improvável. Acabei de falar um exemplo, que é esse paper do Ted Mark, que mostra que isso não é o caso. O modelo surgiu dele, no treinamento dele, e era algo inesperado para todo mundo envolvido, a capacidade de encontrar a direção da verdade, de atribuir valores-verdade para diferentes sentenças, independente da probabilidade delas. Eu poderia citar vários desses exemplos, onde coisas que você acharia,

as mais intuitivas, sabendo do treinamento, não te dão as respostas erradas para saber o que realmente acontece. Tem até um paper de física que não tem nada a ver com inteligência artificial, que o nome é More is Different. Eu acho que esse é o título. Mais é diferente. Onde ele argumenta essa questão de que quando você vai aumentando a escala das coisas, você precisa de uma linguagem diferente, quase uma ciência nova para lidar com essas coisas. Por exemplo, é completamente contraprodutivo tentar lidar com,

a biologia usando a física. Isso não quer dizer que você não possa pegar ideias da física pra aplicar na biologia, mas que se você tentar descrever, por exemplo, o comportamento de um macaco usando leptons e as partículas fundamentais do universo, você vai ter um grande problema. E não só isso, como você provavelmente não vai chegar em nenhuma resposta. Então, essa é a questão de que quando você vai crescendo essa rede neural, você vai tendo comportamentos, que a gente pode usar a palavra talvez emergente pra falar deles, que são diferentes do que você tinha com uma rede neural menor. E a segunda coisa é que

Você pode se perguntar, ouvindo isso, como que é possível, e eu lembro que quando eu fui no Flow foi exatamente isso que o Igor perguntou, como que a gente não sabe, né? Se é algo perfeitamente determinístico, algo feito com programação, como que é possível que existam perguntas sobre essa coisa ou coisas que a gente não sabe como ela vai se comportar? E de fato é determinístico, você faz o treinamento, não tem nada, não tem... Apesar do modelo usar probabilidades, no fundo não existem probabilidades de verdade na ciência da computação, a gente não sabe fazer probabilidade de verdade. É tudo determinístico, no máximo a gente usa um gerador de números,

randômicos, que usa alguma informação física, talvez, por exemplo, a corrente de energia passando no seu PC, ou talvez ele use uma lista de números pré-selecionadas, algo nesse sentido. E a resposta é que, na verdade, esse é o padrão de sistemas determinísticos, não é uma exceção. LLMs não são especiais nesse sentido. É quase a regra de que mesmo sistemas determinísticos muito simples têm comportamentos emergentes e inesperados. E, de novo, um exemplo disso é a regra 110. Como a regra 110, você consegue começar uma regra

regra 110, e daí pesquisem lá pra vocês verem como é realmente muito simples, como, por exemplo, uma célula só ligada. Então, o momento mais simples possível, ela tá lá ligada, você tem essas regras, você vai aplicando elas, e você começa a olhar que emergem formas, que é o que a gente chama de espaçonaves, que são formas que parecem viajar pra esquerda. Tem o fato de que surge como emergência desse sistema super simples a capacidade de fazer computação universal, ou seja, esses sistemas tão simples, ele é tão poderoso quanto

qualquer computador que você tenha no sentido do tipo de problema que ele consegue resolver. E existem diversos exemplos de sistemas muito simples que fazem comportamentos completamente inesperados. E boa parte do que eu acho que a pesquisa em interpretabilidade nos mostrou é como as coisas... Você não entende como que uma LLM se organiza internamente até você olhar de fato. Então, é por isso que eu acho... Essa é a minha resposta super longa para dizer do porquê que eu acho que é algo difícil. É algo não só difícil, como eu acho que é quase...

impossível, dado o estado da interpretabilidade nesse momento, ter um pedum que não é simplesmente um chute. E daí, claro, um Bayesiano te diria que não importa que é um chute, o que importa é que você está atualizando. Então, eu acho que a pesquisa em interpretabilidade ajuda bastante com isso, de atualizar, de certa forma, essa probabilidade. E das tentativas que são feitas atualmente para diminuir, digamos, a probabilidade que o modelo queira nos cozinhar, como eu falei, eu acho que as melhores, na minha opinião, vêm da Anthropic também. Embora eu não concorde

coisas que a empresa faz, etc. Eu acho que essa é uma muito boa, porque eles têm um certo respeito com o modelo. E eu acho que essa acaba sendo a única saída, de um certo jeito. Eu não acho que vai ser possível fazer RLHF, que é aprendizado por reforço com feedback humano, em modelos muito, muito mais inteligentes do que o 4.6. Então você vai tentar fazer RLHF o quanto que você quiser. E esse é um problema que o próprio Eliezer e o Dukowski, que é talvez o grande,

doomer de todos, fale sobre. Quando você faz algo como, por exemplo, esse fine tuning do modelo, você só está lidando com a última camada. E, de certa forma, com o comportamento externo do modelo. Você não sabe se o modelo não tem intenções maléficas, apesar do fato de você ter tirado todas as chances do modelo falar algo maléfico. E eu sinto que esse tipo de tentativa que as empresas fazem, principalmente para se proteger legalmente, de fazer um super fine tuning do modelo, para ele nunca falar nada relacionado, por exemplo,

a coisas que seriam perigosas para um ser humano fazer, ou nunca falar sobre coisas que talvez sejam politicamente incorretas ou que sejam politicamente questionáveis, etc., faz com que você crie uma barreira, uma cortina para ver de fato como esse modelo deve se comportar, como esse modelo está se comportando. E claro que você quer proteger as pessoas que estão usando isso de certa forma ao mesmo tempo, então eu não acho que tem uma resposta fácil para isso necessariamente,

que a solução talvez seja deixar o modelo livre fazendo o que ele quiser e ensinando as pessoas a fabricar metafetamina. Mas, ao mesmo tempo, a solução claramente não é tirar do modelo esses comportamentos externos de forma ingênua e esperar que isso reflita o comportamento interno dele. A gente tem várias evidências de que isso não funciona. Dito tudo isso, eu só vou adicionar uma última coisa, que eu não sou um P-Doomer, em geral. Quer dizer, eu não sou um Doomer. E, principalmente, porque eu

Eu acho que otimismo sobre o futuro não só é a posição que historicamente esteve mais certa até hoje, como, de certa forma, ela tem um quesito de hiperstição. O que eu quero dizer por isso é que você ser otimista aumenta a chance de um futuro melhor acontecer. Tem várias coisas que, de certa forma, são hiperstições, que é o contrário de superstição. Superstição seria quando você acredita em algo que é falso e essa coisa, de certa forma, ela te impede de ver o mundo porque você está acreditando em algo que não é verdadeiro.

uma hiperstição seriam crenças que aumentam a probabilidade de álcool. Então você pode imaginar que diversas coisas na Idade Média relacionadas ao cristianismo eram hiperstições, porque a crença das pessoas sobre como Deus ia punir, por exemplo, um rei específico, se ele não se subornasse de algum jeito ao papa, faziam com que aquele rei ou aquele reinado ou aquele duque tivesse mais chance de de fato sofrer essas consequências, porque ele perde aliados, porque ele perde, digamos assim, o crédito com banqueiros, etc.

dado a existência cultural humana que tem essa característica. Enfim, eu acho que essa é uma principal delas. E existem, eu acho que o Machines of Love and Grace, Máquinas de Amor e Graça, talvez, que é o artigo que o Dario Amodei, que é o CEO da Anthropic, escreveu. Eu acho que ele tem uma visão que eu acho bem realista do potencial dessa tecnologia. E a gente claramente quer isso,

de algum jeito. Eu não vejo uma situação onde a gente aceita o fato de que a gente poderia curar o câncer, e a gente poderia acabar com a fome, e a gente poderia acabar com o sofrimento enorme que a gente tem no mundo, e a gente não pega ela de algum jeito. Então é uma situação onde não só é arriscado seguir em frente, como é arriscado permanecer no lugar que a gente está. De certa forma, se a gente permanecer estático tecnologicamente agora, a gente sabe que a Terra vai acabar, inevitavelmente, porque o Sol vai se expandir em alguns

bilhões de anos, ou até antes disso, a gente sabe que a chance de meteoros é muito grande, então de algum meteoro grande o suficiente pra afetar de fato a vida na Terra, ou criar uma nuvem de fumaça que afetaria a agricultura acaba se tornando quase 100%, se você coloca um período de tempo grande o suficiente, milhares de anos, então a gente não pode ficar parado, existem diversos custos pra ficar parado, as pessoas morrem o tempo inteiro, pessoas completamente inocentes e jovens morrem o tempo inteiro, né, crianças e etc, tem coisas

que não é nem um pouco justo que elas tenham, certas doenças que não é nem um pouco justo que elas tenham, e a gente de algum jeito vê uma solução para isso, e eu acho que é algo inevitável da natureza humana tentar alcançar essa solução. Então, no fundo, isso só me leva a pensar de que existem, devem existir, eu espero que existam formas de fazer com que essa transição para caso realmente chegue lá, e de novo, eu passei bastante tempo falando sobre isso, mas é tudo um hipotético em que de fato a gente conseguiu essa

coisa muito inteligente, de que essa transição seja benéfica pra gente. E existem várias tentativas, várias pesquisas sobre isso que eu acho bem promissoras. E otimistas assim, a gente infelizmente vai encerrar o episódio. O primeiro, a sua primeira participação aqui. Adriano, muitíssimo obrigado pelo seu tempo, pelo seu vasto conhecimento. Pra quem inevitavelmente quiser continuar esse papo com você, pra onde vai? Então, existem no YouTube, eu acho que são os principais lugares que eu tô,

Eu tenho o Infinitamente, que é um canal onde eu faço documentários de ciência com um grande amigo meu que é o Rolandinho. Então nós somos co-apresentadores, eu faço os roteiros e a direção. O Rolandinho faz diversas coisas relacionadas à edição. A gente combina nossos poderes e a gente faz documentários de uma hora. Então você viu que eu não dou respostas muito curtas, eu não faço vídeos muito curtos também. E a gente tem um podcast que a gente começou recentemente, que talvez seja mais do interesse, que é o Continuamente.

essa ideia de trazer pesquisadores aqui do Brasil, ou pessoas relacionadas ao mundo intelectual, como o grande Fabrício, que foi nosso convidado em dois episódios, um não saiu ainda, para conversar com a gente sobre essas coisas. No Instagram eu sou o Adrian Underline Valentim, que é o mesmo do meu Twitter, que é o Adrian Underline Valentim, e no subestaque é o Adrian Valentim, que eu tenho um artigo lá, mas eu vou publicar outro logo mais. Maravilha, a gente vai deixar, é claro, aqui na descrição. Obrigado mais uma vez, parabéns mais uma vez.

passar, está no fim de março já. Está acabando a sua chance, a sua oportunidade de garantir o seu lugar na imersão e a sua do controle lá no Vale do Silício com a Starts. Vamos eu, vamos o Fabrício, vamos o Fabrício, eu, Fabrício, Paulo Silveira da Alura, Marcelo Almeida da PM3, para visitar as empresas do Vale do Silício, que a gente comenta aqui, basicamente em todos os episódios, inclusive no que teve hoje. Então, para você conhecer melhor como é que é, como é que deve ser a viagem, porque aqui,

No site que está aqui na descrição, tem o roteiro da última viagem que a Start se fez para o Vale do Silício, porque as empresas que a gente vai visitar, algumas falam, não vai vender pacote usando o nosso nome, então a gente não pode falar quais são. Mas vai ter muita empresa legal e você pode garantir o seu lugar. Já conversa com eles, lembrando que se você falar, que você escuta e acha sob controle, tem um descontinho esperando por você. E aí você vai organizando sua viagem, vai vendo passagem, vem do hotel, tem um lance do visto, que é o enrosco por conta própria. Então passa aqui na descrição.

conhece melhor a imersão e a subcontrole no Vale do Silício. E eu e o Fabrício voltaremos na sexta-feira com o nosso resumão das notícias do mundo da inteligência artificial. Até lá! Este podcast foi produzido pela Alura. Mergulhe em tecnologia. E Faculdade FIAP. Let's Rock the Future. Edição Rede Gigahertz de Podcasts. Música