234: Entendendo modelos de mundo e JEPA, com Randall Balestriero, da Meta FAIR
Nesta semana, tivemos um papo fascinante com Randall Balestriero, pesquisador da Meta FAIR. Mergulhamos no universo dos famosos world models e da arquitetura JEPA, tecnologias que ele vem desenvolvendo ao lado de Yann LeCun e que muitos especialistas apontam como a próxima grande revolução na inteligência artificial.
Vem ver quem participou desse papo:
Marcus Mendes, host sob controleFabrício Carraro, co-host sob controle, Program Manager da Alura, autor de IA e host do podcast Carreira Sem FronteirasRandall Balestriero, Visiting Researcher na Meta AI/FAIRLinks:
Conversa original em inglês com Randall BalestrieroMeta FAIRE...- Inteligência Artificial embeddingsDefinição e conceitos fundamentais · Diferenças entre JEPA e modelos autorregressivos (GPT) · Predição em espaço latente versus espaço de entrada · Problema do colapso de representações · Termos de diversidade e anti-colapso
- World Models e Modelos de MundoConceito de modelos de mundo para IA · Aprendizado de dinâmica de sistemas · Diferenças fundamentais com modelos generativos · Eficiência computacional em relação a LLMs · Aplicações em robótica, medicina e astrofísica
- Comparação com modelos de linguagemEficiência amostral de JEPA versus LLMs · Predição de próximo token versus predição latente · Ruído em dados de texto versus imagem · Escalabilidade e limites técnicos · Futuro dos dois paradigmas
- Desafios de Pesquisa em JEPADiferenciação entre sinal e ruído · Estabilidade de treinamento e escalabilidade · Leis de escala para JEPA versus GPT · Avaliação de modelos de mundo · Interpretabilidade de embeddings abstratos
- Planejamento EstratégicoControle preditivo baseado em modelo · Planejamento em robótica · Raciocínio de longo prazo · Objetivo versus predição autorregressiva · Integração com especificação de objetivos
- Integração de JEPA com Modelos de LinguagemSistema 1 e Sistema 2 · Interação entre JEPA e LLMs · Decodificador baseado em LLM para interpretabilidade · Alinhamento em pós-treinamento · Interpretação de representações latentes
- Inteligência ArtificialVisão por computador e imagens · Pretrenamento em modelos de visão · Convergência mais rápida que modelos tradicionais · Comparação com Vision Transformers (ViT) · Estabilidade de treinamento
- Energia ElétricaLei de escala em JEPA · Redução de dados necessários · Convergência rápida · Aprendizado contínuo e educação · Adaptação a distribuições novas
- Pressões e Dinâmica da Pesquisa em IACorrida tecnológica entre laboratórios · Visibilidade pública da competição · Impacto em estudantes de doutorado · Diversidade de agendas de pesquisa · Direcionamento de pesquisa pelo mercado
- Reconstrução versus Predição LatenteDesperdício computacional em modelos generativos · Variância e ruído em espaço de entrada · Ignorar informação irrelevante · Erro quadrático médio como métrica · Foco em características de alta variância
- Tecnologia Seguranca PublicaRestrições físicas durante planejamento · Controle explícito versus implícito · Diferenças com segurança em LLMs · Imposição de limites de velocidade e movimento · Robustez contra objetivos maliciosos
- Tecnologia espacialModelagem de dinâmica de galáxias · Descoberta de física nova · Sistemas dinâmicos complexos · Parametrizações de equações diferenciais · Interpretabilidade para física
- Cookbook de Aprendizado SupervisionadoCompilação de conhecimento tácito · Estudos de ablação em deep learning · Receitas de treinamento · Coupling de hiperparâmetros · Register tokens e artefatos de método
- Modelos de IAAssistência em programação · Revisão de código adversarial · Detecção de bugs e testes · Geração e edição de imagens · Melhoria de escrita acadêmica
- Impacto de decisões empresariaisCapacidades em imagem e vídeo · Produtividade e gestão de tempo · Ajuda em pesquisa e programação · Criação de conteúdo · Escalabilidade de modelos
Bem-vindas e bem-vindos à edição de quarta-feira, edição de entrevista do E.A. Sob Controle, o seu podcast com overfit de informações sobre o mundo da inteligência artificial. Eu sou o Marcos Mendes e tenho claro esse encontro da semana para aqui o Fabrício Carraro, viajante poliglota, host do podcast Carreiras Sem Fronteiras e Program Manager da Alura. Fabrício, tudo bem? E aí, Marcos? E aí, pessoal de casa? Hoje é um episódio mais do que especial.
aqui para a gente, tanto para vocês ouvintes, quanto para a comunidade de IA no Brasil como um todo, porque ele é uma das pessoas que está trabalhando literalmente na vanguarda da pesquisa de arquiteturas novas para o depois. A gente vem falando muito de LLMs, modelos como o GPT, o Gemini, o Cloud, que são autoregressivos. Eles não, eles estão olhando o que está lá na frente, o que são os modelos de mundo, os famosos world models,
é uma pesquisa de base que está ficando cada vez mais quente agora, ainda na academia, olhando para quem sabe estar no mercado daqui a alguns anos. Mas quem que é essa pessoa, Marques? A gente vai conversar com o professor Randall Balestriero, que trabalha na MetaFair. Brother de um futuro brother nosso, eu vou arriscar aqui, hein? Do Ian Lecão, que trabalhou, sempre fala dele aqui, né? Trabalhou na Meta por muito tempo, saiu para fundar a Ami recentemente.
fathers of AI, né, os quadrinhos, redes convolucionais e tudo mais. Eu achei que ele dispensava apresentações, mas não, é. E essa é uma daquelas entrevistas que a gente fez em inglês, então é aquele esquema de sempre. A partir de agora, você vai passar a acompanhar a entrevista dublada na própria voz do Randall, mas quem quiser escutar a entrevista original em inglês com um pesado sotaque francês, pode passar aqui na descrição do episódio, que vai ter o link pro papo também original em inglês.
em inglês. Então, vamos lá. Professor Randall Balestriero, bem-vindo ao Ia Sob Controle. Obrigado. Obrigado a vocês por me receberem. Eu fico bem feliz para falar sobre os modelos de mundo, de EPA e talvez até outras coisas. A gente está bem honrado de receber você aqui hoje para falar com a gente. E você hoje é um pesquisador visitante na FER, na MetaFER, que é uma divisão da meta, que a gente já falou bastante aqui, tanto por conta dos modelos e estudos, quanto também por conta dos bastidores,
as estudas que aconteceram recentemente. E FER, claro, é o Facebook AI Research. A gente falou aqui dos modelos Segment Anything, do Dyno, claro, do VGEPA, do iGEPA, do GEPA mesmo, todos eles. E a gente já falou sobre até o próprio GEPA aqui no passado, mas não dá para começar de uma outra forma essa entrevista, já que é você que está aqui, te pedindo para explicar para a gente o que é o GEPA e quais são as diferenças, porque ele é tão diferente, a diferença entre o GEPA e os modelos mais comuns, o autoregressivo, o Transformers, os GPTs,
Claro. Então, talvez isso não seja novidade para todo mundo, já que vocês comentaram sobre o VGEPA, o IGEPA, mas GEPA significa Joint Embedding Predictive Architecture. Então, o enquadramento e o nome vêm de um position paper do Yang, de alguns anos atrás, que você pode encontrar no Open Review, mas a ideia realmente se apoia em um conceito que, sabe, tem décadas na ciência cognitiva, que é o seguinte.
Quando você tenta modelar o mundo, você tenta prever o que vai acontecer de uma forma mais abstrata, perdendo alguns detalhes de informação que você está tentando entender. E a única forma de fazer isso é tentando descrever o mundo no sentido de um espaço de embeddings, um espaço latente, onde você consegue abstrair o que está acontecendo. Por exemplo, se eu te disser, imagina o que acontece quando você está dirigindo e vira para a esquerda.
Ok, o que acontece em termos do volante, das suas mãos, alguma coisa assim, mas você não tenta reconstruir os detalhes das árvores ao seu redor. Você talvez nem veja exatamente quais são os detalhes ao redor. Na verdade, é mais sobre, ok, o que está acontecendo no nível do olhar. E é isso que o JEPA tenta aprender a partir dos dados, e é isso que é fundamentalmente diferente de, digamos, um modelo de linguagem, ou, sabe, modelos generativos,
precisam se preocupar com cada detalhe dos dados. Então você precisa prever, por exemplo, o que vem do próximo frame a partir do frame passado, mas como você tem esse erro de reconstrução, esse processo generativo, você realmente tem que modelar cada detalhe do próximo frame, e isso inclui todas as folhas das árvores, todos os pássaros voando por ali, o que na prática significa que você vai desperdiçar uma enorme quantidade de computação, de flops,
que muitas vezes nem são previsíveis a partir do passado. Então você passa muito tempo modelando aleatoriedade e isso não é uma coisa que vai fazer com que representações úteis emerjam do seu modelo. Então essa é uma diferença fundamental. Então sim, essa é a explicação mais de alto nível. E indo um pouco mais fundo nesse nível que você mencionou, Randall, eu entendo o conceito por trás disso, mas como que você define em um problema
está querendo resolver usando o JEPA, ou o que é que vai sair do JEPA, que você não precisava daqueles pássaros voando da ave, ou alguma coisa assim. Tipo, o que é o ruído e o que era realmente importante? Sim, essa é uma pergunta muito boa, que na verdade é uma questão de pesquisa bastante ativa, porque de certa forma você poderia dizer, ok, aquilo que é facilmente previsível é o que é mais interessante.
Então é nisso que eu quero focar e capturar primeiro. Então você poderia dizer, ok, o quão fácil é prever essas características e é justamente isso o que é útil para a minha tarefa downstream. E é isso que, sabe, muitas leis da física e coisas do tipo tentam recuperar. E você tenta ver quais são os poucos parâmetros que conseguem parametrizar alguma equação diferencial parcial, alguma coisa assim, para que você consiga descrever muitas das coisas que você vê no mundo de uma forma muito elegante.
Mas então, claro, você poderia dizer, bom, e se alguém quiser contar quantos pássaros existem nesse frame, certo? Talvez você tenha perdido essa informação. E é aí que existe muita pesquisa acontecendo para entender, ok, o que é ruído versus o que é sinal. E na verdade, será que existe uma forma de garantir que você não possa descartar sinal nenhum? Porque talvez você tenha um sinal muito difícil de prever, porque os seus inputs sensoriais são ruins e assim por diante.
Isso é uma coisa que está no lado mais desafiador da pesquisa e não é fácil de depurar, porque como não é um modelo generativo, você não pode simplesmente reconstruir e dizer, olha, os pássaros desapareceram. Então, obviamente, você não consegue resolver essa tarefa de detecção dos pássaros. Então, a grande pergunta da pesquisa é como diferenciar sinal de ruído e como garantir que depois do treinamento você realmente capturou o sinal que é interessante.
o principal desafio. Na prática, porém, você ainda consegue visualizar isso com uma relativa facilidade, porque depois do treinamento você pode treinar uma rede generativa por cima do seu JEPA para visualizar o que as representações estão codificando. Então, não é um modelo generativo que é usado durante o treinamento para aprender o seu embedding e o seu modelo, é só uma coisa usada depois do treinamento para visualizar e depurar o que foi capturado. Então, você pode ter esse tipo de ferramenta qualitativa de depuração no
pós-treinamento, mas não existe nada hoje que teoricamente diga ok, treine com esse objetivo e eu posso te garantir que você vai aprender todos os sinais que você quer. Mas, na verdade, talvez, rapidinho, talvez você também possa inverter essa pergunta para modelos generativos. O que a gente observa é que em modelos generativos, por causa das métricas como, digamos, erro quadrático médio ou qualquer métrica usada para reconstrução, você acaba focando muito nas partes das características que têm uma alta variância.
Então isso é o que é considerado sinal para esses modelos generativos e é isso que eles aprendem primeiro. Então se você não tiver flops suficientes ou fizer um word stop e interromper o treinamento antes da convergência, você também acaba ignorando partes do input que correspondem justamente ao que tem baixa variância no espaço de pixels ou no espaço de entrada. Então para modelos generativos também existe esse tipo de corte entre sinal e ruído,
uma experiência explicada no espaço que você pode estar reconstruindo. E esse também é um outro tipo de viés que você não consegue controlar facilmente. Então o que eu diria é que esse é um problema fundamental de forma geral, sabe? O que você quer tornar invariante, ignorar versus o que você quer manter, mas é uma pergunta muito interessante. E normalmente o que é a saída de um modelo desse tipo, ou modelos desse tipo?
Esses JEPAs normalmente vão produzir um espaço de embedding de baixa dimensionalidade, que é uma representação abstrata de todas as entradas que você viu até agora, e esses embeddings não são necessariamente interpretáveis no sentido de, ok, você sabe que isso aqui, que é o pixel 1 que ele codifica, isso aqui é o pixel 2, o que ele codifica, certo? Deve existir um nível de abstração, idealmente, um pouco desembaranhado, desassociado, organizado no espaço bem estruturado e com vários níveis de abstração.
se você fizer alguma perturbação na entrada, a mudança no embedding deveria ser muito pequena se isso não for uma coisa útil para resolver a sua tarefa de predição. Então, voltando, por exemplo, do pássaro. Se você aprender a dinâmica correta e, de alguma forma, ignorar os pássaros voando ao redor, porque isso não é uma coisa relevante para a sua tarefa de predição, então adicionar os pássaros ou não na entrada não deveria mudar os embeddings que você obtém na saída. O que, de novo, é diferente de um modelo generativo,
precisaria capturar as características dos pássaros para conseguir reconstruir e depois gerar.
como é que você treina o JEPA e por que é diferente de treinar um GPT? Ah, sim. Na verdade, se você já está familiarizado com predições autoregressivas ou com treinamento no estilo GPT, é muito fácil ir para o JEPA. Então, pensa em fazer uma autoregressão, mas ao invés de isso ser no espaço da entrada, então os dados, os tokens passados ou os frames de pixels anteriores, tentar prever o próximo frame de pixels, em vez de fazer isso nesse espaço de entrada, você faz isso no espaço latente,
abstrato. Então, você vai até a camada 3, digamos, a camada 10, dependendo da profundidade do seu encoder. Então, nesse espaço, você vai fazer a predição do próximo frame. Então, dados os embeddings do frame, digamos aí, de 1 a 10, eu consigo prever o embedding do frame 11. Então, você faz isso nesse espaço abstrato de embeddings. Mas, fora isso, é exatamente o mesmo princípio. Você faz isso de uma forma autoregressiva, com um transformer ou qualquer arquitetura que você quer usar.
O principal desafio não vem realmente de formular essa função de perda da predição, mas de dizer que uma vez que você tem só essa perda, existe uma solução, um atalho, que é aprender uma representação colapsada. Então, se você tem essa tarefa abstrata para prever, o que a rede vai fazer é dizer, bom, eu posso simplesmente ter as três primeiras camadas produzindo uma constante, independente da entrada, e assim eu sempre consigo fazer essa predição autoregressiva, certo?
Então, não importa qual seja o passado, eu sei que o futuro é sempre o mesmo. Então, eu tenho uma perda de predição que é zero. Então, a grande questão da pesquisa em JEPA é como evitar esse colapso. Então, você quer conseguir fazer essa predição no espaço de embedding, enquanto ainda você mantém embeddings significativos, diversos, que capturem alguma coisa sobre a entrada. Então, isso envolve, digamos, dois termos que tentam competir entre si, que é uma boa predição do espaço de embeddings, e um termo de diversidade.
ou um termo de anticolapso para evitar justamente esse colapso. E falando do tamanho, já que você não precisa prever tudo, ele também acaba sendo muito menor do que os modelos autoregressivos que a gente está acostumado? Ou, por exemplo, porque já que você está treinando, ele precisa desse espaço latente, abstrato, enorme, ele pode ser maior em tamanho também? Sim, essa é uma boa pergunta.
Então você definitivamente quer que ele seja de dimensionalidade menor do que o espaço de entrada, mas eu diria que na prática, por exemplo, se você faz um modelo de vídeo, você também não faz isso no espaço de pixels, mas digamos que em um espaço de embedding, um VQ, VAE, que também é de dimensionalidade menor do que o espaço de entrada completo, então eu diria que o principal benefício do JEPA não é realmente que você pode reduzir a dimensionalidade do embedding, mas sim que você pode ignorar certas informações de entrada
O que você quer prever e o que você quer ignorar completamente no seu embedding?
tudo quando a gente fala de modelos autoregressivos, GPT, coisa assim, a gente sabe que existem a limitação de dados. Uma vez que você tem arraspado todos os dados do mundo, tem dado sintético, tudo bem. Mas assim, pensando nesse ponto de vista de que existem alguns tetos técnicos, quais seriam, quais são, talvez você já tenha essa noção, os tetos técnicos do GEPA? Até onde dá para ele evoluir? Não sei se faz sentido. Deu para entender? Sim, então. Primeiro, uma coisa interessante é que se você olha para a quantidade dos seus dados,
dados e pensa que talvez exista um pouco de ruído, que você pode considerar como uma coisa que não é útil para nenhuma tarefa, ou seja, não importa o que você queira usar do seu modelo, capturar isso não vai ajudar, não vai melhorar nada. Então a reconstrução no espaço de entrada ou modelagem autoregressiva no espaço de entrada sempre vai sofrer, porque você está desperdiçando computação e tempo tentando aprender a distribuição do ruído. Então você consegue derivar alguns limites interessantes em modelos simplificados que mostram que o JEPA
pode ser muito mais eficiente em termos de amostra do que um modelo autoregressivo no espaço de entrada. Claro que isso envolve algumas suposições, você tem que partir de algumas premissas sobre a distribuição do ruído e assim por diante, mas já existem alguns primeiros resultados interessantes mostrando que, justamente porque você pode ignorar algumas características, você pode melhorar a eficiência amostral. E eu diria que, além disso, o principal problema da escala hoje é como evitar esse colapso.
claro, em que a gente possa escalar como faz um modelo de linguagem, ter aquelas curvas de escala bem comportadas, porque se você multiplicar o tamanho do dataset por 2, ou o tamanho do modelo por 2, é muito difícil você simplesmente reutilizar a mesma função de perda do JEPA. Normalmente, você tem que fazer bastante validação cruzada de hiperparâmetros para fazer funcionar bem e assim por diante. Então, por causa disso, a gente não tem ainda leis de escala muito boas. E essa também é uma das grandes limitações,
se essas coisas escalam bem ou não. Então esse é um dos pontos que a gente está tentando melhorar com os objetivos do JEPA, deixar melhor, mas ainda assim, até agora, uma coisa que eu diria é que a gente observou, pelo menos em visão computacional e em tarefas com imagens, isso é que a velocidade de convergência é muito melhor para a JEPA comparado com modelos de espaço de entrada e isso novamente vem do fator de que você não tem que modelar toda a estocasticidade dos pixels. Então, com muito menos dados,
muito menos computação, normalmente modelos menores, você consegue desempenho melhor do que a reconstrução do espaço de entrada. Mas isso vale só para a visão computacional. E se você tivesse que apostar falando sobre o JEPA ou o VJEPA, o novo artigo que você escreveu, em quais regimes você acha que eles escalariam melhor? Seria, por exemplo, quando você usa dados com ruído, ou para generalização,
cenários onde você tem poucos rótulos ou para o aprendizado multimodal e por quê? Sim, sim, boa pergunta. Então, eu acho que o Legepa, especificamente, você pode pensar nele como uma função de perda particular para treinar o Gepa, que tenta remover muitos hiperparâmetros e fazer um treinamento estável para que fique mais pronto para o uso ao treinar o Gepa. Você não tem mais tanto esse problema de colapso, mas isso não resolve todos os problemas por si só. Então, isso, eu diria, entre
resolveu, porque nunca está totalmente resolvido, ainda tem muita coisa que a gente está trabalhando, mas esse é um passo para tornar o termo anticolapso ou o termo diversidade muito mais confiável e fácil para depurar, para entender. Mas o termo de predição é aquele que também desempenha um papel importante para ser robusto, arruído e eficiente em termos de amostras. E é aqui também que a gente tem que fazer mais pesquisa. Se isso você provavelmente consegue mostrar, se você tiver o termo de predição correto e usar o termo anticolapso do Legepa,
Então você pode aprender representações ótimas no sentido de que, mesmo que você tivesse rótulos supervisionados para resolver a sua tarefa específica e estivesse falando de aprendizado supervisionado, você não superaria o desempenho dos embeddings do Legepa. Mas, de novo, isso parte de uma premissa de que você não sabe como definir essa tarefa de predição. Então, por exemplo, pode ser que você não queira só prever o próximo frame, mas os próximos cinco frames.
mas se você tem uma sequência de frames, você quer mascarar um tubo dentro dessa sequência de frames para prever qual que é a representação desse tubo. Então, todas essas variações são diferentes maneiras de definir a tarefa de predição, e é isso que também molda o seu espaço de embedding e diz em quais tipos de tarefas ele vai ser bom posteriormente. Então, esse é o trabalho sobre a tarefa de predição. E é aqui que a gente precisa de muito esforço para caracterizar, sabe,
relação entre essa tarefa de predição versus ser bom nessa tarefa mais downstream ou naquela outra. Então, isso a gente ainda não resolveu no Legepa, porque o Legepa realmente trata só do termo de diversidade anti-colapso. Então, a gente resolveu o colapso, agora tem que descobrir o que prevê com os nossos embeddings que não colapsam. E isso é uma coisa que você já está fazendo, esse próximo paper. Ele já vai sair? A gente espera que em breve.
espero que em breve sim, a gente está trabalhando para tentar melhorar o Legepa para ser mais eficiente em termos de amostras e realmente tentar entender qual que é a relação entre a tarefa de predição e a tarefa downstream, então ainda é uma coisa com muitas suposições mas a gente começou com algumas métricas para dizer, ok, com o que você deveria se preocupar ou não eu diria que a relação exata entre a predição e tarefas downstream a gente já viu isso, a gente fez alguns artigos sobre isso, onde a gente conseguiu mostrar ok, se você tem uma especificação
de tarefa de predição, você consegue recuperar o desempenho de benchmarks de aprendizado supervisionado. Então, pelo menos pra mim, isso já foi bem interessante, porque é meio que uma prova da existência pra dizer, ok, se você escolheu os hiperparâmetros corretos dentro da família dos métodos JEPA, então você consegue alcançar esse ótimo de aprendizado supervisionado. Então isso já foi bem bom, mesmo que você tenha muitas suposições sobre o que você sabe a priori, pelo menos mostra que a classe de métodos JEPA
não é uma coisa que vai restringir você nas tarefas mais downstream. É só uma questão de encontrar os hiperparâmetros corretos, basicamente. Isso é só um exercício de futurologia que eu vou fazer com você agora, mas se você tivesse que adivinhar quando a gente vai ter o JEPA ou alguma coisa que saia do JEPA como uma arquitetura principal, do mesmo jeito que os transformers são hoje em dia, você chutaria que isso vai ser nos próximos um, dois,
3, 5 anos ou até mais do que isso? Sim, eu acho que depende muito da modalidade. Então, em visão computacional, a gente tinha o Dyno. O Dyno é muito forte em imagens, visão computacional. Eu diria que o pré-treinamento é um pouco complicado, porque você tem muitos hiperparâmetros, certo? Então, se você usa o Dyno só baixando um checkpoint, como um usuário final, é muito fácil. Se você quiser treinar o seu próprio Dyno, é um pouco doloroso.
isso que muitas pessoas estão migrando pro Legepa. Então, em visão computacional, a gente tá chegando lá, com certeza, sabe, em menos de um ano pra ter uma coisa que seja estável pra pré-treinamento e próximo do estado da arte, basicamente. Quando se trata de coisas mais relacionadas a texto ou vídeo, isso é um pouco mais complicado, porque tem outras questões, por exemplo, pra vídeo, incluir um contexto longo, hoje tem muitos gagalos. Por exemplo, no Legepa, talvez você tenha alguma coisa como 16 frames. Então,
Você pode pensar em pular frames e assim por diante, mas sabe, isso é tudo muito fixo ainda na implementação. Então esses são gargalos talvez mais de arquitetura e de engenharia do que da função de perda específica do JEPA. Seriam os mesmos gargalos que você teria em aprendizado supervisionado também, por exemplo. E eu acho que para linguagem, talvez para vídeo também, eu diria que talvez mais dois ou três anos para resolver essas questões. E texto eu acho que é onde é um pouco mais difícil saber, porque muitas das avaliações hoje são enviesadas para modelos generativos.
generativos. Então, se a gente não tiver avaliações melhores para modelos de linguagem que não sejam só sobre capacidade generativa, vai ser muito difícil avaliar uma solução baseada em JEPA e mostrar que ela é útil. Então, isso significa que a gente tem que criar novos dados, novos protocolos de avaliação, fazer com que essas coisas sejam aceitas e então desenvolver um JEPA e isso pode levar alguns anos a mais também. Então, sim, tem um pouco mais de eletoriedade dependendo de quais avaliações, quais datasets e benchmarks a gente vai ter, mas sim,
Isso vai acontecer com certeza em menos de 5 anos, com certeza, mas não tão rápido quanto em visão computacional. Ah, legal. Mas quando você fala sobre isso, essa parte sobre texto, você trabalhando aí na FAIR, você tem todo o poder de computação que a meta tem. E você também tem vínculo com universidades e tudo mais. Então não seria, deixa eu colocar aspas,
A questão de conseguir, por exemplo, um bom número de alunos de doutorado ou de pós-doutorado para trabalhar nisso com você, já que você já tem o poder de computação para fazer tudo isso, não? Ah, sim. Eu acho que, com certeza, a gente precisa de mais pessoas trabalhando com o JEPA de uma forma geral, não só para linguagem. E se você olhar para o número de artigos publicados com o JEPA no título ou até no resumo, no abstrato, deve ser só uma fração do que existe hoje para LLMs,
Então, eu acho que, no geral, definitivamente, a gente precisa de mais pessoas trabalhando com GEPA, não importa do que você gosta, talvez, até se for alguma coisa muito aplicada, como geofísica, astrofísica, medicina, sabe? Não importa. Quanto mais pessoas, mais progresso a gente vai fazer. E eu acho que, para a linguagem especificamente, não é só uma questão de colocar mais poder computacional. Quando a gente pensa em avaliação, é bem interessante pensar em como você avalia um modelo de linguagem que não consegue gerar texto.
vai exigir benchmarks diferentes. A gente tem que achar benchmarks que sejam relevantes pras pessoas hoje em dia. Então, uma das grandes questões em que a gente tá pensando é, você ainda quer fazer pré-treinamento com JEPA pra modelo de linguagem? Mas depois, no pós-treinamento, você aprende um decodificador pra poder conectar isso novamente pro PowerPoint típico da evolução de modelos. Mas se você fizer isso, como realmente você mostra o benefício, né? Porque no final você ainda vai ter uma capacidade que é muito generativa. Então, se você pré-treinar pra gerar texto,
você só vai poder ser tão bom quanto um JEPA, que não faz isso diretamente. E aí, então, a pergunta é se você consegue causar um impacto, mostrando que é possível recuperar o mesmo desempenho com o JEPA. Então, na minha opinião, a resposta é sim, mas se você perguntar para os laboratórios de ponta, para a indústria, tipo, ok, se você só igualar o desempenho, por que eu ia ter que me importar com isso? Então, eu acho que o desafio é encontrar avaliações e aplicações certas
Ok, agora a gente pode fazer uma coisa que os LLMs não conseguem fazer só com a predição do próximo token. Eu acho que o outro desafio hoje em dia é que se você comparar com LLMs, você vai ter que comparar em escala e isso traz muitos outros problemas, como escalar, como conseguir resultados sem precisar treinar por seis meses. Então essa também é uma grande questão. É por isso que eu acho que visão computacional, talvez vídeo, talvez até séries temporais e umas aplicações parecidas em medicina, geofísica, astrofísica,
física, provavelmente vão ser onde a gente vai ver muito trabalho com GEPA surgir primeiro e depois o texto também vai se beneficiar dessas melhorias, mas vai precisar de mais algumas transformações aí no campo. Eu adoro quando a conversa já vai para o lado das perguntas que eu já tinha pensado em fazer, que eu me convenço que as minhas perguntas não são tão cretinas assim. Mas eu ainda estou pensando sobre qual que é o melhor jeito de avaliar os modelos GEPA, modelos de
mundo que possa ajudar o grande público a entender quais são os benefícios que ele pode trazer, porque a maior parte dos evals, de benchmark, é tudo voltado hoje em dia para modelos generativos, os mais tradicionais. Então eu imagino que assim, o quão bom é um modelo, também é o quão bom é um jeito de medir esse modelo. Então, como é que é hoje em dia o melhor jeito para você avaliar modelos de Apple? Eu realmente acho que depende muito de com quem você fala. Então, se você fala com pessoas que trabalham, por exemplo, com robótica,
Uma maneira muito boa de mostrar isso é dizer, ok, depois que você aprende o seu próprio modelo, então você sabe qual que é a dinâmica do mundo nesse espaço latente. Você pode fazer um controle preditivo que seja baseado no modelo. Então, se você me disser como você quer que o robô se comporte, eu posso imaginar qual seria o efeito dessa sequência de ações e tentar otimizar essa sequência de ações para que, dado o meu estado inicial atual, eu consiga chegar nesse objetivo.
para manipulação de robôs, navegação, esse tipo de coisa. Então, para aplicações em robótica, isso normalmente passa por mostrar que você consegue fazer planejamento e resolver uma tarefa, e você pode fazer isso no ambiente simulado ou também no mundo real. Eu acho que se você olhar para as outras aplicações, área de medicina, por exemplo, tem muita coisa interessante que você tenta entender qual que é o impacto de um medicamento ou de um tratamento sobre, digamos, seus sinais vitais, alguma coisa que você esteja observando.
de um modelo causal ou contrafatual, isso você consegue também mostrar que tem uma boa capacidade para prever treinando uma probe em cima do seu espaço latente, ou que seu espaço de embedding é útil para categorizar diferentes tipos de doença, ou quaisquer atributos que você queira nos indivíduos do seu estudo, isso também pode ser uma coisa muito valiosa. E nessas áreas eles costumam ter muitos dados auxiliares desse tipo para avaliar esses modelos, então isso também pode ser bem interessante. Mas eu acho que, no fim das contas, o que a gente realmente gostaria de ver é o seguinte,
Se você tiver um conjunto de dados completamente novo e não tiver muitas ideias sobre qual é a lei física subjacente que governa esses dados, e você treinar um modelo de mundo nesse conjunto de dados, será que no pós-treinamento ele consegue descobrir qual é a dinâmica subjacente do sistema e talvez até derivar uma física nova que explique essa dinâmica? Então, isso já estaria mais do lado das aplicações em física, e aí talvez seja necessário ter um pouco mais de ferramentas de interpretabilidade para entender o que foi aprendido depois do treinamento,
mas isso também é uma coisa muito atraente para pessoas que trabalham com física, astrofísica, então eu acho que realmente depende muito de com quem você fala. Eu acho que para o público geral é mais difícil mostrar um caso de uso realmente convencente, porque ele não gera um texto bonito, nem um vídeo bonito, então não é tão fácil de falar, ok, isso vai ser útil na sua vida cotidiana para fazer uma tal tarefa, a menos que você tenha robôs em casa e use esses modelos de mundo
executar suas tarefas, mas a gente está bem longe disso ainda. Então eu acho que uma das coisas em que a gente também está pensando é como criar um caso de uso realmente convincente e que seja tão atraente quanto hoje em dia a gente consegue fazer com o LLMs. Mas nesse caso você acha que eles poderiam trabalhar juntos? Tipo uma coisa como o sistema 1 e o sistema 2? Sim, definitivamente existe interação entre os dois. Antes de tudo, eles podem trabalhar juntos de várias maneiras.
Então, se você pensar nessa questão do planejamento, você poderia usar texto para especificar qual é o seu objetivo, por exemplo, vai existir uma interação com o modelo de mundo por meio de texto, onde você pode usar um LLM, e claro, isso é uma coisa que as pessoas já começam a demonstrar, mas, por exemplo, combinando um VGEPA com alguns modelos da família Lhama, mas também pode ter um cenário em que você tenha um modelo de mundo, e por cima dele, você coloca um decoder baseado em LLM para realmente investigar o que ele aprendeu.
descobrir uma física nova que o modelo aprendeu a partir dos seus dados, talvez você possa fazer isso por meio da interação em texto entre o usuário e os embeddings, então certamente vai ter interações, porque a melhor forma que a gente tem hoje em dia para interagir com sistemas, normalmente é por texto ou por voz, certo? Então isso provavelmente vai ser uma forma de interagir com o modelo de mundo, mas a grande questão é se isso vai ser uma coisa que vai ser adicionada aos nossos modelos no pós-treinamento, só para fazer avaliação, interação,
investigação, ou você vai ser uma coisa que vai fazer parte do próprio treinamento do modelo de mundo. Então, essa é uma questão ainda que não está muito clara. Então, por exemplo, se você usando esse mesmo exemplo que você usou agora, você está tentando descobrir física nova, e aí você usa texto ou voz, ou o que quer que seja, usando algum LLM clássico, ele pode se conectar aos embeddings de alguma forma,
do modelo JEPA, mas o modelo JEPA não vai ser capaz de traduzir essa resposta em palavras. Então você vai ter meio que interpretar o que ele está te devolvendo? Sim. Então você precisa fazer essa etapa de alinhamento no pós-treinamento em que você torna o modelo de linguagem consciente do espaço de embedding do modelo de mundo para que ele consiga entender o que investigar, o que consultar e como interpretar esses embeddings.
usada durante o pré-treinamento do modelo de mundo. Então, você não necessariamente quer usar um texto durante o pré-treinamento do modelo de mundo. Isso é mais uma ferramenta de diagnóstico que você usa depois do treinamento. Então, isso é uma questão ainda que está em aberto. Eu imagino que vai depender muito da modalidade, do tipo de dado que você tem também, porque para isso funcionar, você precisa de um conjunto de dados de alinhamento, você precisa de dados paliados, e isso pode ser muito difícil de obter em algumas modalidades
Por isso eu acho que em alguns casos talvez nem tenha texto nenhum. Se você pensar em geofísica ou mesmo em previsão de crises epilépticas, mesmo que você pergunte para um especialista, um cirurgião, um experiente e ele veja os dados, muitas vezes ele nem sabe exatamente como descrever com precisão o que ele está vendo. Depende muito de quem você pergunta. Então em muitos casos vai ser muito difícil encontrar esse conjunto de dados pareado. Então eu acho que realmente vai depender da aplicação.
dos modelos de mundo. Você não precisa necessariamente desses especialistas, ou de professores humanos, ou de dados de altíssima qualidade. Você pode simplesmente pegar, digamos, seus registros de eletrocardiograma, treinar um modelo de mundo sobre eles, ele vai gerar embeddings abstratos muito bons e muito compactos, e depois você pode simplesmente processar esses embeddings para fazer detecção de anomalias, agrupar diferentes grupos de indivíduos, prever o que vai acontecer se você aplicar um determinado tratamento ou não,
espaço de embeddings, sem precisar de interação e linguagem, que exige muitos dados pareados, o que é caro. Então, sim, isso pode ser uma vantagem ou um problema, dependendo do tipo de problema que você queira resolver. E já que dá para essas duas arquiteturas trabalharem juntas, isso não quer dizer que tenha que existir um futuro em que exista só uma arquitetura versus só uma outra arquitetura, que uma seja a resposta correta para tudo. Então, da forma que você vê, quais são os tipos de problemas que os modelos ultra-regressivos,
GPT ainda vão funcionar particularmente bem e que talvez eles se mantenham assim mesmo com a evolução dos modelos do estilo GEP, quando eles forem evoluindo também. Sim, sim, sim, boa pergunta. Então, eu acho que se você olhar para o espaço de entrada, treinamento no estilo de GPT, no estilo dos LLMs, se você tem dados muito bons, muito compactos, de baixa dimensionalidade, muito limpos, isso ainda vai ser extremamente competitivo. Então, se você considerar que cada bit de informação que existe no
seus dados precisa ser capturado e que ele é muito relevante para muitas das suas tarefas downstream, então quase por definição um GPT no espaço de entrada vai ser a melhor coisa que você vai poder fazer. Não tem nada que você precise descartar, você tem que capturar cada detalhe, então está tudo certo. Eu acho que a questão começa quando a qualidade dos dados varia, aí você precisa recorrer à curadoria de dados para voltar a esse primeiro cenário dos bons dados e nesse caso o GPT no espaço
de entrada ainda pode ser bom o suficiente mas você vai acabar descartando parte dos seus dados então vai depender de você decidir ok, vale a pena descartar alguns dados para ter esse tipo de treinamento ou você prefere manter todos os dados e permitir um treinamento do tipo JEPA, de forma que quando os dados forem ruidosos o modelo possa automaticamente descobrir ok, eu tenho que ignorar essa parte dos dados ou decidir que não tem que ignorar, então eu acho que isso vai ser uma função de qualidade dos dados
que, por sua vez, dependem muito da modalidade com que você está trabalhando, do quanto você quer pagar, de qual tipo de dado você consegue obter. Então, esse seria o principal fator. E já é o principal fator, pelo menos em visão computacional. Por exemplo, se você pega um conjunto de dados de imagens muito simples, em que não tem fundo, e cada pixel ativado na imagem que aparece ali, ele é útil de verdade para a tarefa da previsão, então métodos baseados em reconstrução acabam sendo praticamente tão bons quanto o JEPA.
estável, treina muito rápido, funciona bem, mas à medida que você torna o conjunto de dados cada vez mais ruidoso ou mais realista, aparece muito fundo estranho na imagem, que não é útil, que não serve para nenhuma tarefa, talvez você adicione muito ruído e outras coisas, e aí que é a diferença que começa a acrescentar entre o GPT no espaço de entrada e o GEPA no espaço latente. Então, esse é um dos principais fatores. Tem um debate que a gente já falou algumas vezes aqui, que deve estar bem cansado, na verdade, eu tenho certeza,
nos altos círculos de discussão a respeito de modelos de LLMs, etc., mas que começou a aparecer mais recentemente para o grande público, que é a história toda dos limites da arquitetura GPT, de LLMs, modelo Transformer, e que talvez os modelos de moldo sejam um approach mais indicado, adequado para evoluir melhor, se ficarem mais inteligentes ainda do que os LLMs tradicionais jamais vão conseguir ficar. Tem analogia lá de que não vai ser mais inteligente do que um gato doméstico. Como é que os modelos de moldo
resolvem isso.
guiada para um objetivo de longo prazo. Então, claro, você pode argumentar que talvez implicitamente o modelo aprenda alguma coisa de modo que a previsão do próximo token, sabe, use um objetivo interno e de alguma forma alguma coisa acontece dentro do modelo, mas mesmo assim, mesmo que isso aconteça, eu não acho que exista a prova empírica disso, mas mesmo que aconteça, é algo implícito e pode ou não emergir dependendo da qualidade dos dados e não é uma coisa que você tenha algum controle. Então, mesmo que emerja, em alguns casos, vai ser muito
frágil, talvez difícil de reproduzir. Mas nos modelos de mundo, como você tem essa dinâmica conhecida no espaço latente, você pode descobrir qual que é o seu plano, o seu plano de longo prazo, e então voltar a partir dele para descobrir quais tem que ser as suas ações ou previsões do próximo passo, para que você consiga se aproximar desse seu objetivo de longo prazo. Então, um exemplo típico é se você quer saltar muito longe, você tem que ter esse objetivo, então você pode descobrir, tá, eu tenho que primeiro ir até a borda da mesa, depois saltar, e assim por diante.
e você pode descobrir toda essa trajetória no espaço de embeddings. Então, quando você estiver satisfeito com o seu plano, aí sim você executa e resolve o problema. Então, é mais uma forma explícita de ter esse, digamos, raciocínio de longo prazo, o planejamento de longo prazo, em contraste com o que a gente tem da LLM, que é muito, muito implícito. Então, talvez isso emerge, ou talvez não, certo? Essa é outra questão, mas mesmo que emerge, é uma coisa que vai ser implícita e muito difícil de controlar,
você quiser ter restrições de segurança, por exemplo, isso também é muito difícil, porque simplesmente você espera que, sabe, ao dar instruções suficientes ou dados suficientes de fine tuning, o modelo comece a obedecer essas medidas de segurança. Tudo é muito implícito. Então eu acho que essa é uma mudança muito, muito grande nesses dois paradigmas. E eu diria que, além disso, talvez voltando um pouco para aquela questão do transformer versus um modelo fundacional grande, uma grande IA central que faça tudo,
Mas uma coisa que surpreendeu bastante a gente no paper do Legepa é que, na verdade, se você fizer um treinamento GEPA muito especializado dentro da distribuição, você consegue competir até superar coisas como o Dyno V3, que é um foundation model generalista muito, muito forte. E eu acho que isso também é uma coisa que pode mudar um pouco. Não sei se vai ser só em GEPA ou GEPA e LLM, mas essa ideia de que talvez você queira mais uma mistura de especialistas muito pequenos,
que você treina dentro da distribuição e quase, sabe, constrói explicitamente, em vez de ter um gigantesco modelo centralizado de A, onde você espera que, de novo, de forma implícita, alguma especialização aconteça, e isso também tende a ser muito menos eficiente em termos de amostras. Então eu acho que também vai ter algumas mudanças interessantes em termos de simplesmente escalar tudo cada vez mais, ou ter mais modelos dentro da distribuição que são muito, muito eficientes em amostras e muito rápidos também,
seis de pré-treinar. Porque se você pensar nisso mesmo em aprendizado contínuo, certo? Suponha que você tenha um modelo muito forte e agora chegam novos dados de uma distribuição nova. Se você tem uma estratégia de pré-treinamento muito, muito eficiente em amostras e muito forte, que é o que você deveria obter com o JEPA e não tanto com o GPT no espaço de entrada, então você pode se adaptar e a partir dessas poucas amostras muito facilmente e se tornar bom nessa distribuição nova de dados muito rapidamente.
por isso que também importa muito ter uma boa estratégia de pré-treinamento e uma eficiência de amostras muito alta, porque assim você pode se adaptar rapidamente a dados novos que você nunca tinha visto antes, o que é muito difícil de fazer com outros sistemas. Então tudo isso, eu acho, vai lentamente se conectar entre si, vai mudar um pouco como o cenário vai parecer daqui a alguns anos. Então a gente já está falando sobre o MOI de JEPA, o Mixer of Experts
de JEPA. Sim, sim, sim. Exatamente. Eu espero poder... Dá pra encontrar dessa forma. Espero conseguir achar algum acrônimo bom pra isso. Acrônimo. Que legal. E eu quero voltar pra um outro tópico e, antes de mais nada, muito obrigado, Randall, porque você é o autor principal de um livro de receitas de aprendizado autossupervisionado. Ah, sim. Tá bem antigo agora. Algumas pessoas poderiam dizer
e até que já está obsoleto. Não, não, você é um anjo por ter feito isso. Colocar todas as receitas em um só lugar, um trabalho realmente excelente que você fez pela comunidade. Obrigado, obrigado. Primeiro de tudo, são umas 20 pessoas, então eu acho que todo o crédito vai para todas elas que realmente fizeram um trabalho enorme para reunir a expertise de todo mundo, mas ainda assim unificar a escrita, o estilo, para que o texto
possa ser lido como um cookbook completo, uma coisa coesa. Então, sim, eu acho que isso foi uma coisa... Eu fiquei surpreso que isso não existia antes, porque tem muito conhecimento implícito que não estava escrito em nenhum paper. Então, sim, foi uma prioridade enorme reunir tudo isso e publicar para que a gente possa avançar como área. Eu queria que existissem mais cookbooks assim em outras áreas também. Eu concordo plenamente e quero também estender os meus agradecimentos a todas as pessoas que trabalharam com você.
no livro de receitas, mas você mencionou que tem algum conhecimento oculto que você só percebe que está lá quando você está compilando tudo isso, organizando todo esse conhecimento. E eu queria perguntar, isso aconteceu com você em algum caso específico que você pensou, ai meu Deus, é claro, mas só depois que você já estava escrevendo? Sim, eu acho que muitas vezes, em muitos papers, você não consegue mostrar todos os estudos de ablação necessariamente,
vezes são coisas que nem parecem interessantes depois que você já descobriu, né? Porque talvez você tente alguma coisa, ok, não funciona, você tenta, tenta, então descobre, tá, ah, é porque, sabe, aqueles dois de preparâmetros estão acoplados, por exemplo. E depois que você descobre isso, você pensa, tá, é óbvio que eles estão acoplados, então você não escreve necessariamente isso num paper de conferência pra falar, ok, olha esse acoplamento, porque a posteriori parece óbvio, certo? Então muitas coisas, na verdade, não são escritas justamente por causa
esse tipo de raciocínio, e também não dá para reunir todas as possíveis descobertas quando você cria um método novo, porque, então, se acabar com um apêndice de 40 páginas, que também não é muito útil, porque quem tem tempo de ler 40 páginas no apêndice de um paper, né? Então, o problema é que você realmente não tem um meio adequado para comunicar esse tipo de dica, de truque, de uma forma muito eficiente, centralizada, para que as pessoas possam aprender isso e, então, iterar rapidamente a partir daí. Então, foi isso que a gente tentou fazer um pouco,
no Cookbook, onde a gente combinou insights de pré-treinamento, específicos de função de perda, específicos de hiperparâmetros, específicos de arquitetura, mas de uma forma organizada, com grandes sessões aí, grandes grupos, para que as pessoas consigam fazer sentido disso. Porque eu acho que se você pega só um paper, só com uma descoberta, também é muito difícil de saber, tá, isso se estende para um outro método, é uma coisa específica só do Dino, por exemplo. Um exemplo típico é essa tal de Registered Token, certo?
No Dino, o Registered Token é uma coisa enorme, que ajuda muito. E depois surgiram vários papers tentando provar por que o Registered Token está ali. E muita gente passou a falar, ok, se você não tem um Registered Token, você não faz nada. Então, no Legepa, a gente tentou e não usou Registered Tokens. Gente, isso parece ser talvez mais um artefato do próprio loss do Dino do que uma regra universal. Então, eu acho que também é muito difícil, dentro de um único método, de um único paper,
dar diretrizes gerais, porque você não tem dados suficientes. Então, é por isso que nesse cookbook também foi interessante reunir muitas pessoas para a gente poder dizer, ok, esse paper diz isso, isso vale a pena para esse outro método, para esse outro dataset ele vale? Sim, não. Porque isso é o mais útil, certo? Idealmente, a gente conseguiu encontrar regras gerais que se aplicam além de só um método específico. Eu sempre fico curioso quando a gente entrevista pessoas que criam modelos novos,
novos, de tentar resolver problemas. Se ou como essas pessoas ficam surpresas com as aplicações, quando isso vai para o mundo, as pessoas começam a usar, certamente aparecem casos de uso que, no seu caso com o JEPA, você nunca imaginou que poderia ser possível, que te chocou, surpreendeu, te deixou orgulhoso, feliz. Você consegue puxar da memória alguns exemplos assim, depois de ter lançado os JEPAs no mundo? Ah, sim. Eu acho que uma explicação muito interessante que as pessoas me mostraram recentemente é na área médica, onde elas têm acesso a enormes
quantidades de dados sobre evolução de algum aspecto do seu corpo, basicamente, e observam diferentes tratamentos que são aplicados e você pode fazer esse tipo de modelo de mundo pra saúde, pra biologia, depende aí de como você quiser chamar. Eu acho que é uma aplicação que vem da visão computacional, que parece muito, muito, muito interessante e que eu não teria pensado em aplicar imediatamente. E parece funcionar muito bem. Então, isso também é uma coisa que é bem interessante, mas eu acho que aplicações médicas são sempre as mais impactantes. Eu acho que a astrofísica também tem
muito interessantes. Existe um estudo em Nova York que está trabalhando em modelos de mundo para física. Eles também têm objetivos que são muito ambiciosos para descobrir uma física nova e fazer esse tipo de modelagem de espaço latente para sistemas dinâmicos e a escala da ambição deles é realmente sem precedentes. É como se você tivesse um modelo de mundo da galáxia, sabe? Então pudesse ver, ok, como uma outra galáxia ia se parecer e, sabe, com diferentes parâmetros, eu acho que isso também vai muito além do que eu estou acostumado,
sabe, é um labrador ou é um leão. Então sim, eu acho que honestamente, quanto mais eu vou a eventos, a workshops, cada vez eu volto com aplicações ainda mais incríveis que as pessoas estão explorando. Eu acho que isso também é muito legal, certo? Porque a pesquisa em JEPA ainda é muito inicial, não é uma coisa que já estava totalmente consolidada há 10 anos. E também não existe tanto compute e recursos quanto no caso de LLMs, mas mesmo assim você já vê pessoas
realmente tentando usar, tentando construir em cima disso, porque é para a modalidade de dados delas, isso faz mais sentido. Quando você tenta simular uma galáxia, e isso é um sistema dinâmico, vai ser bem difícil tentar fazer isso com um LLM. Então eu acho que também é muito motivador para a gente ver que isso é útil em todas essas aplicações, nas quais a gente nem tinha pensado a priori. Eu adorei a ideia de usar um modelo de mundo para simular uma galáxia. Sim, sim. A gente nunca falou que era sobre esse mundo aqui,
É muito ambicioso, vamos direto pra galáxia. Adorei. Sim, não, isso é... E tá cheio de aplicações assim, o que é bem impressionante. Tá, e eu não quero agora, né, acabar com o clima, fazer uma pergunta chata, porque... Sim, sim, acho que é isso, a gente tem que encerrar agora, sabe? A gente simulou uma galáxia, como é que a gente supera uma coisa dessa? É, mas, assim, dado o potencial que os modelos têm, como é que vocês têm pensado sobre o potencial de mau uso também, né?
bem-intencionado quando bota a mão na tecnologia. Então, eu acho que de uma forma parecida com os modelos de linguagem, se você aprende a dinâmica de um sistema e sabe, ok, qual seria o próximo estado do sistema dada essa intervenção e assim por diante, então, obviamente, você pode ter muitos objetivos diferentes e pode ver, ok, como que eu empurro o sistema na direção que eu quero, que talvez não seja a melhor forma para todo mundo na sociedade. Então, eu acho que o tipo de problema é bem parecido com o
modelos de linguagem nesse sentido. Eu diria que é uma problemática diferente, porque a gente não lida diretamente com linguagem, então talvez não seja tanto sobre uma semântica, formulação de frase, blá blá blá blá, mas ainda assim é a mesma coisa. Se você sabe modelar um sistema, você consegue descobrir como torná-lo pior do que ele é agora. Eu diria uma coisa que está acontecendo com o JEPA, é que se você tem alguns bons mecanismos de segurança quando você faz o planejamento, então, por exemplo,
pode especificar um objetivo, mas suponho que o objetivo especificado seja muito ruim, como quebrar um robô, por exemplo. Se você ainda controla o procedimento de planejamento, é muito fácil impor medidas de segurança para dizer ok, a velocidade do robô não deve passar de 3 km por hora ou qualquer coisa assim, a diferença do ângulo da articulação do braço não pode ser maior que 3 graus, então você ainda pode impor mecanismos de segurança no momento do planejamento de uma forma que mesmo
alguém forneça um objetivo malicioso, essas restrições impeçam que esse objetivo seja alcançado. E, de novo, como você faz isso explicitamente, que é diferente de um modelo de linguagem, que é só a previsão do próximo token, como você faz isso explicitamente, na verdade, fica muito mais fácil de impor esse tipo de restrição. Mas, novamente, isso pressupõe que você controla o procedimento do planejamento. Então, isso quer dizer que não é um caso em que você tem que simplesmente entregar todos os P's, os checkpoints, para alguém,
esse protocolo de segurança, mas pelo menos isso te dá essa camada extra onde você ainda pode deixar as pessoas especificarem o objetivo e controlar explicitamente o que acontece durante o planejamento e a geração. Então isso é uma coisa que pouca gente está investigando, mas eu acho que vai ser bem interessante ver como essas medidas de segurança vão se parecer.
Na verdade, a boa notícia é que você nem precisa, e esse é outro benefício em comparação com modelos de linguagem, você nem tem que saber qual que é a intenção em si. Então, se você puder incluir medidas de segurança, simplesmente falando que o carro não pode passar de 50 km por hora, e que o carro nunca deve ficar a menos de um metro de um pedestre, ou proporcionalmente a velocidade, claro, para que ainda seja isso possível de frear, então você pode ter esses objetivos quase sem semântica, que são praticamente baseados só em física, digamos assim.
E é isso que entra no momento do planejamento. Então, você pode impor essas restrições. Então, mesmo que alguém tenha o objetivo de fazer o carro atropelar um pedestre, como você tem essas restrições e você não tem que pensar, ok, isso é bom ou é ruim? São simplesmente restrições. São coisas físicas que você tem durante o planejamento que vão impedir que esse objetivo seja alcançado. E talvez o objetivo tenha sido dado previamente, por engano, ou de uma forma maliciosa, ou qualquer que seja o motivo,
interpretar o objetivo e entrar nesse tipo de jogo de adivinhação. São só restrições físicas que você pode impor no momento do planejamento. Então, nesse sentido, é muito mais fácil e talvez até mais justo, em geral, do que o que você consegue fazer com modelos de linguagem, onde você tem que descobrir, tá, ele tá só tentando quebrar o sistema ou eu só não deveria responder essa pergunta. Ah, ótimo. E eu quero voltar pra pergunta anterior do Marcos. Ele te perguntou quais são as coisas mais impressionantes que a comunidade tem feito
usando essa arquitetura que você criou, mas eu queria te perguntar uma coisa mais geral. Sobre qual foi a coisa que mais te impressionou, não sobre o que você fez, mas sobre o que a comunidade de IA fez no último ano, vamos dizer mais ou menos. Sim, sim. Então, eu acho que primeiro, muitas dessas coisas que eu mencionei antes não são coisas que eu fiz. Tipo, modelar galáxias. Quer dizer, a gente está muito longe disso. Eu queria dizer que fui eu,
não fui eu, provavelmente nunca vai ser. Mas eu acho que pra comunidade a primeira coisa que é grande é que existe um enorme, enorme otimismo e, sabe, muita atenção voltada pro JEPA, tem muitas pessoas que estão dispostas a contribuir de uma forma muito agressiva com modelos open source, software open source, conjuntos de dados open source, e eu acho que isso também é uma coisa muito, muito importante. Grande parte da pilha de software foi desenvolvida especificamente pra LLM nos últimos tempos, então a gente tem, precisa de muita ajuda, até no nível
de software para que o JEPA, isso seja em pipelines de treinamento, a variação de dados para evoluir, assim por diante. E existem grandes esforços acontecendo nessa direção. Tem muitos grupos fazendo isso, então isso é bem interessante. E também tem um movimento em torno de pensar sobre dados, disponibilizar muitos dados open source para treinamento, dados de alta qualidade. Muitos laboratórios ao redor do mundo basicamente liberaram já conjuntos de dados que são muito úteis para coletar. Você precisa de muitos estudantes ou pessoas, por exemplo,
usando óculos ou interagindo com o robô para coletar esses dados. Então, esse foi um investimento enorme, enorme de tempo, e esse é o tipo de esforço que vai permitir que a gente avance. E isso é uma coisa que os modelos de linguagem conseguem fazer praticamente de imediato, raspando a internet, mas é muito mais difícil fazer isso para modelos estilo JEPA. Então, esse é um esforço que é muito interessante, e eu diria que a última coisa é que muitas pessoas agora estão começando a pensar sobre pré-treinamento e JEPA de uma perspectiva teórica, o que também é uma coisa que a gente
precisa, porque eu acho que existem teorias interessantes que podem ser desenvolvidas, mas, de novo, quase ninguém olhou para isso em comparação com o modelo de linguagem. Então as pessoas estão fazendo essa virada, tentando ver o que elas conseguem fazer nesse regime também. Então eu diria que adaptabilidade, sabe, a flexibilidade da comunidade para mudar e considerar essa alternativa, sim, isso é bem interessante. E sendo agora ainda mais geral, saindo do mundo do JEPA, o que é alguma coisa,
ou alguma pessoa fez que você realmente não achou que seria possível, que eles seriam capazes de fazer e que essas pessoas ou empresas conseguiram fazer nesse último ano, mais ou menos? Eu acho que, provavelmente, como um usuário geral, eu diria que as capacidades mais recentes dos modelos generativos, sejam para imagem, para vídeo, para texto, são muito, muito impressionantes. Se você simplesmente quer criar conteúdo, o que pode assumir muitas formas, pode ser para rede social, pode ser para realmente
ajudar você a fazer pesquisa. Na verdade, eu acho que a capacidade desses modelos aumentou muito. Eles ajudam muito na produtividade, na gestão de tempo, em todas aquelas tarefas redundantes que você tem que fazer, sabe? Quando você gerencia vários projetos, assim por diante. Eu acho que isso é muito, muito impressionante. Toda a escalabilidade. Ainda existem, claro, muitas coisas que você pode encontrar, sabe? Casos, edge cases, blá, blá, blá. Isso provavelmente sempre vai existir, mas eu acho que houve uma quantidade enorme.
enorme de progresso nisso. Eu acho que mesmo em termos de pesquisa, hoje você pode realmente obter muita ajuda desse sistema, seja pra criar imagens, pra revisar seu código, pensar em casos excepcionais, pra teste auditário, talvez ajudar uma documentação, todo empacotamento. Então eu acho que a gente vai chegar num estágio em que eu consigo ver um bom ganho de produtividade. Então, sim, eu acho que muita gente não teria esperado que a gente chegasse a isso tão rapidamente. Ah, legal.
Acreditando aí na meta, na FAIR, queria perguntar, o seu trabalho mudou por causa disso que vem acontecendo nesse mundo de você tem que sempre publicar o modelo mais novo, o LLM mais poderoso, como a OpenAI, como a Google, a Anthropic. E a meta tinha um outro departamento aí, não era exatamente a FAIR, onde você trabalha, mas outro departamento, e vocês estavam criando o LLAMA, LLAMA 3, LLAMA 4, agora surgiu também o Super Intelligence Labs.
o seu trabalho mudou desde que essa mudança aconteceu no ano passado? Sim, eu acho que isso mudou muito, porque já faz alguns anos existe uma pressão enorme e uma corrida muito grande para fazer pesquisa, e eu diria que mesmo no JEPA, no SSI, mesmo antes de você ter todos esses grandes lançamentos, ainda existia muita competição entre os laboratórios, não era tão presente na mídia, e talvez não fosse tão visível,
mesmo quando eu era só um doutorando, já tinha essa corrida. Essa ideia de que a gente tem que fazer uma coisa sair logo, o campo se move bem rapidamente, talvez hoje a gente explique alguma coisa sobre Relu, amanhã, sabe, ninguém mais usa Relu. Então, eu acho que essa corrida, eu não sou tão velho assim, certo? Mas pelo menos nos últimos 10 anos, ela sempre esteve presente em pesquisas em IA. Eu acho que a diferença é que agora ela ficou mais visível para o público geral. Mas se você faz pesquisa em IA, já faz 10 anos que você passa,
última semana antes do prazo sem dormir, tentando enviar a sua pesquisa de um jeito mais limpo possível, mais rápido possível, então sim, eu não acho que teve uma grande mudança, tem uma diferença muito grande do nosso lado. Eu acho que pra quem tá de fora, com certeza parece muito diferente e parece que agora tá tudo se movendo muito rápido, mas na verdade já vinha se movendo muito rápido há vários anos. Ah não, eu tava me perguntando sobre isso por causa de uma coisa que o seu ex-chefe, eu suponho,
O Ian Lecan estava falando em uma entrevista que ele basicamente disse que quando surgiu toda essa história do Super Intelligence Labs, que tinha pessoas tentando falar para os pesquisadores o que eles teriam que pesquisar. E citando aqui o Lecan, ele disse algo como você não deve dizer a um pesquisador o que ele tem que pesquisar, e mais do que isso, você não deve dizer para mim, como pesquisador, o que eu tenho que pesquisar.
experiência dele, de quem ele é, claro. Então foi esse o motivo da pergunta. Ah, sim, sim, sim. Eu acho que com certeza isso não é uma coisa que eu ainda consiga afirmar, mas sim, eu acho que com certeza tem várias, tem algumas prioridades, isso é verdade. Aliás, em Brown, na academia, talvez até mais, as prioridades, a agenda de pesquisa mudaram bastante, até mesmo por conta do mercado de trabalho. Como estudante hoje, quase não importa realmente com o que você se importa
De verdade, você vai querer ter um artigo sobre LLM, porque parece que é isso que vai te garantir um estágio, um emprego. Eu acho que isso é muito perigoso, porque, antes de tudo, isso reduz a diversidade de pesquisa, o que significa menos exploração, e a menos que a gente acredite que essa seja a resposta final, o que muito provavelmente não é. Isso, na verdade, é muito perigoso no longo prazo. Então, isso é bem ruim. E também é ruim, porque se você trabalha em alguma coisa pela qual você não é apaixonado, quer dizer, você não vai poder,
fazer coisas ótimas, mas não vai ser tão ótimo e nem tão prazeroso pra você. Então, em muitos, muitos aspectos, eu acho que isso é realmente muito perigoso, ainda mais pra o ambiente acadêmico e pra estudantes do que pra indústria. Então, talvez seja por isso que, sabe, talvez com o GEPA, depois com outras coisas, a gente consiga trazer um pouco de diversificação de novo, mas sim, isso definitivamente mudou essas prioridades, os prazos. Eu acho que pra estudantes, pra mim, essa é a coisa mais
perigosa, porque isso quer dizer que todos os estudantes, quando se formarem, quando conseguirem empregos, todo mundo vai pensar da mesma forma, e vai ser sempre, ok, pré-treinamento, pós-treinamento, e assim que você escala, e assim que você faz tokenização, então isso vai ser muito, eu não quero dizer perigoso, mas sabe, não é muito bom no longo prazo, então a gente precisa de mais diversidade. É, né, digo, se você tem a divisão de negócios de uma empresa ditando
a direção da pesquisa, eu acho que a maior parte, não sei se algum avanço que a gente viu nos últimos anos teria acontecido se tivesse sido assim. Exatamente, sim. Exatamente. Então eu acho que essa é a coisa mais importante que a gente tem que observar. E, Randall, minha última pergunta para você, que eu sempre fico curioso e pergunto isso no finalzinho das entrevistas, como que você tem usado modelos de IA? Quaisquer modelos que você queira falar que você usa aqui, seja no trabalho, seja na vida?
Não sei se você tem tempo livre, mas o que seria o seu tempo livre? Como é que você está usando? Sim, boa pergunta. Eu acho que hoje em dia, na maioria das vezes, eu uso isso para me ajudar com programação, mas a forma como eu uso é mais ou menos como um jogo adversarial. Então eu tento usar para encontrar talvez bugs no código, ou limitações dos meus testes unitários, documentação, tentar melhorar a qualidade do código. Então eu basicamente trabalho em coisas em PyTorch todo dia,
muito bom para otimizar código em termos de complexidade de tempo, de memória e muitas vezes ele alucina funções que nem existem no PyTorch. Então eu acho que ele funciona mais como um revisor extra que você pode usar para melhorar o seu código e para imagens, isso pode economizar tempo, certo? Você não tem que carregar mais o Matchplotlib RC para todo lado, então visualização de coisas que já foram feitas, depois checar novamente seu código, fazer testes de estresse no seu código, isso é bem legal.
Mas eu não tô no estágio em que eu deixarei ele revisar um pull request, fazer merge de pull request no meu lugar, porque ainda, sabe, eu ainda não tenho um bom alinhamento entre o meu estilo e o estilo dele, então eu ainda não confio muito nisso. Mas sim, pra me testar, então, mas como um jogo adversarial, um adversarial amigável, eu acho isso bem legal. Isso também vale pra forma como eu escrevo artigos. Então eu sempre escrevo um artigo e depois falo, tá, suponha que eu tô revisando pra mandar isso pro ICMS.
Me dá três motivos para rejeitarem esse artigo. Então, eu acho que isso é interessante para descobrir quais são os pontos fracos, os vieses que você tem na sua própria escrita e na forma de você contar a história. E você pode usar isso para melhorar a sua escrita. Mais provavelmente, é um estilo adversarial. Eu não vou começar de uma página em branco e falar, tá, escreve meu artigo, copiar, colar, iterar sobre isso, porque aí é como, não sei, pelo menos os modelos que eu testei ainda não estão nesse estágio.
muito bom. Então não é criativo no sentido de gerar uma coisa nova, mas uma coisa como um revisor, eu acho que isso é muito útil para melhorar seu código, a sua escrita, as suas imagens e assim por diante. E eu tenho uma última pergunta aqui também, se você me permite. Se os nossos ouvintes aqui do podcast IA Sobre Controle quisessem trabalhar com você na meta, trabalhando com o GEPA, ou seja lá o que sai do GEPA, ler GEPA, ver GEPA e tudo isso, o que que
você recomenda que eles façam? Tipo, o que eles têm que estudar? Como? Qual que é o caminho? Ah, sim. Eu acho, então, a primeira coisa que eu quero dizer é que eu acho que a sua formação não importa muito. Porque aí você se interessa, sabe, se você escreve em CUDA ou em C++, fazer matemática, se você faz teoria, resolve problema de geofísica, astrofísica, problema social, realmente tem espaço para todo mundo, porque a gente não tem ainda, sabe,
nada que seja final, software, biblioteca, artigo, teoria, então realmente tem espaço para todo mundo, e eu diria que o mais fácil é provavelmente me mandar um e-mail, e sabe, a gente pode fazer um brainstorm, ver se já tem algum projeto de pesquisa em andamento que seja interessante para você, porque quando eu falo que realmente tem perguntas de pesquisa por toda parte, pode ser desde perguntas tipo, tá, o que é ruído, o que é sinal, ou sabe, você descobre isso a partir da sua tarefa de perdição,
você consegue garantir que, de fato, aprendeu o sinal correto. Você tem várias perguntas de altíssimo nível como esse e tem coisas mais fundamentais. Suponha que você tem um modelo de mundo que foi pré-treinado ou você quer alinhar um modelo de linguagem para ele, para, sabe, provavelmente permitir que ele interaja com esse modelo de mundo para reforçar as características de segurança durante o planejamento. Então, pode ser também trabalhar com pré-treinamento, trabalhar com planejamento, que é mais uma aplicação de pós-treinamento.
com o que você se importe, qual é a modalidade de dados que te interessa, com certeza existe um conjunto de projetos de pesquisa que vai ser interessante, então eu diria simplesmente entra em contato. Isso vale, aliás, não só para mim, eu acho que a comunidade JEPA é tão pequena hoje que se você encontrar alguma coisa interessante, simplesmente manda um e-mail para os autores, provavelmente você vai receber uma resposta e muito provavelmente eles vão dizer ok, ótimo, tem mais alguém animado com a mesma pergunta que eu fiz,
Então vamos marcar uma reunião no Zoom, vamos começar a conversar. Como eu, por exemplo, em Brown, eu acho que 90% dos meus colaboradores estão fora de Brown. Eu trabalho com pessoas na Europa, no Canadá, na América do Sul. Então realmente não existe, sabe, nenhuma restrição, nenhum gargalo. As pessoas só querem avançar, fazer pesquisa que seja boa. Então quanto mais gente, melhor. Então é isso, é só entrar em contato e sim, esse é o melhor caminho.
incrível que você um dia disse que a comunidade do JEPA era relativamente pequena. Talvez isso a IA me lembre um dia, lá no futuro, daqui a 10 anos, olha o que você falou de mim, era isso que você pensava de mim, eu não consigo escrever um artigo. É, é, total. Vamos ver. Randall, muito obrigado pelo seu tempo, por compartilhar o seu conhecimento com a gente. Se as pessoas quiserem continuar esse papo com você, seguirem atualizados sobre o trabalho excelente que vocês têm feito,
para onde que as pessoas vão? Sim, então, a gente tem o LinkedIn, tem o Twitter, a gente tem um site também, então eu diria que você pode simplesmente me seguir, ou seguir o laboratório nessas plataformas, e eu espero que você também acompanhe, por exemplo, o Google Scholar, onde você pode ver os nossos artigos, os mais recentes, mas sim, eu espero que você encontre algumas coisas interessantes, e novamente, é só mandar um e-mail, uma mensagem para a gente, se você tiver uma pergunta, se você quiser fazer um brainstorm, colaborar,
porque tem sempre alguém na equipe que pode colaborar, então vá em frente e muito obrigado por me receberem. Fico bem feliz em falar sobre o JEPA e obrigado também por olharem o Cookbook e fazer essas perguntas. Eu acho que também através dessa interação é muito útil para a gente entender quais são as perguntas principais que todo mundo está pensando, que nem sempre são as mesmas que eu estou pensando, então é muito útil para tirar esse viés e avançar. Então, sim, obrigado novamente.
também, né, que você vai passar pra gente pra gente deixar aqui na descrição do episódio? Sim, sim. Então, sobre modelos de mundo, a gente tem uma série de workshops sobre modelagem de mundo. O primeiro foi no Flatiron Institute em Nova York. Então foi mais sobre modelos de referência pra neurociência, com palestrantes muito bons mostrando como esses modelos de mundo podem, na verdade, se alinhar com a forma como o nosso cérebro funciona. E o mais decente foi em Montreal, e algumas semanas atrás, que foi sobre modelagem de mundo um pouco mais voltada pra aplicações em robótica. Então eu vou te mandar os links
os vídeos também estão disponíveis no YouTube gratuitamente, então se você se interessa por esses tópicos, definitivamente vale a pena conferir. E na verdade vai ter um terceiro workshop de modelagem de mundo em Chicago, por volta de maio, a data não está finalizada ainda, mas vai ser mais sobre modelagem de mundo aplicada a dados econômicos de séries temporais. Então, novamente, vai ter gravação gratuita no Zoom, isso é muito importante, eu não mencionei antes, mas sim, tudo que a gente faz no laboratório é open source,
vivo, de graça, pode acessar as gravações. Então, sim, a gente espera poder ver vocês em Chicago, em maio. Em Chicago. Ah, legal. A gente vai deixar mais esses links também, é claro, na descrição. Obrigado mais uma vez. E na descrição também vai ter o link pra você que tá enrolando, tá ficando sem vaga pra ir comigo, com o Fabrício, com o Paulo Silveira e com o Marcel Almeida, da PM3, lá pro Vale do Silício, na missão Startse, Alura, Grupo Alon, PM3, Hipsters,
que IA sob controle para a gente ir lá de 31 de agosto a 4 de setembro. Fabrício, o que mais a gente tem que falar para o pessoal para convencer a galera que não dá mais para perder tempo para poder ir com a gente? Eu acho que o mais importante é a gente vai visitar presencialmente todas essas empresas que a gente fala toda semana aqui no IA sob controle, seja de entrevistas, seja o de notícias, a gente vai estar lá dentro desse ambiente, conhecendo,
essas big techs por dentro, falando com pessoas que trabalham lá nessas empresas também. E também que são vagas limitadíssimas, vão ser grupos menores, porque essas empresas não deixam você ir com a torcida do São Paulo, pra você cubista aqui, entrar lá em todo mundo. Então tem que ser um grupo mais restrito, com pessoas que estão ali num grupo já acordado com eles. E essas vagas já estão pela metade, tá galera? Menos da metade, até eu diria.
que está aqui na descrição para você se inscrever e viajar comigo, com o Marcos, com o Paulo e com o Marcel lá para o Vale do Silício. Marcos, você falou seus nomes aí. O meu apelidinho que eu dou é Imersão IA Sobre Controle no Vale. É só assim que eu chamo. Ok. Então vou passar a chamar assim também. É assim que você vai passar a chamar e não só chamar dizer eu fui na imersão com o pessoal. Vai até abadá. Eu fui. Igual aquele de Porto Seguro. Excelente. Então o link vai estar aqui na descrição. Pessoal, não percam mais tempo.
acabando, o tempo tá acabando. Então, pra você não deixar pra depois ficar de fora, passa aqui na descrição. E eu e o Fabrício voltaremos esta feira com o nosso resumão das notícias do mundo da inteligência artificial. Até lá! Este podcast foi produzido pela Alura. Mergulhe em tecnologia. E Faculdade FIAP. Let's Rock the Future. Edição Rede Gigahertz de Podcasts. Música