Como pesquisar de forma efetiva (Vivek)

Ótimo artigo de Vivek neste tweet que traduzi com IA:

“Ninguém realmente te ensina a pesquisar. Você ganha uma mesa, um problema que outra pessoa escolheu e uma instrução vaga para produzir algo inédito. Por isso, a maioria das pessoas faz engenharia reversa do trabalho a partir do que consegue ver — que são artigos, threads e anúncios — e o que acabam aprendendo é como parecer um pesquisador, em vez de como ser um. A habilidade real é uma pilha de subtarefas menores, e quase todas podem ser treinadas deliberadamente.

Escolha Seus Próprios Problemas

Richard Hamming tinha um hábito no Bell Labs que o tornava impopular no almoço. Ele perguntava a quem estivesse sentado por perto quais eram os problemas importantes em sua área e, depois, perguntava por que não estavam trabalhando neles. As pessoas mudavam de mesa. A pergunta dói porque a maioria de nós não tem uma boa resposta. Nós não escolhemos problemas; nós os absorvemos — de um orientador, do que um grande laboratório anunciou no último trimestre ou do artigo que todo mundo está compartilhando nas redes sociais esta semana.

O problema de um problema absorvido é que você mantém a conclusão sem o raciocínio. Você sabe que algum laboratório famoso se importa com uma direção, mas não sabe o porquê, o que eles esperam encontrar ou o que os faria desistir dela. Quando eles mudam de rumo, você só descobre um ano depois. E em um problema que já está na moda, você está correndo contra mil pessoas que começaram antes e têm mais poder computacional que você.

O guia de John Schulman para pesquisa em ML (Machine Learning) divide o trabalho em dois modos:

Modo 1: Você lê a literatura e caça coisas para melhorar.
Modo 2: Você escolhe um resultado que genuinamente deseja que exista e faz o caminho inverso até os experimentos.

Ele defende o segundo modo, e a razão oculta é que isso fabrica originalidade. Um objetivo com o qual você realmente se importa vai te arrastar para territórios que nenhum artigo de revisão aborda.

O “gosto”, por sua vez, é discutido como se fosse um dom. Mas ele se comporta mais como um músculo. Preveja o resultado de cada experimento antes de executá-lo. Esconda a seção de resultados de um artigo e adivinhe os números apenas pelo método. Anote quais lançamentos deste mês serão relevantes daqui a dois anos e verifique sua taxa de acerto mais tarde. Uma previsão mais uma correção, repetida algumas centenas de vezes, é como todo bom modelo é treinado — inclusive o que está na sua cabeça.

Melhore Suas Fontes de Informação

Listas de leitura compartilhadas produzem ideias compartilhadas. Se a sua dieta de informação é a página de tendências do arXiv mais o que sobrevive ao filtro do grupo de mensagens, você chegará consistentemente às mesmas conclusões que todo mundo, ao mesmo tempo — o que torna essas conclusões valiosas em aproximadamente zero.

Materiais antigos são bizarramente subvalorizados. Esta área reprisa seu próprio passado com um certo atraso: Mixture of Experts data de 1991, LSTMs de 1997, e o backpropagation se tornou popular em 1986.

Rich Sutton precisou de cerca de mil palavras em 2019 para escrever The Bitter Lesson (“A Lição Amarga”), e ela prevê os rumos da área melhor do que revisões dez vezes mais longas. Claude Shannon deu uma palestra sobre pensamento criativo em 1952, onde seu passo inicial foi reduzir um problema até que ele se tornasse quase trivial, resolver a versão pequena e, em seguida, reintroduzir a dificuldade uma peça por vez. Esse único truque vai te fazer atravessar mais barreiras do que qualquer conselho moderno de produtividade.

A amplitude importa tanto quanto a profundidade:

A interpretabilidade pega emprestado descaradamente da neurociência.
O design de avaliação (eval design) é o design de mecanismos vestindo um jaleco de laboratório.
Uma noção prática de como as GPUs realmente movem a memória te diz quais artigos de arquitetura estão condenados antes mesmo dos benchmarks provarem.
E estatística honesta talvez seja a habilidade mais rara em ML, onde muito do rigor publicado é apenas “vibe” com barras de erro.

Mais uma coisa: leia o artigo em si, não a thread que o resume. O apêndice é onde os corpos estão enterrados, e a seção de limitações geralmente é o parágrafo mais honesto do documento.

Escreva Tudo

Paul Graham aponta que uma ideia pode parecer totalmente formada até você tentar colocá-la em palavras. A página encontra lacunas que a sua mente ignora: aquela suposição que você nunca testou, o passo que na verdade não faz sentido lógico, as duas afirmações que se contradizem silenciosamente.

A regra de Feynman era que a primeira pessoa que você deve evitar enganar é você mesmo, porque você é o alvo mais fácil. Escrever é a defesa mais barata já inventada.

Darwin foi além e tornou isso um procedimento: qualquer fato que fosse contra a sua teoria era anotado na hora, porque ele percebeu que sua própria memória apagava evidências inconvenientes mais rápido do que as convenientes. A sua memória faz o mesmo com os seus experimentos que deram errado.

Mantenha um registro rígido:

Hipótese
Configuração
Expectativa
Resultado
Crença atualizada

Reler as anotações do mês passado é um banho de realidade que nenhum revisor de artigo consegue superar.

Depois, publique uma parte disso. O ensaio sobre “dívida de pesquisa” (research debt) de Olah e Carter argumenta que as áreas do conhecimento engasgam com ideias não digeridas, e que uma explicação clara é uma contribuição real, não um trabalho secundário. Muitas pessoas que trabalham com interpretabilidade hoje descobriram a área por meio de posts acessíveis, não por artigos de conferências. Um histórico de textos públicos também funciona como a credencial mais forte que você pode ter, porque é uma amostra inquestionável de como você pensa.

Acelere o Ciclo de Feedback

As histórias sobre Alec Radford raramente envolvem um único estalo de genialidade. Elas envolvem volume: mais execuções (runs) por dia, mais ideias erradas descartadas por semana, um modelo de realidade que se atualizava mais rápido do que o de qualquer outra pessoa. Esse é o jogo real. A velocidade da pesquisa é, essencialmente, a velocidade com que você descobre que está errado.

O que torna a criação de ferramentas uma atividade de pesquisa de primeira classe. Iniciar uma execução deveria ser um único comando. Plotar o gráfico deveria ser mais um. Cada experimento deveria ser reproduzível a partir de sua configuração, e comparar duas execuções deveria levar segundos, não uma tarde inteira de arqueologia computacional.

A receita de Andrej Karpathy para treinar redes neurais tem um passo que se paga centenas de vezes: faça um overfitting em um único lote (batch) antes de treinar em grande escala. Trinta segundos, metade dos seus bugs eliminados. Reduza tudo até que fique barato, acerte e só então gaste o poder computacional.

E abandone a ideia de que a engenharia é a parte menos importante aqui. Na fronteira do conhecimento, as duas funções se fundiram. O pesquisador que consegue construir a estrutura, a avaliação e o pipeline de dados é aquele cujas hipóteses realmente são testadas. Todo o resto está esperando na fila.

Olhe Fixamente Para os Resultados

Uma curva de perda (loss curve) caindo não é análise, é apenas um conforto. Seus experimentos geram muito mais informação do que você consome: transcrições, casos de falha, a cauda estranha da distribuição. A maior parte disso morre sem ser lida em uma pasta de logs.

A receita de Karpathy começa antes mesmo de qualquer código de treinamento ser escrito, com horas gastas analisando os dados brutos manualmente. A maioria dos bugs de ML está nos dados, e eles falham silenciosamente. Nada quebra. Você simplesmente obtém um modelo medíocre e uma teoria errada sobre o porquê.

Andrew Ng ensina esse mesmo movimento pouco glamoroso há mais de uma década porque nada o supera: pegue cem falhas, leia todas elas, separe-as em pilhas, ataque a maior pilha. Funciona para modelos e funciona para avaliações (evals) — onde um benchmark do qual você nunca leu as transcrições é um benchmark que você na verdade não entende. Uma única transcrição de um comportamento genuinamente estranho vai te ensinar mais do que a próxima casa decimal de precisão jamais ensinará.

Explore de Propósito

Sua primeira subárea é um acidente de percurso, então trate-a como tal. Passe um tempo real em interpretabilidade, em avaliações, em aprendizado por reforço (RL), em sistemas, antes de decidir onde vai se fixar. Em algum lugar desta área existe um canto onde a sua esquisitice específica é uma vantagem injusta, e a única maneira de localizá-la é pagando o preço do aprendizado em vários lugares. Ninguém ganha isenção dessa taxa.

Execute a versão descartável de cada ideia primeiro e deixe a maioria delas morrer cedo. Ajuste seus baselines até doer, porque o cemitério de ML está cheio de melhorias que evaporaram diante de um baseline devidamente ajustado, e um revisor de artigos é a pior pessoa possível com quem aprender isso. Faça a ablação até saber qual componente sustenta o resultado. Geralmente é apenas um, e geralmente não é o que está no título.

A amplitude também é um seguro. Subáras saturam — todas elas —, geralmente logo após atingirem o pico de engajamento nas redes sociais. As pessoas que continuam produzindo durante essas transições são aquelas que já conhecem o caminho pelo território vizinho.

Encontre a Sua Turma

Hamming notou um padrão sobre quem acabava fazendo um trabalho importante. Colegas com as portas do escritório fechadas produziam mais em um determinado ano, mas os colegas com as portas abertas faziam o trabalho que realmente importava, porque as interrupções traziam informações sobre o que o mundo realmente precisava. Sua porta aberta provavelmente é a sua caixa de entrada. Mantenha-a assim.

A generosidade se acumula na pesquisa como em nenhum outro lugar. Replique um resultado e publique o que encontrou. Libere a ferramenta que você construiu para si mesmo. Explique algo difícil em linguagem simples. Os retornos chegam de forma indireta, meses depois, na forma de uma colaboração, de uma referência ou daquela vaga para a qual você nem sabia que podia se candidatar.

Jogue suas ideias semi-formadas ao público também, porque estar errado na timeline é muito mais barato do que estar errado em um artigo publicado. E o colaborador que te diz que uma ideia é ruim antes de você afundar três meses nela vale mais do que qualquer supercomputador. Esse relacionamento não pode ser comprado, apenas conquistado.

O Jogo de Longo Prazo

Pasteur disse que a sorte favorece a mente preparada, e Hamming construiu toda uma filosofia de carreira em cima disso: o conhecimento e a produtividade se acumulam como juros compostos.

As vantagens diárias parecem triviais isoladamente: o que você lê, o que você registra, quão rápido seu ciclo roda, com quem você debate. Dê a elas alguns anos e elas produzirão carreiras que, vistas de fora, parecem pura sorte. Comece a acumular esses juros antes do que parece necessário. O seu “eu” do futuro já sabe que esta era a parte mais barata.” 🏔

Lui von Holleben