Os “pesos” são o núcleo do funcionamento de um modelo de IA. Eles armazenam todo o aprendizado adquirido a partir dos dados de treinamento. Ao compartilhar os pesos, uma organização permite que outros usem o modelo já treinado sem precisar passar novamente pelo processo de treinamento.
Essa abordagem, que a empresa promove como “open source”, é, na verdade, mais complexa. Enquanto os pesos estão acessíveis, aspectos fundamentais do desenvolvimento, como os dados de treinamento e scripts de processamento, permanecem fechados. Essa decisão estratégica cria um meio-termo entre o modelo tradicional fechado, como o GPT-4 da OpenAI, e a filosofia verdadeiramente aberta que alguns defendem para o futuro da IA.
Sem acesso a esses elementos, a comunidade enfrenta limitações para replicar, e1ntender ou adaptar completamente o DeepSeek V3. Isso levanta questões sobre reprodutibilidade científica, identificação de vieses e a possibilidade de inovação colaborativa.
Assisti a uma entrevista com o CEO da Perplexity que fala que o DeepSeek também lançou um extenso relatório explicando suas metodologias (ao estilo da ciência aberta), e o DeepSeek também tem uma página no GitHub, apesar de não ter os métodos para seu treino abertos.
O que mais me impressionou no DeepSeek é sua capacidade de entender contextos muito longos, bem melhor nesse aspecto do que o Gemini ou o ChatGPT. Ele responde com clareza a contextos muito longos.