Decodificando o DNA da Economia Brasileira: Por que construímos um Foundation Model para entender as PMEs
.png)

As Pequenas e Médias Empresas (PMEs) são, sem dúvida, a espinha dorsal da economia brasileira. Responsáveis por cerca de 30 % do PIB e por 54% dos empregos formais no setor privado¹, as PMEs compõem 99% das empresas ativas hoje no Brasil. No entanto, para qualquer grande empresa que tenta atendê-las — seja oferecendo crédito, seguros, serviços ou produtos — as PMEs permanecem uma caixa-preta.
A realidade é que o ecossistema de PMEs no Brasil é um dos mais complexos e dinâmicos do mundo. No 1º quadrimestre de 2024 nasceram 1.456.958 novos CNPJs, onde 97,5 % são micro ou pequenas empresas². A informação é fragmentada, os dados públicos são muitas vezes insuficientes e os modelos de análise tradicionais falham em capturar a verdadeira saúde e o potencial de um negócio. Essa opacidade gera um custo sistêmico gigantesco: crédito mal alocado, oportunidades de crescimento perdidas e uma ineficiência que trava o potencial de toda a cadeia produtiva. Estudos do BNDES³ mostram que esse segmento continua sendo o mais restrito no acesso a financiamento formal, onde entre 2015 a 2019, o saldo real de crédito bancário às micro, pequenas e médias empresas (MPMEs) despencou 45,2% — quase o triplo da retração observada entre grandes companhias (-16,8%).
Na Avra, nossa tese sempre foi clara: para resolver um problema dessa magnitude, não bastava criar um score um pouco melhor ou um dashboard mais amigável. Era preciso reinventar a abordagem fundamental de como a inteligência sobre empresas é gerada. Por isso, não construímos apenas um produto; construímos um Graph Foundation Model (GFM), um modelo fundacional projetado especificamente para o Brasil.
Os Limites do Paradigma Tradicional
Por décadas, o mercado se apoiou em dois pilares para analisar empresas: bureaus de crédito e equipes internas. Ambos têm seu valor, mas também suas limitações intrínsecas no contexto brasileiro.
- A Fotografia Estática dos Bureaus: Os sistemas tradicionais nos oferecem uma fotografia do passado. Eles consolidam dados cadastrais e histórico de negativação, o que é útil, mas fundamentalmente reativo e incompleto. Eles mostram o que uma empresa é formalmente e o que ela fez no passado, mas falham em capturar como ela opera, qual seu momentum atual e, mais importante, qual sua posição e influência na complexa teia econômica em que está inserida.
- A Visão Isolada da Análise Interna: Grandes empresas possuem dados valiosíssimos sobre seus próprios clientes — o que chamamos de "1st-party data". No entanto, essa visão, por mais rica que seja, é inerentemente isolada. Uma equipe interna, por mais sofisticada que seja, dificilmente consegue cruzar seus próprios dados com a totalidade das conexões e comportamentos do mercado. Além disso, a especialização técnica para construir e operar modelos que aprendem com redes de relacionamento em escala massiva é um desafio profundo que desvia o foco do negócio principal.
Ambas as abordagens analisam a empresa como uma ilha. Nós acreditamos que a verdadeira compreensão é relacional, composta por sócios, fornecedores, clientes, vizinhos, litígios e muito mais.
A Tese da Avra: uma empresa é uma Rede de Relacionamentos
O risco e o potencial de uma PME não são definidos apenas por seu balanço, mas pela força e pela natureza de suas conexões: com seus sócios (e os outros negócios desses sócios), com seus fornecedores, com seus clientes, com disputas judiciais e até mesmo com a vitalidade econômica de sua vizinhança.
Para capturar essa realidade, construímos o que é nosso ativo mais fundamental: um Large Knowledge Graph (LKG). Pense nele como um mapa digital vivo de toda a economia brasileira. Este grafo não armazena apenas dados; ele conecta as informações, estruturando dezenas de milhões de empresas, pessoas, processos judiciais e outros sinais em uma única rede de conhecimento coesa e interligada. Ele é a representação mais próxima do "DNA" da nossa economia.
Do Mapa à Inteligência: o nosso Graph Foundation Model
Ter o mapa mais completo é apenas o primeiro passo. É preciso um motor de inteligência capaz de interpretá-lo em tempo real e em grande escala.
Inspirados pelos avanços em Large Language Models (LLMs), que aprendem a "entender" a linguagem ao processar vastas quantidades de texto, desenvolvemos nosso próprio Foundation Model. A diferença crucial é que, em vez de texto, nosso modelo aprende com a estrutura do nosso Knowledge Graph.
Nosso GFM, aprende os padrões latentes do sucesso e do fracasso no Brasil. Ele não olha apenas para os atributos de um CNPJ isolado; ele aprende o que significa ser uma "startup de alto crescimento no setor de tecnologia", uma "indústria familiar estável no Sul" ou um "prestador de serviços com risco jurídico oculto em sua rede de sócios". Ele faz isso analisando a forma, a densidade e a evolução das conexões de milhões de outras entidades que já passaram por situações semelhantes.
O resultado primário desse modelo não é um score, mas sim uma representação matemática rica de cada entidade — um embedding. Esse vetor captura a essência de uma empresa em um formato que a máquina pode usar para tarefas complexas, como predição, similaridade e detecção de anomalias.
A "Lente de Contato": da Inteligência Geral à Análise Personalizada
Um foundation model, por mais poderoso que seja, oferece uma visão geral do mercado. O verdadeiro diferencial para nossos clientes surge quando aplicamos essa inteligência ao seu contexto específico.
É aqui que entra o nosso conceito de "lente de contato". Quando um cliente integra seus dados proprietários à nossa plataforma, de forma segura e privada, nós não apenas os adicionamos ao grafo. Nós usamos esses dados para realizar um processo de fine-tuning, criando uma camada de especialização segregada sobre o nosso Foundation Model.
Essa camada personalizada — a "lente de contato" — ensina nosso modelo a enxergar o mercado pela perspectiva do cliente. Ele aprende a definição de risco específica daquela empresa, o perfil exato de seu melhor cliente e as nuances de seu ecossistema particular. É crucial ressaltar que os dados do cliente e o modelo ajustado resultante são de uso exclusivo para ele, garantindo total privacidade e uma vantagem competitiva única.
Além do Crédito: o futuro da Inteligência Dinâmica
Embora a análise de risco de crédito seja a aplicação mais imediata e uma dor universal, ela é apenas a primeira de muitas soluções que nosso GFM pode potencializar. A plataforma que construímos foi projetada para ser a camada de inteligência fundamental para a economia B2B brasileira.
As mesmas representações (embeddings) que geram um score de crédito superior podem ser usadas para:
- Encontrar Clientes Ideais: Identificar em todo o Brasil empresas que se comportam como seus melhores clientes atuais, indo muito além dos filtros demográficos tradicionais.
- Marketing e Personalização: Entender movimentos competitivos e identificar "espaços em branco" na economia, além de conseguir sinalizar plataformas para encontrar leads melhores.
Nossa missão na Avra é ambiciosa, mas simples de articular: transformar a forma como as empresas no Brasil se entendem e tomam decisões. Estamos substituindo a "fotografia" estática do passado por um filme dinâmico e preditivo do presente e do futuro. A jornada está apenas começando.