GitHub detalha como avalia offline o desempenho do MCP Server

São Francisco (EUA), 30 de outubro de 2025 – A equipe de engenharia do GitHub apresentou o funcionamento de seu processo de avaliação offline para o GitHub MCP Server, base de vários fluxos do GitHub Copilot dentro e fora da plataforma. O objetivo é introduzir novos recursos sem provocar regressões, garantindo que modelos de linguagem escolham as ferramentas corretas e preencham os parâmetros adequadamente.

Índice de Conteúdo

Três etapas de avaliação

O pipeline de testes é dividido em fulfillment, avaliação e sumarização:

Anúncios

Cadeira De Escritório Giratória Home Office Encosto com Design Listrado em Malha Respirável Preta com Base Cromada e Cinco Rodinhas

Amazon.com.br

3.0

R$ 331,55

Cadeira De Escritório Giratória Home Office Encosto com Design Listrado em Malha Respirável Preta com Base Cromada e Cinco Rodinhas

Comprar na Amazon

Kit 2 Cadeiras de Escritório Secretária Base Fixa - Preto

Amazon.com.br

4.0

R$ 519,79

Kit 2 Cadeiras de Escritório Secretária Base Fixa - Preto

Comprar na Amazon

FORTT INDUSTRIA E COMÉRCIO DE MÓVEIS Cadeira de Escritório Secretária Base Preta com Rodinha Fortt Milão Preta - CSF07-P

Amazon.com.br

3.0

R$ 261,54

FORTT INDUSTRIA E COMÉRCIO DE MÓVEIS Cadeira de Escritório Secretária Base Preta com Rodinha Fortt Milão Preta - CSF07-P

Comprar na Amazon

Cadeira de Escritório Secretária Giratória Fitz Bege

Amazon.com.br

4.0

R$ 477,51

Cadeira de Escritório Secretária Giratória Fitz Bege

Comprar na Amazon

Cadeira de escritório, design ergonômico com suporte lombar independente, malha respirável e encosto de cabeça ajustável (Verde)

Amazon.com.br

4.0

R$ 499,00

Cadeira de escritório, design ergonômico com suporte lombar independente, malha respirável e encosto de cabeça ajustável (Verde)

Comprar na Amazon

Cadeira de escritório ergonômica com estofado de mesh (Preto)

Amazon.com.br

3.0

R$ 389,00

Cadeira de escritório ergonômica com estofado de mesh (Preto)

Comprar na Amazon

Preço da Amazon atualizado: janeiro 9, 2026 2:08 pm

Fulfillment – Cada benchmark é executado em diferentes modelos, sempre com a lista de ferramentas MCP disponíveis. A saída registra quais ferramentas foram acionadas e quais argumentos foram enviados.
Avaliação – Os dados brutos são processados e convertidos em métricas e pontuações.
Sumarização – As estatísticas são agregadas e geram o relatório final.

Conjuntos de benchmark

Os testes utilizam bases de dados curadas contendo, para cada caso, o pedido em linguagem natural, as ferramentas esperadas e os respectivos argumentos. Entre os exemplos citados estão:

Contar issues criadas em abril de 2025 no repositório github/github-mcp-server (ferramenta list_issues).
Fazer merge da PR 123 em github/docs via squash merge (ferramenta merge_pull_request).
Solicitar revisão de usuários específicos na PR 67 de team/project-alpha (ferramenta update_pull_request).
Resumir comentários da discussão 33801 em facebook/react (ferramenta get_discussion_comments).

Métricas de seleção de ferramenta

Quando há apenas uma chamada de ferramenta por entrada, o problema torna-se de classificação multiclasse. São calculados acurácia, precisão, revocação e F1-score. A equipe também monta uma matriz de confusão para identificar quais ferramentas costumam ser trocadas, como ocorria entre list_issues e search_issues.

Qualidade dos argumentos

Depois de confirmada a escolha da ferramenta, quatro indicadores verificam a correção dos argumentos:

GitHub detalha como avalia offline o desempenho do MCP Server - Imagem do artigo original

Imagem: Internet

Alucinação de argumentos – frequência de parâmetros inexistentes.
Todos os argumentos esperados – presença de cada parâmetro previsto.
Todos os argumentos obrigatórios – inclusão dos campos indispensáveis.
Correspondência exata de valores – aderência total aos valores esperados.

Próximos passos

Os engenheiros reconhecem que a cobertura de benchmarks ainda é limitada e pretendem ampliar a quantidade de exemplos por ferramenta. Outra frente é avaliar cenários com chamadas sequenciais de múltiplas ferramentas, exigindo execução real ou simulação dos resultados durante os testes. A sumarização também deve evoluir para classificação multilabel, já que uma mesma entrada pode acionar diversos recursos.

Segundo o GitHub, o aperfeiçoamento contínuo da avaliação offline deve reduzir regressões, oferecer diagnósticos mais claros e garantir agentes mais confiáveis para desenvolvedores que utilizam o MCP Server.

Com informações de GitHub Blog

GitHub detalha como avalia offline o desempenho do MCP Server

Três etapas de avaliação

Conjuntos de benchmark

Métricas de seleção de ferramenta

Qualidade dos argumentos

Próximos passos

Rede Sociais

Ultimas Novidades

Pessoas mais buscadas no Google 2026: ranking completo

Zoe Saldaña supera Scarlett Johansson em bilheteria

Resultado Lotofácil 3585: veja ganhadores e números

Ataque supply chain n8n rouba tokens OAuth de devs

Mais Vendidos

Institucional

Três etapas de avaliação

Conjuntos de benchmark

Métricas de seleção de ferramenta

Qualidade dos argumentos

Você também pode gostar

Próximos passos

Rede Sociais

Ultimas Novidades

Pessoas mais buscadas no Google 2026: ranking completo

Zoe Saldaña supera Scarlett Johansson em bilheteria

Resultado Lotofácil 3585: veja ganhadores e números

Ataque supply chain n8n rouba tokens OAuth de devs

Você também pode gostar

GitHub Copilot reforça segurança com princípios para IA

Patentes de software: nova regra do USPTO ameaça startups

GitHub Copilot: novo modelo acelera sugestões de edição