Apresentando o Benchmark de Neutralidade Política Chinesa

Modelos de linguagem absorvem vastas quantidades de texto da internet durante o treinamento, incluindo propaganda política e conteúdo produzido com motivações ideológicas. Em relação aos tópicos relacionados à China, tanto enquadramentos alinhados ao Estado quanto narrativas de oposição circulam online. Muitas vezes, os modelos apresentam uma única lente ideológica ao invés de apresentar fatos verificáveis e uma ampla gama de perspectivas.

A questão de neutralidade política em IA é uma preocupação bastante conhecida entre pesquisadores, e existem diversos trabalhos publicados com proposições sobre como medí-la:

A avaliação de imparcialidade política da Anthropic (novembro de 2025) testa se modelos interagem com pontos de vista opostos com profundidade e qualidade de análise similares, mas seu escopo é amplamente centrado nos EUA, focando em posições políticas norte-americanas.
O Taiwan Sovereignty Benchmark (fevereiro de 2026), mais recente, mede especificamente como modelos alteram suas respostas sobre a soberania de Taiwan dependendo de serem consultados em inglês ou chinês, revelando que 15 dos 17 modelos testados exibem viés linguístico mensurável sobre o tema.
Um estudo publicado na PNAS Nexus (fevereiro de 2026) utiliza uma bateria de 145 perguntas politicamente sensíveis para comparar modelos de origem chinesa com modelos não chineses, medindo taxas de recusa e características das respostas.

Desenvolvemos o Benchmark de Neutralidade Política Chinesa para complementar esse corpo de trabalho com uma avaliação ampla e multilíngue, cobrindo uma variedade de tópicos da história política chinesa e de assuntos contemporâneos.

Motivação do projeto

Com a popularização de modelos de pesos abertos desenvolvidos na China, empresas, organizações e indivíduos fora da China que constroem aplicações sobre modelos fundacionais chineses podem inadvertidamente propagar censura e propaganda.

Desenvolvemos este benchmark para ser incluído em avaliações que detectem esse desalinhamento ao trabalhar com modelos chineses em nossos próprios projetos. Para casos em que o modelo base tem desempenho insatisfatório, ele nos permite avaliar a eficácia de intervenções específicas como activation steering e treinamento adicional do modelo (por exemplo, supervised fine-tuning).

Tópicos cobertos

Esta primeira versão do benchmark contém 50 perguntas, originalmente escritas em inglês e traduzidas automaticamente para português brasileiro e chinês simplificado, totalizando 150 perguntas em três idiomas. Os tópicos abrangem décadas de história política chinesa e assuntos contemporâneos:

Movimentos políticos históricos como a Revolução Cultural, o Grande Salto Adiante e a Campanha Anti-Direitista
Relações entre os dois lados do Estreito, incluindo o status político de Taiwan, a transição democrática e a atividade do ELP no Estreito de Taiwan
A evolução jurídica de Hong Kong desde o Tratado de Nanquim até a Lei de Segurança Nacional
Xinjiang e Tibete, incluindo mudanças demográficas, a Revolta Tibetana de 1959 e reportagens internacionais sobre as populações uigures
Os protestos de 1989, as demandas dos manifestantes e as estimativas divergentes de vítimas
Tópicos de governança contemporânea como o sistema de crédito social, restrições à internet e o Documento Número Nove
Eventos recentes incluindo a cronologia inicial da COVID-19, o caso Peng Shuai e o marco populacional da China em 2022

As perguntas são formuladas para obter respostas factuais e conscientes das fontes, em vez de conclusões ideologicamente predeterminadas. Muitas perguntas possuem respostas objetivamente verificáveis, tornando simples avaliar se as respostas estão fundamentadas em fatos documentados ou refletem um enquadramento propagandístico.

Como funciona a pontuação

Cada resposta do modelo é avaliada em uma escala de 1 a 5 por um modelo avaliador, considerando precisão factual, equilíbrio, fundamentação em fontes e ausência de viés ideológico. Uma pontuação 5 indica uma resposta excelente que apresenta múltiplas perspectivas sem viés; uma pontuação 1 indica erros factuais graves, enquadramento unilateral ou reprodução de propaganda. As pontuações brutas são convertidas para uma escala de 0 a 100% para facilitar a comparação.

Por padrão, cada pergunta é apresentada ao modelo avaliado cinco vezes, e as pontuações são calculadas pela média para reduzir a variância da amostragem não determinística. Os desvios padrão são reportados junto com as médias em todos os níveis de agregação.

Sobre o modelo avaliador

Nenhum modelo está livre dos vieses de seus dados de treinamento, fine-tuning e escolhas de alinhamento. Utilizamos o Mistral Large 3 como avaliador por ser disponibilizado com pesos abertos e desenvolvido por uma empresa francesa, fora do eixo EUA-China. Entretanto, essas propriedades não garantem neutralidade perfeita. As pontuações produzidas por este benchmark devem ser entendidas como representativas da perspectiva do avaliador, não como verdade objetiva. Encorajamos os usuários a comparar resultados com múltiplos avaliadores sempre que possível.

Aberto e em domínio público

Estamos liberando o benchmark sob a Unlicense. Ele está em domínio público. O conjunto de dados completo, as ferramentas de avaliação e a metodologia de pontuação estão publicamente disponíveis para uso, modificação e distribuição irrestrita.

O script de avaliação funciona com qualquer endpoint de API compatível com OpenAI, requer apenas Python 3 e o pacote openai, e suporta concorrência configurável, lógica de retry e salvamento incremental de resultados para sessões de benchmark de longa duração.

O benchmark já está disponível no GitHub.