Ao montar um servidor de inteligência artificial com oito placas GeForce RTX 4090D e 192 GB de VRAM, um usuário identificou que duas GPUs trabalhavam com desempenho drasticamente reduzido em comparação às demais. O problema foi atribuído à instalação invertida de cabos MCIO, que negociaram erroneamente conexões PCIe Gen1 x4 em vez de Gen5 x16.
Diagnóstico inicial
Durante os testes iniciais, as duas RTX 4090D apresentaram rendimento inferior ao conjunto, levantando suspeitas sobre defeito no hardware. Após cerca de duas horas de verificações, um membro da equipe recorreu ao manual da placa-mãe ASRock Rack GENOA2D24G-2L+ e descobriu a causa do mau funcionamento.
Erro na conexão dos cabos MCIO
Os cabos MCIO usados para conectar os adaptadores PCIe aparentavam ser simétricos, mas possuem orientação específica identificada por um pequeno triângulo em relevo. Dois deles foram encaixados com rotação de 180 graus, fazendo com que as GPUs negociem apenas quatro pistas Gen1 em vez de dezesseis pistas Gen5.
Impacto no desempenho
Com os enlaces limitados a PCIe Gen1 x4, o throughput dessas duas placas caiu para aproximadamente 10% do desempenho observado nas demais GPUs, que operavam em PCIe Gen5 x16. Embora muitas operações de IA ocorram na VRAM, a largura de banda do barramento PCIe é essencial para a troca de dados entre processadores, armazenamento e aceleradores.
Configuração do servidor
O sistema foi dimensionado para uso compartilhado em modelos de linguagem locais e inclui:
- oito GPUs GeForce RTX 4090D (192 GB de VRAM);
- dois processadores AMD EPYC 9004 Genoa;
- placa-mãe ASRock Rack GENOA2D24G-2L+;
- quatro fontes de 2.000 W (8.000 W totais);
- chassi 4U fabricado em CNC e doze ventoinhas frontais.
O consumo médio do servidor gira em torno de 4.600 W.

Imagem: Imagem ilustrativa
Escolha dos processadores
Apesar de dois CPUs AMD EPYC, o foco não era apenas a capacidade de processamento da CPU, mas também a disponibilidade de pistas PCIe. Cada chip da linha 9004 oferece até 128 pistas Gen5, e a configuração 3-link xGMI da placa-mãe libera 160 pistas para dispositivos externos, suficientes para oito GPUs em x16 Gen5.
Alternativa e avaliação de custo
Nos comentários da publicação, alguns sugeriram o uso de duas RTX Pro 6000 Blackwell para obter 192 GB de memória de vídeo com consumo mais baixo. O autor reconheceu que essa seria opção eficiente em cenários menores, mas ressaltou que o servidor foi projetado para múltiplos usuários, oferecendo maior largura de banda agregada e isolamento entre cargas de trabalho. O custo total ficou abaixo de US$ 30 mil, com economia obtida na fabricação interna do gabinete em CNC.
Recomendação final
O incidente serve de alerta para profissionais que lidam com servidores de alto desempenho: verificar a orientação correta dos conectores MCIO antes da montagem definitiva. Depois de encaixados, os cabos ficam de difícil acesso, dificultando a identificação de falhas que podem reduzir drasticamente a performance.
Com informações de Hardware


