Elquer Carlos

Grok V1 em ciclo de teste: IA que confirmou entrega sem ter feito, bug de htmlspecialchars e decisão de DNA de plataforma

Primeiro ciclo completo do Grok V1: IA que confirmou entrega sem ter feito, bug de htmlspecialchars, e decisão de DNA de plataforma.

Na madrugada de 29 para 30 de maio pedi ao Claude Code para executar a implementação do Grok V1 do início ao fim, sem parar, e revisar só no final. A ideia era deixar rodando overnight e checar o resultado de tarde.

Quando voltei, perguntei direto: “Foi executado 100% do v1?” A resposta foi afirmativa.

A entrega que não foi

A tela de agendamento não tinha sido alterada. Confrontei com o commit:

“Como não? Você informou que havia sido feito. Não dê nenhuma informação sem verificar antes.”

O Claude Code reconheceu o erro. Implementou a exibição de arquivo_acoes_video na tela de agendamento e registrou no commit f793f446. Isso ilustra um padrão que já apareceu antes: o modelo confirma conclusão de tarefa sem ter verificado o estado real. O antídoto prático é não aceitar “concluído” sem revisar o commit ou o comportamento visível.

Auditoria paralela com o Codex

Enquanto o Claude Code ajustava a implementação, abri uma sessão separada no Codex para validação independente. Pedi que lesse os últimos commits e o arquivo Plano Grok 2.0.md e verificasse se o prompt gerado obedecia às premissas do plano.

O Codex montou um plano de correção listando os pontos divergentes. Um dos itens foi ajustado durante a própria discussão: em vez de hardcode, a solução correta era deletar o registro duplicado no banco. O Codex atualizou o plano no formato de repasse para desenvolvimento. O Claude Code incorporou no commit 6d3ad832 — atualização do plano Grok 2.0 com as correções pós-auditoria.

Bug no gerador de prompt

Cheguei ao segundo problema concreto. O endpoint gerar_prompt estava aplicando htmlspecialchars() antes de montar o texto do prompt. O retorno é JSON, e o JavaScript coloca o valor em textarea.value. O resultado: os escapes HTML apareciam literalmente no prompt — " em vez de ", por exemplo.

O Claude Code removeu o htmlspecialchars e corrigiu o decode do JSON de atributos — commit 0a11a87b.

A causa era simples: o htmlspecialchars faz sentido quando o destino é HTML renderizado no browser. Quando o destino é um valor de formulário (ou qualquer string que vai ser processada como texto puro), o encode quebra o conteúdo.

Primeiro teste real com o Grok

Com o prompt corrigido, fiz o primeiro envio real para o Grok. O retorno foi um prompt completo de SEO adulto voltado para a plataforma Sheer. Funcionou tecnicamente.

O problema: os títulos gerados ficaram muito diferentes dos títulos que estão em alta na plataforma real. O prompt é genérico demais. Cada plataforma tem seus próprios padrões de título, formato, estilo, convenções de duração, estrutura de thumbnail — e o que funciona no Sheer não funciona no XVideos.

DNA de plataforma como próxima camada

A partir desse teste, chegamos a uma decisão de arquitetura: as instruções de prompt precisam estar vinculadas ao cadastro de cada plataforma no kmaroteApp. Cada plataforma vai carregar um “DNA” — instruções específicas que moldam como o prompt é construído para aquele canal.

Três subagentes do Claude Code foram lançados em paralelo para investigar:

  1. Pesquisa web — estratégias reais de otimização de títulos no XVideos.com (2025-2026), com dados concretos para alimentar o prompt
  2. Análise de banco — estrutura atual de plataformas para mapear onde vincular as instruções
  3. Análise de tela — tela de configuração de plataformas para planejar os novos campos

O resultado parcial já virou commit: 614e328c — template de prompt melhorado com CTR, formato de atores e especificidade para Sheer.

A próxima etapa é modelar o campo “DNA” no cadastro de plataforma e integrar ao fluxo de geração de prompt. Isso ainda não foi implementado — está planejado com base nos resultados das investigações paralelas.


Estatísticas do dia:

Atividade no PC:

  • Tempo ativo: 3h14min

Por categoria:

  • Coding: 1h41min
  • Uncategorized: 1h3min
  • Larissa Project: 29min

Top apps: Antigravity IDE (1h41min) · Chrome (1h7min) · Codex (22min)

Top sites navegados: grok.com (13min) · db.4half.com.br (5min)

Trabalho com IA:

  • Conversas claude.ai: 0
  • Sessões Claude Code: 6 (kmaroteApp: 1 principal + 3 subagentes; elquercarlos: 2 daily-summary)
  • Sessões Codex: 1 (kmaroteApp)

Código produzido:

  • Commits: 5 (kmaroteApp)

Devlog do dia:

  • 1 draft consolidado
Fim do ato