O contexto que alimenta a IA é frágil, temporário e genérico demais.
Dados + Prompt
Contexto Inteligente
Validação + UX
Cleanup
O que alimenta a IA — Sprint 1 & 2
Como a IA processa — Sprint 1 & 2
O que acontece depois da geração — Sprint 3
Experiência do usuário — Sprint 3
Manutenção e infraestrutura — Sprint 4
Pesquisa sobre Vision Language Models e o problema central do plugin
Claude, GPT-4o e similares são Vision Language Models — modelos treinados com bilhões de pares imagem+texto da internet.
Ponto-chave: Claude é um modelo de linguagem com percepção visual integrada. Ele "vê" a imagem, mas o que descreve depende fortemente do CONTEXTO TEXTUAL que recebe junto.
Diferente de classificadores tradicionais (que dizem "isso é um cachorro"), VLMs conseguem:
O problema do plugin não é que a IA não CONSIGA ver — é que sem contexto de domínio, ela usa termos genéricos.
VLMs aprendem correlações de web-scale: bilhões de imagens com legendas em inglês. O modelo SABE o que é picanha (está no treinamento), mas precisa de grounding — ancoragem textual.
IA recebe: "analyze this image"
Responde com termos genéricos:
"grilled meat on skewer"
IA recebe: "MEAT CUTS: picanha, alcatra, maminha"
Ancora no vocabulário fornecido:
"picanha no espeto sobre brasa"
Técnica comprovada: Pesquisas de 2024-2025 confirmam que domain-specific text prompts melhoram significativamente o reconhecimento em VLMs, mesmo sem fine-tuning.
Few-shot é a técnica de fornecer exemplos do resultado desejado DENTRO do prompt. A IA imita o padrão, tom e estilo.
Pesquisas NeurIPS 2024 confirmam que exemplos multi-modais superam zero-shot consistentemente.
No plugin: os Reference Images (Card 1.3) implementam exatamente isso.
Best practices específicas da Anthropic para Claude 4.x:
Relevante: O prompt atual diz "be specific" (vago). O v3.0 diz "identify specific cuts of meat by Brazilian name (picanha, alcatra, maminha)" — alinhado com recomendações Anthropic.
Estratégia ideal: Haiku para preview + Sonnet para geração final.
Nenhuma exige fine-tuning — tudo via prompt engineering:
Como o prompt v3.0 é montado para cada imagem
Nome do site, tagline, URL, idioma, tom da marca. Vem do Site Scanner.
Smart Context: produto WooCommerce, post pai, EXIF GPS, gallery Elementor.
Cortes de carne, tipos de evento, equipamentos, regiões.
Evento específico, data, local. Digitado pelo usuário.
3-5 melhores descrições já aprovadas. Modelo de tom e estilo.