Whisper per la trascrizione audio/video, ComfyUI per il workflow immagini, modelli vision (Qwen 2.5-VL, LLaVA) per tagging automatico. Tutto su GPU dedicate UE, batch notturno integrato nel CMS, niente upload verso vendor cloud terzi.
1 GPU server dedicato (NVIDIA L40S o equivalente), Whisper large-v3 in batch, ComfyUI per immagini, tagging vision notturno. ~30 ore di video trascritte/giorno con diarizzazione, ~5k immagini taggate in batch notturno. Costo fisso, no token-based pricing.
Audio in italiano trascritto e diarizzato per il giornalista, tempi taglio articolo dimezzati.
Generazione SRT/VTT per video editoriali, allineamento timeline, traduzione opzionale multi-lingua.
Migliaia di immagini storiche, riconoscimento soggetti/luoghi, ricerca semantica per redazione.
Generazione descrizioni alt-text per accessibilità WCAG, su archivio già pubblicato.
Generazione thumb varianti formato (16:9, 1:1, 9:16) per CMS multi-piattaforma e social.
Detection NSFW/violenza su user-generated content prima del go-live editoriale.
30 minuti con un nostro tecnico Romiltec. Capiamo insieme se Tech Performance fa al caso tuo, e se non è così te lo diciamo subito. Niente vendita aggressiva, niente preventivo a scatola chiusa.