AI · Media production

Trascrizione e visione AI on-premise.
Per redazioni e broadcaster.

Whisper per la trascrizione audio/video, ComfyUI per il workflow immagini, modelli vision (Qwen 2.5-VL, LLaVA) per tagging automatico. Tutto su GPU dedicate UE, batch notturno integrato nel CMS, niente upload verso vendor cloud terzi.

Parla con un nostro tecnico Vedi tutte le configurazioni

Stack di riferimento

Modelli aperti, GPU dedicate, pipeline orchestrate.

→ Whisper large-v3 per trascrizione e diarizzazione: italiano, lingue UE, accuracy comparable a vendor cloud.
→ ComfyUI come workflow engine immagini: thumbnail editoriale, generazione mockup, restoration archivio.
→ Modelli vision open (Qwen 2.5-VL, LLaVA, MoonDream): tagging automatico immagini, descrizione alt-text, OCR.
→ Queue Redis + worker GPU: job asincroni, retry policy, priorità configurabile (breaking news vs archivio).
→ API REST custom di front-end al CMS: webhook su upload, status tracking, callback al ready.
→ Storage S3-compatible: input/output separati, retention configurabile, niente file mai usciti dal perimetro UE.

Setup di riferimento

Setup di riferimento: 1 GPU server, ~30h video/giorno trascritti.

1 GPU server dedicato (NVIDIA L40S o equivalente), Whisper large-v3 in batch, ComfyUI per immagini, tagging vision notturno. ~30 ore di video trascritte/giorno con diarizzazione, ~5k immagini taggate in batch notturno. Costo fisso, no token-based pricing.

~30h

video/giorno

~5k

immagini/notte

L40S

GPU

Quando lo usiamo

In che casi lo usiamo.

Trascrizione interviste e podcast

Audio in italiano trascritto e diarizzato per il giornalista, tempi taglio articolo dimezzati.
Subtitle automatici video

Generazione SRT/VTT per video editoriali, allineamento timeline, traduzione opzionale multi-lingua.
Tagging archivio immagini

Migliaia di immagini storiche, riconoscimento soggetti/luoghi, ricerca semantica per redazione.
Alt-text accessibilità

Generazione descrizioni alt-text per accessibilità WCAG, su archivio già pubblicato.
Thumbnail editoriale

Generazione thumb varianti formato (16:9, 1:1, 9:16) per CMS multi-piattaforma e social.
Moderation pre-pubblicazione

Detection NSFW/violenza su user-generated content prima del go-live editoriale.

Audit gratuito

Parliamo del tuo stack,
gratis e senza impegno.

30 minuti con un nostro tecnico Romiltec. Capiamo insieme se Tech Performance fa al caso tuo, e se non è così te lo diciamo subito. Niente vendita aggressiva, niente preventivo a scatola chiusa.

Prenota una call cal.com/romiltec/tech-performance · call 30 min

Trascrizione e visione AI on-premise. Per redazioni e broadcaster.

Modelli aperti, GPU dedicate, pipeline orchestrate.

Setup di riferimento: 1 GPU server, ~30h video/giorno trascritti.

In che casi lo usiamo.

Parliamo del tuo stack,gratis e senza impegno.

Trascrizione e visione AI on-premise.
Per redazioni e broadcaster.

Parliamo del tuo stack,
gratis e senza impegno.