TECHPERFORMANCE
AI · Media production

Trascrizione e visione AI on-premise.
Per redazioni e broadcaster.

Whisper per la trascrizione audio/video, ComfyUI per il workflow immagini, modelli vision (Qwen 2.5-VL, LLaVA) per tagging automatico. Tutto su GPU dedicate UE, batch notturno integrato nel CMS, niente upload verso vendor cloud terzi.

Stack di riferimento

Modelli aperti, GPU dedicate, pipeline orchestrate.

  • Whisper large-v3 per trascrizione e diarizzazione: italiano, lingue UE, accuracy comparable a vendor cloud.
  • ComfyUI come workflow engine immagini: thumbnail editoriale, generazione mockup, restoration archivio.
  • Modelli vision open (Qwen 2.5-VL, LLaVA, MoonDream): tagging automatico immagini, descrizione alt-text, OCR.
  • Queue Redis + worker GPU: job asincroni, retry policy, priorità configurabile (breaking news vs archivio).
  • API REST custom di front-end al CMS: webhook su upload, status tracking, callback al ready.
  • Storage S3-compatible: input/output separati, retention configurabile, niente file mai usciti dal perimetro UE.
Setup di riferimento

Setup di riferimento: 1 GPU server, ~30h video/giorno trascritti.

1 GPU server dedicato (NVIDIA L40S o equivalente), Whisper large-v3 in batch, ComfyUI per immagini, tagging vision notturno. ~30 ore di video trascritte/giorno con diarizzazione, ~5k immagini taggate in batch notturno. Costo fisso, no token-based pricing.

~30h
video/giorno
~5k
immagini/notte
L40S
GPU
Quando lo usiamo

In che casi lo usiamo.

Audit gratuito

Parliamo del tuo stack,
gratis e senza impegno.

30 minuti con un nostro tecnico Romiltec. Capiamo insieme se Tech Performance fa al caso tuo, e se non è così te lo diciamo subito. Niente vendita aggressiva, niente preventivo a scatola chiusa.

Prenota una call cal.com/romiltec/tech-performance · call 30 min