ECHO
transcription nouvelle génération auto-hébergé

Mettre un nom sur chaque voix, sans que rien ne quitte votre infrastructure.

Echo transcrit vos réunions, les résume et identifie les intervenants. Toute l'IA s'appuie sur des modèles que vous choisissez et hébergez où vous voulez : aucune donnée ne transite par un service tiers. Et pour reconnaître qui parle, Echo ne dépend d'aucune API de visioconférence : tout est déduit de l'enregistrement lui-même, à la voix comme à l'image.

Fusion multimodale voix + vision + transcript Affectation globale par algorithme hongrois Confidentialité par conception

Le parti pris

Viser l'état de l'art, sans jamais laisser fuir vos données.

La plupart des outils imposent un compromis : pour transcrire correctement et attribuer chaque prise de parole, il faudrait confier ses réunions à un service tiers. Echo refuse ce marché. Trois partis pris l'en distinguent.

Ambition

Pourquoi viser l'état de l'art

Un compte rendu n'a de valeur que si l'on peut s'y fier. Un nom approximatif, un échange mal attribué ou un résumé flou rendent le document inexploitable pour décider, acter ou archiver. Echo vise donc le meilleur niveau possible.

  • Transcription fidèle, au niveau des meilleurs modèles disponibles
  • Intervenants identifiés rigoureusement, jamais devinés
  • Briques interchangeables, pour suivre les meilleurs modèles sans réécrire l'outil
Souveraineté

Vos données ne sortent jamais

Chaque intégration suit la convention OpenAI-compatible : une URL de base, un nom de modèle, une clé optionnelle. Pointez Echo vers vos serveurs et le flux complet (audio, transcript, noms) reste sur votre réseau.

  • Aucune télémétrie, aucun appel sortant non configuré
  • Le média uploadé est supprimé dès la fin du traitement
  • Les résultats sont purgés après une rétention paramétrable
Indépendance

Inféré du seul enregistrement

Pas de connecteur propriétaire à maintenir, pas de permission d'API à quémander. Echo regarde et écoute la réunion comme un humain le ferait : il lit les vignettes à l'écran et suit les voix.

  • Fonctionne sur n'importe quel enregistrement (Teams, Meet, Zoom, fichier brut)
  • Robuste aux vues mosaïque, intervenant et partage d'écran
  • Survit aux changements d'API des plateformes

Le parcours technique

Ce qui arrive à votre enregistrement, étape par étape.

Du fichier déposé jusqu'au compte rendu livré, le traitement enchaîne huit phases. Les premières sont communes à toute transcription ; les suivantes font l'originalité d'Echo : remonter aux intervenants par la voix, l'image et le texte.

01

Audio

Extraction de la piste audio

Si l'entrée est une vidéo, ffmpeg en extrait l'audio, normalisé en mono 16 kHz (loudness EBU R128).

02

Modèle audio

Transcription et diarisation

Un modèle type Whisper renvoie le texte horodaté et, si disponible, des étiquettes de diarisation par locuteur.

03

Voix

Empreintes vocales

Un modèle ECAPA-TDNN regroupe par la voix les étiquettes d'une même personne, que la diarisation a fragmentée.

04

Image

Lecture de l'écran

Sur les vidéos, un Vision LLM lit les vignettes, leurs noms et le locuteur actif. Utilisation d'un OCR en fallback.

05

Texte

Analyse du transcript

Un LLM texte repère présentations et mentions directes, et ne retient que les associations certaines.

06

Décision

Affectation des noms

Voix, image et texte forment une matrice de scores résolue par l'algorithme hongrois.

07

Compte rendu

Résumé (optionnel)

La réunion est découpée sur les silences, résumée par blocs, puis recomposée en compte rendu structuré.

08

Sortie

Livraison et nettoyage

Téléchargement, e-mail ou webhook. Le média est supprimé, les résultats purgés après rétention.

Décision · étape 06 illustrée

De trois flux de preuve à une affectation honnête

Voix
propagation par cluster
Vision
vignette active à l'écran
Transcript
présentations, mentions
Alice Martin Bob Smith Chen Wei
VOICE_00
8.4
0.6
0.0
VOICE_01
1.1
6.9
0.5
VOICE_02
0.0
1.2
1.3
VOICE_00 vers Alice Martin, VOICE_01 vers Bob Smith : preuves convergentes, confiance élevée VOICE_02 : meilleur score 1.3, sous le seuil, reste anonyme

Stack technique

La configuration préconisée.

Chaque brique parle le protocole OpenAI-compatible : vous gardez la main sur les modèles et leur hébergement. Voici la stack que nous recommandons, celle qui sous-tend Echo.

Transcription
Serveur Whisper compatible OpenAI (whisper-large-v3)
Vision
LLM multimodal type Qwen3-VL, qui lit les noms et le locuteur actif à l'écran
Texte
LLM choisi selon la langue (par ex. Mistral Small 3.2 (24B)), pour la résolution des intervenants et le résumé
Voix
Embeddings ECAPA-TDNN via SpeechBrain (spkrec-ecapa-voxceleb)
OCR · repli
OCR local (EasyOCR), exécuté sur GPU ou CPU au choix, en repli du modèle de vision
# une URL de base, un modèle, une clé optionnelle
POST {base}/audio/transcriptions
POST {base}/chat/completions // résumé, vision, noms
# observabilité intégrée
GET  /metrics // file, traités, échecs, durées
GET  /health

Échangeons

Envie d'en savoir plus ?

Une question, un projet de transcription souveraine, une envie de voir Echo en conditions réelles ? Écrivez-nous, nous vous répondrons.