Echo transcrit vos réunions, les résume et identifie les intervenants. Toute l'IA s'appuie sur des modèles que vous choisissez et hébergez où vous voulez : aucune donnée ne transite par un service tiers. Et pour reconnaître qui parle, Echo ne dépend d'aucune API de visioconférence : tout est déduit de l'enregistrement lui-même, à la voix comme à l'image.
Le parti pris
La plupart des outils imposent un compromis : pour transcrire correctement et attribuer chaque prise de parole, il faudrait confier ses réunions à un service tiers. Echo refuse ce marché. Trois partis pris l'en distinguent.
Un compte rendu n'a de valeur que si l'on peut s'y fier. Un nom approximatif, un échange mal attribué ou un résumé flou rendent le document inexploitable pour décider, acter ou archiver. Echo vise donc le meilleur niveau possible.
Chaque intégration suit la convention OpenAI-compatible : une URL de base, un nom de modèle, une clé optionnelle. Pointez Echo vers vos serveurs et le flux complet (audio, transcript, noms) reste sur votre réseau.
Pas de connecteur propriétaire à maintenir, pas de permission d'API à quémander. Echo regarde et écoute la réunion comme un humain le ferait : il lit les vignettes à l'écran et suit les voix.
Le parcours technique
Du fichier déposé jusqu'au compte rendu livré, le traitement enchaîne huit phases. Les premières sont communes à toute transcription ; les suivantes font l'originalité d'Echo : remonter aux intervenants par la voix, l'image et le texte.
Audio
Si l'entrée est une vidéo, ffmpeg en extrait l'audio, normalisé en mono 16 kHz (loudness EBU R128).
Modèle audio
Un modèle type Whisper renvoie le texte horodaté et, si disponible, des étiquettes de diarisation par locuteur.
Voix
Un modèle ECAPA-TDNN regroupe par la voix les étiquettes d'une même personne, que la diarisation a fragmentée.
Image
Sur les vidéos, un Vision LLM lit les vignettes, leurs noms et le locuteur actif. Utilisation d'un OCR en fallback.
Texte
Un LLM texte repère présentations et mentions directes, et ne retient que les associations certaines.
Décision
Voix, image et texte forment une matrice de scores résolue par l'algorithme hongrois.
Compte rendu
La réunion est découpée sur les silences, résumée par blocs, puis recomposée en compte rendu structuré.
Sortie
Téléchargement, e-mail ou webhook. Le média est supprimé, les résultats purgés après rétention.
Décision · étape 06 illustrée
| Alice Martin | Bob Smith | Chen Wei | |
|---|---|---|---|
| VOICE_00 | 8.4 |
0.6 |
0.0 |
| VOICE_01 | 1.1 |
6.9 |
0.5 |
| VOICE_02 | 0.0 |
1.2 |
1.3 |
Stack technique
Chaque brique parle le protocole OpenAI-compatible : vous gardez la main sur les modèles et leur hébergement. Voici la stack que nous recommandons, celle qui sous-tend Echo.
Échangeons
Une question, un projet de transcription souveraine, une envie de voir Echo en conditions réelles ? Écrivez-nous, nous vous répondrons.