Mettre un nom sur chaque voix, sans que rien ne quitte votre infrastructure.

Echo transcrit vos réunions, les résume et identifie les intervenants. Toute l'IA s'appuie sur des modèles que vous choisissez et hébergez où vous voulez : aucune donnée ne transite par un service tiers. Et pour reconnaître qui parle, Echo ne dépend d'aucune API de visioconférence : tout est déduit de l'enregistrement lui-même, à la voix comme à l'image.

Fusion multimodale voix + vision + transcript Affectation globale par algorithme hongrois Confidentialité par conception

réunion · identification en direct

00:03 SPEAKER_00Alice Martin Bonjour à toutes et tous, on démarre ?

00:11 SPEAKER_01Bob Smith Oui, merci Alice. Point budget d'abord.

00:24 SPEAKER_00Alice Martin Parfait. Chen, tu nous fais la synthèse ?

00:31 SPEAKER_02Chen Wei Avec plaisir, voici les chiffres du trimestre.

3 voix reconnues

Le parti pris

Viser l'état de l'art, sans jamais laisser fuir vos données.

La plupart des outils imposent un compromis : pour transcrire correctement et attribuer chaque prise de parole, il faudrait confier ses réunions à un service tiers. Echo refuse ce marché. Trois partis pris l'en distinguent.

Ambition

Pourquoi viser l'état de l'art

Un compte rendu n'a de valeur que si l'on peut s'y fier. Un nom approximatif, un échange mal attribué ou un résumé flou rendent le document inexploitable pour décider, acter ou archiver. Echo vise donc le meilleur niveau possible.

Transcription fidèle, au niveau des meilleurs modèles disponibles
Intervenants identifiés rigoureusement, jamais devinés
Briques interchangeables, pour suivre les meilleurs modèles sans réécrire l'outil

Souveraineté

Vos données ne sortent jamais

Chaque intégration suit la convention OpenAI-compatible : une URL de base, un nom de modèle, une clé optionnelle. Pointez Echo vers vos serveurs et le flux complet (audio, transcript, noms) reste sur votre réseau.

Aucune télémétrie, aucun appel sortant non configuré
Le média uploadé est supprimé dès la fin du traitement
Les résultats sont purgés après une rétention paramétrable

Indépendance

Inféré du seul enregistrement

Pas de connecteur propriétaire à maintenir, pas de permission d'API à quémander. Echo regarde et écoute la réunion comme un humain le ferait : il lit les vignettes à l'écran et suit les voix.

Fonctionne sur n'importe quel enregistrement (Teams, Meet, Zoom, fichier brut)
Robuste aux vues mosaïque, intervenant et partage d'écran
Survit aux changements d'API des plateformes

Le parcours technique

Ce qui arrive à votre enregistrement, étape par étape.

Du fichier déposé jusqu'au compte rendu livré, le traitement enchaîne huit phases. Les premières sont communes à toute transcription ; les suivantes font l'originalité d'Echo : remonter aux intervenants par la voix, l'image et le texte.

Audio

Extraction de la piste audio

Si l'entrée est une vidéo, ffmpeg en extrait l'audio, normalisé en mono 16 kHz (loudness EBU R128).

Modèle audio

Transcription et diarisation

Un modèle type Whisper renvoie le texte horodaté et, si disponible, des étiquettes de diarisation par locuteur.

Voix

Empreintes vocales

Un modèle ECAPA-TDNN regroupe par la voix les étiquettes d'une même personne, que la diarisation a fragmentée.

Image

Lecture de l'écran

Sur les vidéos, un Vision LLM lit les vignettes, leurs noms et le locuteur actif. Utilisation d'un OCR en fallback.

Texte

Analyse du transcript

Un LLM texte repère présentations et mentions directes, et ne retient que les associations certaines.

Décision

Affectation des noms

Voix, image et texte forment une matrice de scores résolue par l'algorithme hongrois.

Compte rendu

Résumé (optionnel)

La réunion est découpée sur les silences, résumée par blocs, puis recomposée en compte rendu structuré.

Sortie

Livraison et nettoyage

Téléchargement, e-mail ou webhook. Le média est supprimé, les résultats purgés après rétention.

Décision · étape 06 illustrée

De trois flux de preuve à une affectation honnête

Voix

propagation par cluster

Vision

vignette active à l'écran

Transcript

présentations, mentions

	Alice Martin	Bob Smith	Chen Wei
VOICE_00	8.4	0.6	0.0
VOICE_01	1.1	6.9	0.5
VOICE_02	0.0	1.2	1.3

VOICE_00 vers Alice Martin, VOICE_01 vers Bob Smith : preuves convergentes, confiance élevée VOICE_02 : meilleur score 1.3, sous le seuil, reste anonyme

Stack technique

La configuration préconisée.

Chaque brique parle le protocole OpenAI-compatible : vous gardez la main sur les modèles et leur hébergement. Voici la stack que nous recommandons, celle qui sous-tend Echo.

Transcription

Serveur Whisper compatible OpenAI (whisper-large-v3)

Vision

LLM multimodal type Qwen3-VL, qui lit les noms et le locuteur actif à l'écran

Texte

LLM choisi selon la langue (par ex. Mistral Small 3.2 (24B)), pour la résolution des intervenants et le résumé

Voix

Embeddings ECAPA-TDNN via SpeechBrain (spkrec-ecapa-voxceleb)

OCR · repli

OCR local (EasyOCR), exécuté sur GPU ou CPU au choix, en repli du modèle de vision

# une URL de base, un modèle, une clé optionnelle

POST {base}/audio/transcriptions

POST {base}/chat/completions // résumé, vision, noms

# observabilité intégrée

GET /metrics // file, traités, échecs, durées

GET /health

Mettre un nom sur chaque voix, sans que rien ne quitte votre infrastructure.

Viser l'état de l'art, sans jamais laisser fuir vos données.

Pourquoi viser l'état de l'art

Vos données ne sortent jamais

Inféré du seul enregistrement

Ce qui arrive à votre enregistrement, étape par étape.

Extraction de la piste audio

Transcription et diarisation

Empreintes vocales

Lecture de l'écran

Analyse du transcript

Affectation des noms

Résumé (optionnel)

Livraison et nettoyage

De trois flux de preuve à une affectation honnête

La configuration préconisée.

Envie d'en savoir plus ?