Projet RAIVES (Automatic Retrieval of Audio & Speech Information, projet CNRS, 2002-2003)

 
Les documents sonores font à l'heure actuelle partie de ce que l'on appelle le ``web invisible''. Le projet RAIVES (Recherche Automatique d'Informations Verbales Et Sonores) , en partenariat avec le Laboratoire lorrain de recherche en informatique et ses applications (INRIA - UMR 7503), le Laboratoire Dynamique du Langage (UMR 5596 CNRS - Université Lumière Lyon 2) et l'IRIT, a pour objectif une structuration de ces documents sonores, en particulier radiophoniques, à partir de l'indexation par leur contenu, de manière à leur donner un sens du point de vue d'un utilisateur du web, et de produire à partir de ces documents des connaissances exploitables. Ce contenu pourrait alors être accessible aux moteurs de recherche et devenir disponible aux internautes au même titre que le contenu textuel de pages HTML. Ce projet contribue au développement d'une nouvelle génération de moteurs de recherche, capables d'accéder aussi à des documents sonores, et pourquoi pas visuels, par leur contenu. Les méthodes sont mises au point sur des données radiophoniques classiques avant d'être adaptées à des données radiophoniques provenant d'Internet. L'ensemble suivant de descripteurs du contenu d'un document radiophonique sont considérés : distinction des segments de parole/musique, détection de ``sons clés'', identification de la langue, découpage en locuteurs associé à une éventuelle identification de ces locuteurs, détection de mots clés et identification de thèmes. Ce projet a permis à l'équipe d'expérimenter la complémentarité des recherches en indexation et en identification des langues. L'algorithme mis au point permettait tout d'abord l'extraction des zones de parole du reste de la bande sonore. Sur les zones de parole, sont effectués différents traitements tels que la segmentation et le suivi des locuteurs, l'identification de la langue, la détection de mots clés.

Projet SAMSIT (Système d'Aide à la Maîtrise de la Sécurité Individuelle dans les Transports publics, ANR PREDIT, 2004-2006)

 
Le projet SAMSIT (Système d'Aide à la Maîtrise de la Sécurité Individuelle dans les Transports publics), en partenariat avec ALSTOM, l'INRIA de Sophia-Antipolis, la SNCF, le CEA et l'INRETS, a pour objectif d'aider à la détection de situations critiques dans les transports en commun. Le but de ce projet est de créer un démonstrateur composé des éléments suivants :
  • un module serveur de données audio/vidéo brutes, pour la gestion du stockage audio et vidéo, l'envoi des séquences audio et vidéo aux modules de traitement,
  • un module de traitement de séquences vidéo, il a pour objectif de détecter et de suivre les personnes présentes dans la scène sur chaque caméra,
  • un module de traitement de séquences audio, qui réalise l'analyse du signal sonore afin de détecter des événements audio d'intérêt,
  • le module d'interprétation des comportements effectue l'analyse du comportement des personnes présentes dans la scène et la reconnaissance en temps réel de scénarii prédéfinis,
  • le module d'interfaçage avec l'opérateur (interface homme/machine, IHM) reçoit les informations en provenance du système embarqué et les présente à l'opérateur de surveillance. Ces informations doivent lui permettre de prendre les décisions d'interventions requises par la (ou les) situation(s) survenue(s) dans le train.
Une des principales difficultés rencontrée lors de la vidéo-surveillance est le problème de l'occultation de personnes. Ce problème est souvent rencontré dans des environnements confinés tels que les transports en commun. L'analyse audio n'est pas soumise à de telles contraintes et permet de compléter voire de suppléer les analyses vidéo. Ce projet m'a permis de réaliser intégralement la chaîne de traitement audio, depuis la réception des données jusqu'au résultat final sous la forme d'un fichier XML transmis au module d'interprétation. Les travaux menés par l'ensemble des partenaires de ce projet sont résumés dans une publication dans un congrès international [9].

Projet EVAS (Etude de système de Vidéo et AudioSurveillance Sans Fil, ANR PREDIT, 2005-2007

 
Les actes de malveillance et les agressions sur les réseaux de transports publics ont augmenté ces dernières années. L'utilisation de l'audio et de la vidéo couvre deux sens de perception d'actes d'insécurité. La détection et la combinaison de ces deux moyens de perception permettent d'affiner la qualification d'événements à risque afin de les confirmer et de les localiser pour intervention. Cette gestion au plus près permet d'alerter sereinement les opérateurs de sécurité sur la décision la plus juste pour toute intervention. Le projet EVAS (Étude de système de Vidéo et Audio Surveillance Sans fil) doit permettre de spécifier et développer les nouveaux éléments fonctionnels d'un système d'aide à la vidéo et à l'audio surveillance sans fil dans les Transports Publics; (flotte d'autobus de l'opérateur TRANSPOLE - Agglomération Lilloise), sur les objectifs suivants :
  • Analyser des enregistrements vidéo et sonores massifs sur autobus urbains afin de définir, avec les équipes de sécurité les besoins nouveaux en matière de surveillance sonores et visuelles de situations à risques pour la sécurité passagers à bord d'autobus en milieu urbain.
  • Tester et valider la mise en \oeuvre à bord d'autobus urbains de diagnostics sonores automatiques déclencheurs d'alertes sur des risques sécurité passager.
  • Tester et valider la faisabilité de levée de doute sur alarme par communication hertzienne sans fil entre capteurs d'audio/vidéo surveillance et un poste central, en mode fortement comprimé.
L'ensemble de ces objectifs permet de démontrer la faisabilité d'un système complet de surveillance avancé avec des possibilités de gestion de crises ainsi que la faisabilité d'un déploiement efficace sur une flotte d'autobus en milieu urbain.

Projet BOSS (On Board Wireless Secured Video Surveillance, EUREKA Celtic inititiative, 2006-2008)

 
Le projet BOSS (Partenaires : Thalès, Alstom, SNCF, INRETS, UPMC, UCL - Belgique, Barco-Silex - Belgique, Telefonica - Espagne, Arteixo Telecom - Espagne, INECO - Espagne, BME - Hongrie) a pour objectif de développer un système de communications innovant et rationnel adapté à la transmission de communications à haut débit entre des véhicules de transport public et les postes fixes. Ce système se propose de répondre aux besoins grandissants des opérateurs de transports publics pour fournir des fonctionnalités et des services nouveaux ou élargis à bord des trains, comme par exemple les diagnostic à distance et la maintenance prédictive. Plus particulièrement, les concepts proposés par le projet BOSS seront évalués et démontrés dans le cadre d'un transport ferroviaire. En effet, on constate que les problèmes de sécurité, traditionnellement couverts dans les gares au moyen de systèmes de vidéo surveillance, font défaut à l'intérieur même des trains, du fait de l'absence de solutions de transmissions efficaces du train vers un centre de supervision. De même, les opérations de maintenance et de diagnostic sont menées après l'arrivée en gare des trains, ou lors d'arrêts de maintenance, ce qui empêche la mise en place d'actions proactives. L'amélioration de la qualité et du nombre de services de sécurité dans un contexte de transport ferroviaire étant fort gourmande en terme de bande passante, cette application est donc un bon cas d'usage pour la validation des solutions proposées dans le cadre du projet BOSS. Le projet BOSS se propose d'offrir avec sa passerelle IP la possibilité pour le train en mouvement d'informer le centre de contrôle sur tout élément de sécurité et de sûreté (informations d'exploitation), et ainsi améliorer grandement la sécurité des utilisateurs, mais aussi de leur offrir par la même méthode des services divers tels que la vidéo à la demande, des informations à bord et des offres de télécommunications. La validation de cette approche se fera au moyen de tests sur de vrais trains. Le projet BOSS vise à décliner notamment les fonctions d'analyse vidéo développées dans les projets PRISMATICA et CROMATICA dans une enceinte transport de type train. Ce transfert est complexe car il doit tenir compte des spécificités liées à un environnement mobile : changement de luminosité, nombreuses occultations etc. Les recherches en vidéo s'orientent plus spécifiquement sur les fonctions de comptage d'individus entrant et sortant d'un véhicule par stéréovision couleur dense et de suivi d'individus entrant et sortant d'un véhicule par reconnaissance de signature couleur. Ces travaux n'ont été menés dans aucun projet auparavant et ces deux fonctions constituent une demande forte des opérateurs de transport. En parallèle, les traitements audio proposés dans le projet BOSS visent à analyser automatiquement les conversations entre plusieurs personnes à partir de la description et la caractérisation automatique de l'intonation des voix d'un groupe d'individus. Il s'agit de bien identifier les signes précurseurs d'une altercation à risques entre individus afin d'anticiper une potentielle agression et de diminuer le risque d'apparition d'un sentiment d'insécurité chez les passagers. Les partenaires du projet BOSS sont : Thalès communication, Alstom Transport, SNCF, Université Pierre et Marie Curie, Multitel Asbl, BARCO-SILEX, Telefonica Investigation y Desarrollo, ArteixoTelecom, Ingenieria y Economia del Transporte (INECO), Budapest University of Technology and Economics (BME), EGROUP-Services Ltd.

Projet SURTRAIN (SURveillance des Transports par Analyse de l'Image et du soN, ANR PREDIT, 2007-2009)

 
L'objectif du projet SURTRAIN (Partenaires : MARTEC, SNCF, CEA-LIST, INRETS) est le développement d'une plate-forme de surveillance basée sur l'image et le son capable d'aider le travail des opérateurs chargés de la surveillance grâce à une continuité de service entre les équipements embarqués et les infrastructures au sol. Tout cela, de manière à améliorer la sécurité des passagers et la protection des infrastructures. L'innovation principale du projet est le développement et la mise en \oeuvre conjointe d'algorithmes d'analyse d'image et du son en temps réel en environnement mobile et permettant la détection de situations à risque pour les passagers et la mise en \oeuvre rapide des mesures conservatoires par un opérateur présent dans la boucle et supervisant le système de surveillance. La plate-forme embarquée présente une architecture à ressources distribuées entre les capteurs vidéo et audio, les unités d'analyse, celles de stockage et le serveur d'application. Elle s'appuie sur un réseau bord de communication haut débit adapté aux contraintes de l'environnement. Une passerelle de radiocommunication Bord/Sol est mise en \oeuvre permettant notamment un travail coopératif entre les ressources embarquées et celles en gare.

Projet Quaero (Oséo, 2008-2013)

 
  • Financement : Oséo
  • Participants: INIST, LIMSI, IMMI, INRIA, MIG-INRA, Télécom Paris, IRCAM, IRIT, LIPN, RWTH (Aix la Chapelle), Institut technologique de Karlsruhe, Université Joseph Fourier, Technicolor, Exalead, France Télécom, Yacast, Jouve, BnF, DGA, LNE, Bertin, LTU, Synapse, Vecsys, Vocapia Research, A2iA, Easy Life Mobile, Itesoft, Movea, Systran.
  • Participation aux tâches WP5.2 (reconnaissance et segmentation en locuteurs), WP5.3 (identification des langues) et WP6.1 (Segmentation audio, analyse et classification)
  • Résumé :
    Quaero est un programme fédérateur de recherche et d'innovation industrielle sur les technologies d'analyse automatique, de classification et d'utilisation de documents multimédias et multilingues. Les partenaires collaborent sur des sujets de recherche et de réalisation de démonstrateurs et prototypes avancés d'applications et services innovants dans le domaine de l'accès à l'information de documents multimédia tels que le langage parlé, les images, la vidéo et la musique. Le programme vise à créer une interaction forte entre partenaires industriels et organismes de recherche. Les démonstrateurs et prototypes développés par les industriels orientent tout au long du programme les recherches et développements. Ces démonstrateurs permettent d'évaluer la pertinence et la maturité des résultats dans la perspective d'une exploitation industrielle profitable.

Projet Étude de la voix chantée en vue de la transcription automatique, Action Incitative du LIMSI, 2009

 
  • Financement : interne au LIMSI
  • Participants : interne au LIMSI
  • Rôle : porteur du projet
  • Résumé: Le chant combine parole et musique. Nous pouvons envisager de transcrire automatiquement les paroles contenues dans le chant. Quels défis pose alors la voix chantée aux systèmes de transcription automatique? Cette question est très peu étudiée à l'heure actuelle. À travers la transcription automatique du chant, nous ouvrons un domaine d'étude très riche permettant l'exploration d'une variété de questions plus ou moins fondamentales, comme la notion de phonème en voix chantée, la qualité de voix, la technique vocale, les paramètres acoustiques adaptés jusqu'à la prosodie et la traduction de prosodie par comparaison de chants multilingues.

Projet PADE (Prosodie : Accents, Dialectes, Expressivité, ANR Jeunes Chercheurs, 2011-2015

 
  • Financement : Programme Jeunes Chercheurs de l'ANR
  • Participants : LIMSI, GIPSA-Lab, Showa Music University (Japon), Universidade Federal do Rio de Janeiro (Brésil), LaBRI, CLLE-ERSSàB
  • Responsable de la tâche 2 : Distances prosodiques
  • Résumé :
    Dans le cadre de la description et la caractérisation de la variabilité prosodique, nous cherchons à évaluer un ensemble de mesures de distances prosodiques destinées à la comparaison d'énoncés. La variabilité prosodique est comprise dans une approche fonctionnelle incluant les réalisations linguistiques (la démarcation et de la hiérarchisation des énoncés et leurs variations diatopiques sur l'espace dialectal gallo-roman) autant que les caractéristiques paralinguistiques (approche des styles en diachronie, des accents régionaux et étrangers). En outre, l'importante variabilité liée aux transferts prosodiques que peuvent induire des contacts entre langue maternelle et langue seconde, ou la cohabitation des langues standard avec les variétés régionales, voir encore la variabilité interculturelle liée aux affects sociaux doit aussi pouvoir être envisagée. On le voit, ces distances devront être à même de rendre compte de situations et de contraintes très diverses. Mais parce qu'il s'agit d'un seul et même objet, médiatisé dans le même matériau acoustique voir multimodal, une approche holistique de la question peut permettre une meilleures compréhension de cette variation. L'évaluation perceptive de ces distances sera donc un point crucial et sans doute le meilleur garant de leur utilité pour chacune des fonctions abordées. Pour cela, les paradigmes d'évaluation devront être affinés afin de correspondre au mieux aux tâches perceptives. Il sera aussi important de confronter les résultats obtenus grâce à ces mesures de distances aux descriptions de la littérature. Ainsi les modèles prosodiques déjà largement documentés serviront aussi de référence objective à la pertinence des mesures. D'une autre manière, les atlas dialectaux existants pourront fournir une référence en terme de proximité inter-dialectale. Il faudra faire progresser les méthodes d'analyse des paramètres physiques de la prosodie afin de disposer de données mesurées fiables. En effet, ce préalable à toute stylisation ou modélisation des variations prosodiques connaît encore de nombreux défaut. Mis à part l'extraction de F0 et d'intensité, pour lesquels les procédures existantes sont fiables, les paramètres prosodiques posent tous des difficultés spécifiques. Le plus complexe semble être la mesure de la qualité de voix, pour laquelle des travaux menés au laboratoire devraient permettre l'extraction d'un certain nombre de paramètres à prendre en compte dans les distances prosodiques puis à évaluer grâce à une procédure de synthèse et d'évaluation perceptive comparée. Un autre défi sera posé par l'intégration de paramètres multimodaux à des distances prosodiques : la variabilité des dynamiques et des échelles de mesures de ces paramètres, ainsi que leur relative importance perceptive et leur temporalité devront pouvoir être prises en compte pour obtenir des résultats convainquant. L'utilisation de méthodes d'apprentissage automatique permettrait de pondérer l'importance de chacune des caractéristiques, de rendre cette tâche plus aisée, et de donner à cette approche holistique toute sa raison d'être. Les principales avancées scientifiques attendues de ce projet tournent autour de la mise en place de mesures étalonnées. En particulier pour la modélisation prosodique, ce projet devrait permettre l'amélioration de la mise en place d'atlas dialectaux prosodiques ; une meilleure description de l'évolution diachronique du style journalistique ; la possibilité d'une description acoustique et multimodale des affects sociaux dans leur temporalité. Mais au delà de retombées de ces mesures, nous nous proposons de mieux décrire les paramètres acoustiques de la qualité de voix, ce qui constitue l'une des principales difficultés à la compréhension des affects. Enfin, il s'agira de décrire les rapports entre modalités audio et vidéo pour l'expressivité prosodique. Une meilleure compréhension des cooccurrences intermodales ainsi que des liens entre les variations prosodiques et la structure linguistique des énoncés, rendue possible par les mesures, pourraient faire avancer la compréhension de la différence d'encodage entre les attitudes et les émotions. La réalisation de ce projet demande de pouvoir répondre à un ensemble de questions fondamentales. La première d'entre elles concerne les distances prosodiques : il faudra formaliser, sur la base de méthodes reconnues comme par exemple la programmation dynamique, la prise en compte d'informations de différentes granularités temporelles, natures mathématiques et dans les modalités audio et vidéo. Afin de calculer ces paramètres acoustiques et visuels, il faudra résoudre un certain nombre de questions, en particulier concernant la validité des paramètres de qualité de voix obtenus grâce aux processus d'inversion acoustique.

Projet MexCulture (Indexation de collections multimédia pour la préservation et la dissémination de la culture mexicaine, ANR Blanc International, 2012-2015)

 
  • Financement : ANR
  • Partenaires : CEDRIC, INA, LaBRI, IPN - Mexique, UNAM - Mexique.
  • Participation à la tâche 2 : Description du contenu audio/parole.
  • Résumé :
    Étant donné le rôle des contenus multimédia liés à l'héritage culturel dans la promotion de la diversité culturelle, il est très important de pouvoir rendre ces contenus facilement accessibles à un large public. De grands volumes de tels contenus doivent être indexés et il faut donner aux utilisateurs la possibilité de naviguer dans les collections, de rechercher et de visualiser le contenu d'archives multimédia. Cela exige l'indexation automatique du contenu. Le projet MEX-CULTURE vise à : 1. Concevoir, dans le cadre de recherches en collaboration, de nouvelles méthodes automatiques pour le traitement et l'indexation à grande échelle de contenus multimédia. Ces méthodes concernent l'indexation de la vidéo compressée, l'indexation audio en employant des descripteurs résultant de la reconnaissance de la parole et de l'identification du locuteur, l'indexation multimédia (image, vidéo, audio et parole) et les méthodes de recherche qui passent à l'échelle. Les techniques résultantes seront mises en \oeuvre sur une plate-forme ouverte commune. 2. Promouvoir la préservation et la dissémination de la culture mexicaine, en appliquant les méthodes mises au point dans le projet à la grande base de FONOTECA NACIONAL (Archive Sonore Nationale du Mexique) et la collection vidéo TVUNAM (plus de 100,000 heures de vidéo) de l'UNAM (Université Nationale Autonome de Mexico). MEX-CULTURE est le premier projet d'indexation multimédia présentant ces caractéristiques. Ce projet sera mené par cinq institutions, trois françaises (CEDRIC-CNAM, LABRI, INA) et deux mexicaines (UNAM, IPN), et a comme point de départ une coopération de recherche existante (accord cadre) entre l'Université Bordeaux 1 et l'UNAM. Les activités de recherche dans le cadre de ce projet visent à apporter des contributions significatives nouvelles dans les trois domaines suivants : la description des contenus, les résumés de contenus et le passage à l'échelle de la recherche par le contenu. La décomposition en tâches reflète les objectifs scientifiques et encourage la collaboration entre partenaires mexicains et français. La recherche sur la description du contenu se retrouve dans deux tâches distinctes, une par type de contenu (vidéo et audio). Les descriptions résultantes de la vidéo et de l'audio sont néanmoins employées conjointement dans une tâche qui a pour objectif la création de résumés et la recherche par le contenu. L'objectif de la tâche 1 est d'extraire des descriptions locales et globales de flux compressés JPEG2000 (qui s'impose dans le monde professionnel comme le standard de préservation du patrimoine culturel sous forme numérique), mais aussi à différents niveaux de résolution spatiale des contenus. La tâche 2 s'intéresse à la segmentation du signal audio, à la description et à la classification d'évènements sonores, ainsi qu'à la reconnaissance de la parole (Mexique). Les recherches concernant la création de résumés de contenus et le passage à l'échelle de la recherche seront réalisées dans la tâche 3. L'objectif final des résumés est de faciliter la navigation et la recherche. Les résumés, comme la recherche par le contenu (suivant plusieurs paradigmes), exploitent conjointement les descriptions de la vidéo et de l'audio. Toutes les activités d'intégration logicielle sont regroupées dans la tâche 4, qui produit une plate-forme expérimentale employée dans l'évaluation finale. L'INA a un apport significatif dans cette évaluation par l'implication de ses documentalistes expérimentés, qui interviendront aussi sur les pratiques de documentation. Cela doit également permettre d'évaluer l'intérêt pour les documentalistes de l'INA des méthodes mises au point dans ce projet. Ce projet doit permettre d'initier une collaboration à long terme entre la France et le Mexique, impliquant potentiellement à l'avenir d'autres acteurs comme l'IRCAM sur des problématiques larges concernant la restauration, la préservation et l'indexation d'archives multimédia.

Projet DIADEMS (Description, Indexation, Accès aux Documents Ethnomusicologiques et Sonores, ANR CONTINT, 2012-2015)

 
  • Financement : ANR
  • Partenaires : IRIT, LESC, Parisson, LaBRI, MNHN, LAM-IJLRA
  • Implication :
    • tâche 2 : Détection de segments sonores homogènes Participation à la sous-tâche 2.2 ``Détection Parole/Musique/Autre'', responsable de la sous-tâche 2.3 ``Détection du chant'', participation à la sous-tâche 2.4 ``Détection de bruits d'intérêt''.
    • tâche 3 ``Structuration (analyse du contenu)'' Responsable de la tâche, participation aux sous-tâches 3.1 ``Structuration en tours de parole et tours de chant'', 3.2 ``Similarité musicale'', 3.3 ``Identification/classification instrumentale''.
  • Résumé :
    Le Laboratoire d'Ethnologie et de Sociologie Comparative (LESC) comprenant le Centre de Recherche en Ethnomusicologie (CREM) et le centre d'Enseignement et de Recherche en Ethnologie Amérindienne (EREA) ainsi que le Laboratoire d'Eco-anthropologie du Muséum National d'Histoire Naturelle (MNHN) sont confrontés à la nécessité d'indexer les fonds sonores qu'ils gèrent et de faire un repérage des contenus, travail long, fastidieux et coûteux. Lors de l'Ecole d'Été interdisciplinaire Sciences et Voix 2010 organisée par le CNRS, une convergence d'intérêts s'est dégagée entre les acousticiens, les ethnomusicologues et les informaticiens : il existe aujourd'hui des outils d'analyse avancés du son développés par les spécialistes en indexation qui permettent de faciliter le repérage, l'accès et l'indexation des contenus. Le contexte du projet est l'indexation et l'amélioration de l'accès aux fonds d'archives sonores du LESC : le fonds du CREM et celui d'ethnolinguistique de l'EREA (« chanté-parlé » Maya, ainsi que celui du MNHN (musique traditionnelle africaine). Il s'inscrit dans la continuité d'une réflexion entreprise en 2007 pour l'accès aux données sonores de la Recherche : aucune application n'existant en « open source » sur le marché, le CREM-LESC, le LAM et la Phonothèque de la MMSH d'Aix-en Provence ont étudié la conception d'un outil innovant et collaboratif qui répond à des besoins « métier » liés à la temporalité du document, tout en étant adapté à des exigences du secteur de la recherche. Avec le soutien financier du Très Grand Equipement (TGE) ADONIS du CNRS et du Ministère de la Culture, la plateforme Telemeta développée par la société PARISSON a été mise en ligne en mai 2011 : http://archives.crem-cnrs.fr . Sur cette plateforme, des outils d'analyse élémentaires de traitement de signal sont d'ores et déjà disponibles. Cependant, il est nécessaire de disposer d'un ensemble d'outils avancés et innovants pour une aide à l'indexation automatique ou semi-automatique de ces données sonores, issues d'enregistrements parfois longs, au contenu très hétérogène et d'une qualité variée. L'objectif du projet DIADEMS est de fournir certains des outils, de les intégrer dans Telemeta, en répondant aux besoins des usagers. Il s'en suit une complémentarité des objectifs scientifiques des différents partenaires : Les fournisseurs de technologies, l'IRIT, le LIMSI, le LaBRI et le LAM auront à : Fournir des technologies existantes telles que la détection de parole, de musique, la structuration en locuteurs. Ces outils visent à extraire des segments homogènes d'intérêt pour l'usager. Ces systèmes auront à faire face à la diversité des bases qu'il est proposé d'étudier dans ce projet ; leur hétérogénéité est liée aux conditions d'enregistrement, au genre et à la nature des documents, à leur origine géographique. Il faudra adapter ces systèmes dits « état de l'art » aux besoins des usagers. Proposer des outils innovants d'exploration du contenu de segments homogènes. Les travaux sur l'opposition voix parlée-déclamée-chantée, le chant, les tours de chant, la recherche de similarité musicale ne sont pas matures. Un véritable travail de recherche reste à faire et avoir à sa disposition des musicologues et des ethnomusicologues est un atout positif. Les ethnomusicologues, ethnolinguistes, acousticiens spécialistes de la voix et les documentalistes spécialisés vont jouer un rôle important dans le projet en tant que futurs utilisateurs des outils d'indexation : Les documentalistes doivent s'approprier les outils et apporter leur expérience afin d'adapter ces outils à leur besoin en indexation. Un échange important doit se réaliser entre celui qui fournit l'outil, celui qui l'intègre et celui qui l'utilise. L'effort doit être porté sur la visualisation des résultats avec pour fin une aide forte à l'indexation en la rendant de fait semi-automatique Pour l'ethnomusicologue et le musicologue, l'objectif va au-delà de l'indexation. Il s'agit au travers d'aller et retour entre lui et les concepteurs de technologies de cibler les outils pertinents d'extraction d'information.