Main Article Content

Station hybride (DSP/FPGA) pour un système rapide de reconnaissance automatique de la parole Hybrid station (DSP/FPGA) for fast automatic speech recognition system


Hamza Atoui
Mouhamed Boughazi
Mouhamed Fezari

Abstract

La reconnaissance automatique de la parole (RAP) a fait l’objet de plusieurs investigations depuis le début des années 50. La nature complexe de la parole oblige, l’auditeur humain à utiliser plusieurs niveaux de traitement pour ce domaine. Le 1er niveau est la détermination des caractéristiques du signal de la parole lui-même, c'est-à-dire l’analyse acoustique. Les niveaux phonétique, lexical et sémantique, etc. c’est dire combien chez l’être humain la reconnaissance et la compréhension de la parole sont fortement liées. Le but du présent travail est la réalisation d’un système embarqué (DSP/FPGA) pour le domaine de RAP fonctionnant en temps réel. Pour atteindre ce but, nous avons matérialisé quelques parties du système RAP implémenté sur DSP comme le filtre LMS et le coeur de la distance DTW (accélérateurs matériels) sur FPGA. Cette implantation nous permet d’accélérer le processus de la reconnaissance donc une augmentation considérable du dictionnaire de références.


The automatic speech recognition (ASR) has been the subject of several research studies since the early 50s. And because of the complex nature of speech, human listener uses several levels of treatment for this domain. The first level is the determination of the speech signal characteristics itself, i.e the acoustic analysis. Then comes the phonetics, lexical and semantic levels,etc. This shows how human’s recognition and speech understanding are strongly related. The purpose of this work is to design an embedded ASR system based on (DSP/FPGA) functioning/operating in real time. To achieve this goal, we have materialized and implemented some parts of the ASR system on DSP and other parts such as the LMS filter and the core of the DTW distance (hardware accelerators) on FPGA, this hybrid implementation allows us to accelerate the process of automatic speech recognition, so it can be used on real time applications to help us reach a considerable increase amount of words in the reference dictionary.


Journal Identifiers


eISSN: 2352-9717
print ISSN: 1111-4924
 
empty cookie