Kévin BAILLY Présentation des choix techniques pour l’installation vidéo
L’objectif de l’installation est de localiser les positions des mains du bébé, d’estimer la direction de son regard et de déterminer la position de la tête de sa mère dans un repère commun à trois dimensions. Cette mesure s’appuie sur l’analyse de vidéos. Ce choix technique est justifié car:
- Il est non intrusif. Contrairement à la plupart des capteurs (capteurs magnétique par exemple) le bébé n’est pas instrumenté. Une interaction libre entre la mère et son bébé est alors préservée.
- Les vidéos sont à la fois utilisées pour les traitements informatiques et pour les analyses cliniques.
- Il est peu onéreux
L’installation vidéo doit être en mesure d’acquérir simultanément les flux provenant de sept caméras. Dans ce document, nous présentons et nous comparons les différentes solutions techniques envisagées. Nous présenterons tout d’abord le placement des caméras. Ensuite, nous aborderons les différents types de caméras et les systèmes d’acquisitions de flux vidéo. Enfin nous présenterons le mode opératoire de la solution retenue et son interfaçage avec l’installation existante.
Figure 1. Shéma de l’installation vidéo.
Nous avons cinq fonctions à remplir :
- Détermination de la position de la tête de la mère
- Détermination de la position de la tête du bébé
- Détermination de l’orientation de la tête du bébé
- Détermination de la position des pupilles par rapport aux coins des yeux
- Détermination de la position des mains
La fonction 1 sera obtenue par localisation et triangulation à l’aide des caméras 1 et 2.
Les fonctions 2, 3 et 4 seront assurées par les caméras 6 et 7. Ces deux caméras sont dans l’axe du visage. La caméra 7 sera légèrement surélevée pour limiter les occlusions liées aux déplacements de la mère. La caméra 6 sera placée au dessus de la caméra 7, afin d’assurer une paire stéréoscopique. La fonction 5 sera assurée par les caméras 4 et 5, fixées au plafond. La caméra 3, utilisée par les psychologues apportera une information supplémentaire en cas d’occlusions sur les caméras 4 et 5.
Quatre caméras supplémentaires sont donc nécessaires.
Les Webcams
Les webcams sont des caméras numériques qui se connectent directement à un PC via un port USB ou FireWire. Elles envoient un flux vidéo VGA (résolution de 640*480) non compressé à une fréquence de 30 images par seconde en mode YUV 4 :1 :1. Le principal avantage est le faible coût (environ 100 euros par caméra). Toutefois, Les optiques sont de mauvaise qualité (forte distorsion radiale, mauvaise restitution des couleurs…) et la focale n’est pas réglable. Elles ne sont donc pas adaptées pour estimer la direction du regard mais peuvent être envisagées dans un système hybride.
Les caméscopes DV
Les caméscopes DV sont des caméras numériques grand public munies d’une optique de bonne qualité et d’une focale réglable (zoom numérique 20x en moyenne). Elles possèdent un système d’acquisition autonome sur bande DV et des sorties analogiques (composite ou S-Vidéo) et numériques (FireWire ou USB) pour une acquisition externe. Les images envoyées sont au format PAL, c’est-à-dire 25 images par seconde avec une résolution de 720*576. Les images étant entrelacées, on peut considérer que la résolution verticale est divisée par deux et que la fréquence d’acquisition est doublée. Par ailleurs, elles sont munies d’un microphone qui peut être utilisé pour une synchronisation sonore. Enfin leur prix attractif (environ 350€) leur assure un excellent rapport qualité / prix.
Les caméras de vision industrielle
Il existe un très grand nombre de caméras de vision industrielle. Nous nous limiterons aux caméras matricielles à capteurs CCD (meilleur rapport signal/bruit que les capteurs CMOS) et nous présenterons uniquement les fonctionnalités intéressantes dans le cadre de notre projet.
Progressive Scan : dans le format PAL, une vidéo est composée de trames impaires (constituées des lignes horizontales impaires) et de trames paires (constituées des lignes paires de l’image). Ces images sont acquises l’une après l’autre en alternance à une cadence de 50 images par seconde, pour former une image entière toutes les 25 secondes. Ainsi, si un objet bouge entre la capture de la trame paire et la capture de la trame impaire, l’image fera apparaître des crénelures sur les fronts verticaux. En mode « progressive scan », tous les capteurs sont exposés simultanément. On obtient donc une vidéo non entrelacée en pleine résolution.
Mode de déclenchement : dans le cas de caméras « standards », les images sont envoyées à des intervalles réguliers, mais on ne maîtrise pas à quel moment on capture l’image. Un déclencheur externe permet d’acquérir les images à des instants totalement déterminés. Pour une application multicaméra, il est important de capturer toutes les images exactement au même moment. Une incertitude sur l’instant de l’acquisition induit une incertitude sur la mesure (dans notre cas, il s’agit d’une incertitude sur la position 3D des points d’intérêt).
Caméra mégapixel : les capteurs des caméras actuelles permettent une augmentation de la résolution des images (1300*1030 et plus) augmentant ainsi la qualité et le nombre de détails dans l’image.
Malheureusement, ces caméras sont réservées à un usage industriel et sont produites en petite quantité, ce qui les rend beaucoup plus onéreuses que les autres types de caméras précédemment cités.
Le tableau 1 présente de manière synthétique, les caractéristiques des différents types de caméras.
|
Webcam |
Camescope |
Camera de vision |
Prix |
+++ |
++ |
--- |
Résolution |
640*480 |
720*576 (entrelacée) |
Variable |
Mode « progressive scan » |
oui |
Non (à l’exception de caméscopes haut de gamme) |
Au choix |
Qualité d’image |
--- |
++ |
+++ |
Capacité de stockage |
Non |
Oui (sur cassette DV) |
Non |
Déclencheurs |
Non |
Non |
Oui |
Sorties |
FireWire |
Analogique et numérique |
Analogique ou numérique |
Tableau 1 : comparaison des caméras
Notre application demande que les images d’une caméra soient conservées afin d’être exploitées ultérieurement. Nous présentons dans cette partie, les différentes solutions envisagées pour l’enregistrement des vidéos.
Cassette MiniDV
Nous abordons ici les systèmes d’acquisition qui utilise une cassette DV comme support d’enregistrement.
Camescope DV
Comme nous l’avons exposé précédemment, les caméscopes possèdent leur propre système d’enregistrement sur bande DV. Cette fonctionnalité est intéressante puisque elle limite le coût de l’installation. Toutefois, elle nécessite une intervention humaine conséquente. En effet une personne doit régulièrement changer les cassettes des caméscopes dont certains sont difficilement accessibles. L’enregistrement peut être piloté par un ordinateur via le port FireWire. On peut également noté une restriction technique inhérente aux caméscopes en mode « enregistrement » : la mise hors tension est déclenchée automatiquement après 5 minutes d’inactivité.
Magnétoscope DV
Le magnétoscope DV est la solution actuellement utilisée dans la cellule vidéo. Les flux analogiques sont numérisés et enregistrés sur une bande DV. L’opérateur n’est alors plus obligé de manipuler les caméras. L’exploitation des vidéos est simplifiée par le générateur de timecode qui impose une référence temporelle commune aux flux de toutes les caméras. Il est alors plus facile d’identifier une séquence dans les différents flux vidéo. Le principal inconvénient concerne le prix : environ 4500 € par magnétoscope.
Enregistreurs numériques multi-canaux
La vidéosurveillance est un domaine très actif pour l’acquisition d’image multi-flux. On trouve notamment des enregistreurs numériques multi-canaux qui permettent de connecter jusqu’à 16 caméras. Toutefois ces solutions présentent deux inconvénients majeurs qui les rendent inexploitables. La qualité et la résolution des images sont insuffisantes et les caméras doivent se partager une bande passante relativement faible (100 images par seconde en moyenne).
Carte d’acquisition PC
Les standards numériques
Camera Link : il s’agit d’une interface bien établie en vision industrielle. Les informations sont transmises en parallèle et le débit peut atteindre 1900 Mb/s par canal de 24 bits. Ce standard est principalement utilisé pour des caméras haut de gamme (caméra haute définition et caméra très rapide). Cette interface est « point à point », donc déterministe. Le temps entre la prise de l’image et son arrivée sur le PC est constant, ce qui est primordial lorsque des flux images provenant de caméras différentes doivent être appariées.
USB 2 : il s’agit d’une norme initialement créée pour connecter toutes sortes de périphériques à un PC. Sa version 2 offre un débit de 480 Mb/s, supportant ainsi des périphériques plus exigeants en bande passante comme les caméras. Toutefois, cette norme n’inclut pas de protocoles standardisés pour les images.
IEEE 1394 (FireWire) : il s’agit d’un bus de communication à grande vitesse (400 Mb/s pour la version IEEE 1394a et jusqu’à 3200Mb/s pour les futures versions de IEEE 1394b) permettant d’interconnecter des périphériques à large bande passante (webcam, disques durs…). Cette norme est dotée d’une couche de plus haut niveau (DCAM) qui spécifie une gestion des flux vidéo non compressés. Le principal inconvénient de cette interface est qu’elle est non déterministe et, par conséquent, le temps entre la prise de vue et l’enregistrement sur le disque dur varie en fonction de divers paramètres tels que la charge du bus.
Les cartes d’acquisition pour cameras analogiques
Elles permettent de récupérer des flux issus de caméras analogiques et de les numériser avant de les stocker sur le disque dur. La plupart de ces cartes sont munies de processeurs dédiés pour la compression des vidéos en Mjpeg ou Mpeg4 par exemple. La bande passante est alors réduite et le volume de données à enregistrer est moins important. Il est donc possible de faire simultanément l’acquisition de plusieurs caméras sur un même PC. Par ailleurs, la topologie « point à point » garantit un temps de transfert constant.
Les enregistreurs numériques de salon
Les enregistreurs numériques de salon possèdent une entrée analogique qui permet de capturer la vidéo d’une caméra. Le flux, compressé au format Mpeg2, est stocké sur un disque dur. Les vidéos peuvent ensuite être conservées sur un DVD. La liaison entre la caméra et le caméscope est « point à point ». Cette solution, fondée sur du matériel grand publique, est peu onéreuse (400 € / enregistreur).
Le tableau 2 compare les différents systèmes d’acquisition.
|
Camescope DV |
Magnétoscope DV |
Enregistreur numérique |
Carte FireWire ou USB2 |
Carte d’acquisition analogique |
Enregistreurs numériques de salon |
Synchronisation |
externe |
+ |
+ |
- |
+++ (camera avec trigger) |
externe |
Prix |
+++ |
--- |
+ |
++ |
++ |
++ (entre 300 et 700€) |
débits |
PAL (25 im/s en 720*596) |
PAL (25 im/s en 720*596) |
12 im/s (8 caméras) |
A partir de 400 Mb/s |
Variable en fonction de la compression |
PAL (25 im/s en 720*596) |
Confort d’utilisation |
--- |
+++ |
+ |
+ |
+ |
+ |
Temps de conception |
+++ |
+++ |
+++ |
--- |
++ |
+++ |
Mode de stockage |
Cassette DV |
Cassette DV |
Disque dur |
Disque dur |
Disque dur |
DVD + disque dur + DV |
compression |
DV |
DV |
M-Jpeg Mpeg2 ou Mpeg4 |
sans |
M-Jpeg Mpeg2 ou Mpeg4 |
Mpeg2 |
Tableau 2 : comparaison des systèmes d’acquisition
Le tableau 3 présente les combinaisons possibles entre système d’acquisition et caméras
|
Caméscope DV |
Magnétoscope DV |
Enregistreur numérique |
Carte FireWire ou USB2 |
Carte d’acquisition
analogique |
Enregistreur numérique de salon |
Webcam |
|
|
|
X |
|
|
Caméscope |
X |
X |
X |
X |
X |
X |
Camera de vision numérique |
|
|
|
X |
X |
|
Camera de vision analogique |
|
X |
X |
|
X |
X |
Tableau 3 : compatibilité entre les caméras et le module d’acquisition
Nous avons choisi le couple caméscope/enregistreur numérique de salon, car il présente un bon compromis :
- Son coût est raisonnable.
- Il permet d’utiliser les ressources déjà présentes dans la cellule vidéo (caméras, enregistreurs,…).
- Ile est simple à mettre en œuvre (conception et intégration).
- Il présente un bon rapport qualité des images / quantité d’informations à stocker.
- Il est simple d’utilisation.
- Son disque dur permet un stockage et une manipulation simple et une bonne autonomie (il est possible d’enregistrer environ 80 séquences de 15 minutes).
La figure 2 présente l’interfaçage entre l’installation existante et le nouveau matériel.
Figure 2. Intégration de l'installation au sein de la cellule vidéo.
 |