Introduction

Emplacement des caméras

Les caméras

Les Webcams

Les caméscopes DV

Les caméras de vision industrielle

Les systèmes d’enregistrement

Cassette MiniDV

Camescope DV

Magnétoscope DV

Enregistreurs numériques multi-canaux

Carte d’acquisition PC

Les standards numériques

Les cartes d’acquisition pour cameras analogiques

Les enregistreurs numériques de salon

Choix et intégration

Kévin BAILLY
Présentation des choix techniques pour l’installation vidéo

Introduction

L’objectif de l’installation est de localiser les positions des mains du bébé, d’estimer la direction de son regard et de déterminer la position de la tête de sa mère dans un repère commun à trois dimensions. Cette mesure s’appuie sur l’analyse de vidéos. Ce choix technique est justifié car:

  • Il est non intrusif. Contrairement à la plupart des capteurs (capteurs magnétique par exemple) le bébé n’est pas instrumenté. Une interaction libre entre la mère et son bébé est alors préservée.
  • Les vidéos sont à la fois utilisées pour les traitements informatiques et pour les analyses cliniques.
  • Il est peu onéreux

L’installation vidéo doit être en mesure d’acquérir simultanément les flux provenant de sept caméras. Dans ce document, nous présentons et nous comparons les différentes solutions techniques envisagées. Nous présenterons tout d’abord le placement des caméras. Ensuite, nous aborderons les différents types de caméras et les systèmes d’acquisitions de flux vidéo. Enfin nous présenterons le mode opératoire de la solution retenue et son interfaçage avec l’installation existante.

Emplacement des caméras

Figure 1. Shéma de l’installation vidéo.

 

Nous avons cinq fonctions à remplir :

  • Détermination de la position de la tête de la mère
  • Détermination de la position de la tête du bébé
  • Détermination de l’orientation de la tête du bébé
  • Détermination de la position des pupilles par rapport aux coins des yeux
  • Détermination de la position des mains

La fonction 1 sera obtenue par localisation et triangulation à l’aide des caméras 1 et 2.

Les fonctions 2, 3 et 4 seront assurées par les caméras 6 et 7. Ces deux caméras sont dans l’axe du visage. La caméra 7 sera légèrement surélevée pour limiter les occlusions liées aux déplacements de la mère. La caméra 6 sera placée au dessus de la caméra 7, afin d’assurer une paire stéréoscopique. La fonction 5 sera assurée par les caméras 4 et 5, fixées au plafond. La caméra 3, utilisée par les psychologues apportera une information supplémentaire en cas d’occlusions sur les caméras 4 et 5.

Quatre caméras supplémentaires sont donc nécessaires.

Les caméras

Les Webcams

Les webcams sont des caméras numériques qui se connectent directement à un PC via un port USB ou FireWire. Elles envoient un flux vidéo VGA (résolution de 640*480) non compressé à une fréquence de 30 images par seconde en mode YUV 4 :1 :1. Le principal avantage est le faible coût (environ 100 euros par caméra). Toutefois, Les optiques sont de mauvaise qualité (forte distorsion radiale, mauvaise restitution des couleurs…) et la focale n’est pas réglable. Elles ne sont donc pas adaptées pour estimer la direction du regard mais peuvent être envisagées dans un système hybride.

Les caméscopes DV

Les caméscopes DV sont des caméras numériques grand public munies d’une optique de bonne qualité et d’une focale réglable (zoom numérique 20x en moyenne). Elles possèdent un système d’acquisition autonome sur bande DV et des sorties analogiques (composite ou S-Vidéo) et numériques (FireWire ou USB) pour une acquisition externe. Les images envoyées sont au format PAL, c’est-à-dire 25 images par seconde avec une résolution de 720*576. Les images étant entrelacées, on peut considérer que la résolution verticale est divisée par deux et que la fréquence d’acquisition est doublée. Par ailleurs, elles sont munies d’un microphone qui peut être utilisé pour une synchronisation sonore. Enfin leur prix attractif (environ 350€) leur assure un excellent rapport qualité / prix.

Les caméras de vision industrielle

Il existe un très grand nombre de caméras de vision industrielle. Nous nous limiterons aux caméras matricielles à capteurs CCD (meilleur rapport signal/bruit que les capteurs CMOS) et nous présenterons uniquement les fonctionnalités intéressantes dans le cadre de notre projet.

Progressive Scan : dans le format PAL, une vidéo est composée de trames impaires (constituées des lignes horizontales impaires) et de trames paires (constituées des lignes paires de l’image). Ces images sont acquises l’une après l’autre en alternance à une cadence de 50 images par seconde, pour former une image entière toutes les 25 secondes. Ainsi, si un objet bouge entre la capture de la trame paire et la capture de la trame impaire, l’image fera apparaître des crénelures sur les fronts verticaux. En mode « progressive scan », tous les capteurs sont exposés simultanément. On obtient donc une vidéo non entrelacée en pleine résolution.

Mode de déclenchement : dans le cas de caméras « standards », les images sont envoyées à des intervalles réguliers, mais on ne maîtrise pas à quel moment on capture l’image. Un déclencheur externe permet d’acquérir les images à des instants totalement déterminés. Pour une application multicaméra, il est important de capturer toutes les images exactement au même moment. Une incertitude sur l’instant de l’acquisition induit une incertitude sur la mesure (dans notre cas, il s’agit d’une incertitude sur la position 3D des points d’intérêt).

Caméra mégapixel : les capteurs des caméras actuelles permettent une augmentation de la résolution des images (1300*1030 et plus) augmentant ainsi la qualité et le nombre de détails dans l’image.

Malheureusement, ces caméras sont réservées à un usage industriel et sont produites en petite quantité, ce qui les rend beaucoup plus onéreuses que les autres types de caméras précédemment cités.

Le tableau 1 présente de manière synthétique, les caractéristiques des différents types de caméras.

 

 

Webcam

Camescope

Camera de vision

Prix

+++

++

---

Résolution

640*480

720*576 (entrelacée)

Variable

Mode « progressive scan »

oui

Non (à l’exception de caméscopes haut de gamme)

Au choix

Qualité d’image

---

++

+++

Capacité de stockage

Non

Oui (sur cassette DV)

Non

Déclencheurs

Non

Non

Oui

Sorties

FireWire

Analogique et numérique

Analogique ou numérique

Tableau 1 : comparaison des caméras

Les systèmes d’enregistrement

Notre application demande que les images d’une caméra soient conservées afin d’être exploitées ultérieurement. Nous présentons dans cette partie, les différentes solutions envisagées pour l’enregistrement des vidéos.

Cassette MiniDV

Nous abordons ici les systèmes d’acquisition qui utilise une cassette DV comme support d’enregistrement.

Camescope DV

Comme nous l’avons exposé précédemment, les caméscopes possèdent leur propre système d’enregistrement sur bande DV. Cette fonctionnalité est intéressante puisque elle limite le coût de l’installation. Toutefois, elle nécessite une intervention humaine conséquente. En effet une personne doit régulièrement changer les cassettes des caméscopes dont certains sont difficilement accessibles. L’enregistrement peut être piloté par un ordinateur via le port FireWire. On peut également noté une restriction technique inhérente aux caméscopes en mode « enregistrement » : la mise hors tension est déclenchée automatiquement après 5 minutes d’inactivité.

Magnétoscope DV

Le magnétoscope DV est la solution actuellement utilisée dans la cellule vidéo. Les flux analogiques sont numérisés et enregistrés sur une bande DV. L’opérateur n’est alors plus obligé de manipuler les caméras. L’exploitation des vidéos est simplifiée par le générateur de timecode qui impose une référence temporelle commune aux flux de toutes les caméras. Il est alors plus facile d’identifier une séquence dans les différents flux vidéo. Le principal inconvénient concerne le prix : environ 4500 € par magnétoscope.

Enregistreurs numériques multi-canaux

La vidéosurveillance est un domaine très actif pour l’acquisition d’image multi-flux. On trouve notamment des enregistreurs numériques multi-canaux qui permettent de connecter jusqu’à 16 caméras. Toutefois ces solutions présentent deux inconvénients majeurs qui les rendent inexploitables. La qualité et la résolution des images sont insuffisantes et les caméras doivent se partager une bande passante relativement faible (100 images par seconde en moyenne).

Carte d’acquisition PC

Les standards numériques

Camera Link : il s’agit d’une interface bien établie en vision industrielle. Les informations sont transmises en parallèle et le débit peut atteindre 1900 Mb/s par canal de 24 bits. Ce standard est principalement utilisé pour des caméras haut de gamme (caméra haute définition et caméra très rapide). Cette interface est « point à point », donc déterministe. Le temps entre la prise de l’image et son arrivée sur le PC est constant, ce qui est primordial lorsque des flux images provenant de caméras différentes doivent être appariées.

USB 2 : il s’agit d’une norme initialement créée pour connecter toutes sortes de périphériques à un PC. Sa version 2 offre un débit de 480 Mb/s, supportant ainsi des périphériques plus exigeants en bande passante comme les caméras. Toutefois, cette norme n’inclut pas de protocoles standardisés pour les images.

IEEE 1394 (FireWire) : il s’agit d’un bus de communication à grande vitesse (400 Mb/s pour la version IEEE 1394a et jusqu’à 3200Mb/s pour les futures versions de IEEE 1394b) permettant d’interconnecter des périphériques à large bande passante (webcam, disques durs…). Cette norme est dotée d’une couche de plus haut niveau (DCAM) qui spécifie une gestion des flux vidéo non compressés. Le principal inconvénient de cette interface est qu’elle est non déterministe et, par conséquent, le temps entre la prise de vue et l’enregistrement sur le disque dur varie en fonction de divers paramètres tels que la charge du bus.

Les cartes d’acquisition pour cameras analogiques

Elles permettent de récupérer des flux issus de caméras analogiques et de les numériser avant de les stocker sur le disque dur. La plupart de ces cartes sont munies de processeurs dédiés pour la compression des vidéos en Mjpeg ou Mpeg4 par exemple. La bande passante est alors réduite et le volume de données à enregistrer est moins important. Il est donc possible de faire simultanément l’acquisition de plusieurs caméras sur un même PC. Par ailleurs, la topologie « point à point » garantit un temps de transfert constant.

Les enregistreurs numériques de salon

Les enregistreurs numériques de salon possèdent une entrée analogique qui permet de capturer la vidéo d’une caméra. Le flux, compressé au format Mpeg2, est stocké sur un disque dur. Les vidéos peuvent ensuite être conservées sur un DVD. La liaison entre la caméra et le caméscope est « point à point ». Cette solution, fondée sur du matériel grand publique, est peu onéreuse (400 € / enregistreur).

Le tableau 2 compare les différents systèmes d’acquisition.

 

 

Camescope DV

Magnétoscope DV

Enregistreur numérique

Carte FireWire ou USB2

Carte d’acquisition analogique

Enregistreurs numériques de salon

Synchronisation

externe

+

+

-

+++ (camera avec trigger)

externe

Prix

+++

---

+

++

++

++ (entre 300 et 700€)

débits

PAL (25 im/s en 720*596)

PAL (25 im/s en 720*596)

12 im/s (8 caméras)

A partir de 400 Mb/s

Variable en fonction de la compression

PAL (25 im/s en 720*596)

Confort d’utilisation

---

+++

+

+

+

+

Temps de conception

+++

+++

+++

---

++

+++

Mode de stockage

Cassette DV

Cassette DV

Disque dur

Disque dur

Disque dur

DVD + disque dur + DV

compression

DV

DV

M-Jpeg Mpeg2 ou Mpeg4

sans

M-Jpeg Mpeg2 ou Mpeg4

Mpeg2

Tableau 2 : comparaison des systèmes d’acquisition

Le tableau 3 présente les combinaisons possibles entre système d’acquisition et caméras

 

 

Caméscope DV

Magnétoscope DV

Enregistreur numérique

Carte FireWire ou USB2

Carte d’acquisition

analogique

Enregistreur numérique de salon

Webcam

 

 

 

X

 

 

Caméscope

X

X

X

X

X

X

Camera de vision numérique

 

 

 

X

X

 

Camera de vision analogique

 

X

X

 

X

X

Tableau 3 : compatibilité entre les caméras et le module d’acquisition

 

Choix et intégration

Nous avons choisi le couple caméscope/enregistreur numérique de salon, car il présente un bon compromis :

  • Son coût est raisonnable.
  • Il permet d’utiliser les ressources déjà présentes dans la cellule vidéo (caméras, enregistreurs,…).
  • Ile est simple à mettre en œuvre (conception et intégration).
  • Il présente un bon rapport qualité des images / quantité d’informations à stocker.
  • Il est simple d’utilisation.
  • Son disque dur permet un stockage et une manipulation simple et une bonne autonomie (il est possible d’enregistrer environ 80 séquences de 15 minutes).

La figure 2 présente l’interfaçage entre l’installation existante et le nouveau matériel.

Figure 2. Intégration de l'installation au sein de la cellule vidéo.

Psynem, Service de pédopsychiatrie de l’hôpital Necker-Enfants malades
149 rue de Sèvres, 75015 Paris
psynem@necker.fr