Première démonstration de démodulation de signal 512-CSK par égalisation neuronale pour les communications optiques par caméra

Table des matières

1. Introduction

La communication optique par caméra (OCC) est une technologie prometteuse pour la prochaine génération de communication sans fil optique, utilisant les capteurs d'image CMOS omniprésents dans les caméras comme récepteurs. Elle offre des canaux sans licence et économiques. Un défi majeur est d'augmenter le débit de données, limité par la fréquence d'images et les temps d'exposition des caméras, tout en maintenant un fonctionnement sans scintillement. La modulation par déplacement de couleur (CSK), un schéma de modulation issu de l'IEEE 802.15.7, associe les données à des couleurs dans l'espace de chromaticité CIE 1931 pour augmenter les débits. Cependant, la diaphonie causée par la sensibilité spectrale de la caméra nécessite une compensation. Les démonstrations antérieures ont atteint jusqu'à 32-CSK sur de courtes distances. Cet article présente la première démonstration expérimentale d'une transmission de signal 512-CSK avec démodulation sans erreur sur 4 mètres, en utilisant un égaliseur basé sur un réseau neuronal pour gérer la diaphonie non linéaire.

2. Configuration du récepteur

Le système récepteur est basé sur un module capteur CMOS Sony IMX530 avec un objectif de 50mm, capable de fournir des données brutes RVB 12 bits sans post-traitement (dématriçage, réduction du bruit, équilibrage des blancs).

2.1 Système caméra et données brutes

Le système caméra Sony fournit des données d'image brutes pures, préservant les lectures originales du capteur, cruciales pour un traitement du signal précis avant que toute correction colorimétrique n'introduise de distorsion.

2.2 Conversion de l'espace colorimétrique

Les valeurs RVB brutes sont converties en coordonnées de chromaticité CIE 1931 (x, y) à l'aide d'une matrice de transformation standard : $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$

2.3 Égaliseur neuronal

Un réseau neuronal de classification multi-étiquettes agit comme un égaliseur pour compenser la diaphonie non linéaire. Il possède 2 unités d'entrée (x, y), $N_h$ couches cachées avec $N_u$ unités, et $M=log_2(512)=9$ unités de sortie (bits par symbole). Le réseau produit une distribution de probabilité a posteriori $p(1|x,y)$, à partir de laquelle les Rapports de Vraisemblance Logarithmique (LLR) sont calculés pour être injectés dans un décodeur LDPC. Les points de constellation pour le 512-CSK sont disposés de manière triangulaire à partir du sommet bleu (x=0.1805, y=0.0722).

3. Résultats expérimentaux

3.1 Configuration expérimentale

La transmission a utilisé un réseau planaire de LED 8x8 (taille du panneau : 6,5 cm). Le nombre de LED actives a varié de 1x1 à 8x8 pour évaluer le Taux d'Erreur Binaire (TEB) en fonction de la surface d'image occupée (intensité lumineuse). La distance de transmission était fixée à 4 mètres.

3.2 Performance en TEB

Le système a atteint une démodulation sans erreur pour le 512-CSK. Les caractéristiques du TEB ont été évaluées en fonction de la surface effective des LED dans l'image capturée. L'égaliseur neuronal a atténué avec succès la diaphonie, permettant une démodulation fiable à cet ordre de modulation élevé où les méthodes linéaires traditionnelles échoueraient.

Métrique de performance clé

Ordre de modulation : 512-CSK (9 bits/symbole)

Distance de transmission : 4 mètres

Résultat : Démodulation sans erreur atteinte

4. Analyse et idée centrale

Idée centrale

Ce travail ne consiste pas seulement à pousser le CSK à 512 couleurs ; c'est un pivot stratégique d'un nettoyage du signal basé sur la physique vers une reconstruction pilotée par les données. La véritable percée est de traiter la diaphonie inter-canaux sévère non pas comme un problème de bruit à filtrer, mais comme une carte de distorsion non linéaire déterministe à apprendre et à inverser par un réseau neuronal. Cela reflète le changement de paradigme observé en imagerie computationnelle, où des modèles d'apprentissage profond comme ceux discutés dans l'article CycleGAN (Zhu et al., 2017) apprennent à traduire entre des domaines (par ex., bruité vers propre) sans exemples appariés. Ici, le RN apprend l'inverse de l'« empreinte digitale » spectrale de la caméra.

Enchaînement logique

La logique est convaincante : 1) Le CSK d'ordre élevé est limité par la diaphonie. 2) La diaphonie de la caméra est complexe et non linéaire. 3) Par conséquent, utiliser un approximateur de fonction universel (un réseau neuronal) entraîné sur les données reçues pour la modéliser et l'annuler. Le flux allant des données brutes du capteur -> conversion CIE 1931 -> égaliseur RN -> décodeur LDPC est une chaîne de traitement du signal hybride moderne. Il utilise astucieusement l'espace CIE standardisé comme une représentation intermédiaire stable, séparant la science des couleurs de la théorie des communications.

Points forts et faiblesses

Points forts : La démonstration est empiriquement solide, atteignant un record de 512-CSK sur une distance pratique de 4m. L'utilisation de données brutes du capteur contourne les pipelines ISP destructeurs de la caméra – une tactique critique souvent négligée. La méthode est indépendante du récepteur ; le RN peut être réentraîné pour n'importe quelle caméra. Faiblesses : L'approche est intrinsèquement gourmande en données et nécessite un étalonnage par caméra. L'article est silencieux sur la complexité, la latence et la consommation d'énergie du RN – des détails cruciaux pour l'OCC en temps réel et mobile. Le réseau de LED 8x8 est un émetteur encombrant, ce qui contredit l'objectif de l'OCC de tirer parti de sources lumineuses omniprésentes. Comme noté dans les recherches de l'IEEE ComSoc sur la VLC, l'évolutivité et l'interopérabilité restent des obstacles majeurs.

Perspectives exploitables

Pour les chercheurs : L'avenir réside dans des modèles d'apprentissage légers, peut-être fédérés, pour l'étalonnage sur l'appareil. Explorer des architectures basées sur des transformateurs qui pourraient mieux gérer la distorsion séquentielle des symboles que les RN à propagation avant. Pour l'industrie : Cette technologie est prête pour des scénarios de niche à installation fixe (guides de musée, communication entre robots en usine) où les émetteurs et récepteurs sont stables. S'associer avec des fabricants de capteurs d'image (comme Sony, comme dans cet article) pour intégrer des blocs égaliseurs pré-entraînés ou facilement entraînables directement dans la partie numérique du capteur, faisant des caméras « prêtes pour l'OCC » une fonctionnalité commercialisable.

5. Détails techniques

Le défi technique central est l'inadéquation entre l'espace colorimétrique CIE 1931 idéal et la sensibilité spectrale réelle de la caméra, comme le montre la Fig. 1(b) du PDF. Cela entraîne des valeurs reçues (R, V, B) qui sont des mélanges linéaires des intensités émises. La transformation en (x, y) aide mais n'élimine pas les non-linéarités. Le réseau neuronal, avec ses $N_h$ couches cachées, apprend la fonction $f: (x, y) \rightarrow \mathbf{p}$, où $\mathbf{p}$ est un vecteur à 9 dimensions de probabilités binaires. Le LLR pour le $k$-ième bit est calculé comme suit : $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ Ces LLR fournissent des entrées souples au puissant décodeur LDPC, permettant la correction d'erreurs vers l'avant pour atteindre le résultat final sans erreur.

6. Exemple de cadre d'analyse

Cas : Évaluation d'une nouvelle caméra pour l'OCC. Cette recherche fournit un cadre pour évaluer l'aptitude de toute caméra au CSK d'ordre élevé.

Acquisition des données : Émettre des symboles 512-CSK connus en utilisant un réseau de LED étalonné. Capturer les données brutes du capteur avec la caméra testée.
Prétraitement : Convertir les zones RVB brutes en coordonnées CIE 1931 (x, y) à l'aide de la matrice standard.
Entraînement du modèle : Entraîner un réseau neuronal multi-étiquettes (par ex., un MLP simple à 3 couches) pour associer les clusters reçus (x, y) aux 512 étiquettes de symboles émis. L'ensemble d'entraînement est la correspondance de symboles connue.
Métrique de performance : La précision de validation finale ou le TEB après décodage LDPC indique directement la capacité de la caméra. Une haute précision indique une distorsion intrinsèque faible ou une linéarité élevée, en faisant un bon récepteur OCC.
Comparaison : Répéter pour différentes caméras. La complexité requise du réseau neuronal (profondeur $N_h$, largeur $N_u$) devient un indicateur de la sévérité de la diaphonie de la caméra.

Ce cadre va au-delà de l'analyse des fiches techniques pour une évaluation fonctionnelle et centrée sur la communication.

7. Applications futures et orientations

Applications :

Positionnement intérieur de précision : L'OCC à haut débit peut transmettre des empreintes ou cartes de localisation complexes parallèlement aux codes d'identification.
Liaison avec la Réalité Augmentée (RA) : Les luminaires intelligents peuvent diffuser des métadonnées sur des objets ou œuvres d'art directement vers les caméras de smartphones, permettant une RA fluide sans consultation cloud.
IoT industriel dans les zones sensibles aux RF : Communication entre robots, capteurs et contrôleurs dans les hôpitaux ou avions en utilisant l'éclairage existant des installations.
Communication sous-marine : Les LED bleu-vert utilisant le CSK pourraient fournir des débits plus élevés pour les véhicules et capteurs submersibles.

Orientations de recherche :

Apprentissage de bout en bout : Aller au-delà des blocs séparés (démodulation, égalisation, décodage) vers un réseau profond unique entraîné directement pour minimiser le TEB.
Compensation dynamique du canal : Développer des RN capables de s'adapter en temps réel à des conditions changeantes comme l'exposition automatique de la caméra, le flou de mouvement ou les variations de lumière ambiante.
Standardisation des architectures de RN : Proposer des modèles de RN légers et standardisés pour l'égalisation qui pourraient être implémentés dans le matériel ou le micrologiciel des caméras.
Intégration avec la vision 6G : Positionner l'OCC comme une technologie complémentaire au sein de l'architecture de réseau hétérogène de la 6G, comme exploré dans les livres blancs du Next G Alliance.

8. Références

H.-W. Chen et al., « 8-CSK data transmission over 4 cm », Relevant Conference, 2019.
C. Zhu et al., « 16-CSK over 80 cm using a quadrichromatic LED », Relevant Journal, 2016.
N. Murata et al., « 16-digital CSK over 100 cm based on IEEE 802.15.7 », Relevant Conference, 2016.
P. Hu et al., « Tri-LEDs based 32-CSK over 3 cm », Relevant Journal, 2019.
R. Singh et al., « Tri-LEDs based 32-CSK », Relevant Conference, 2014.
J.-Y. Zhu et al., « Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks », IEEE International Conference on Computer Vision (ICCV), 2017. (Source externe pour le concept de traduction de domaine par apprentissage)
IEEE Communications Society, « Visible Light Communication: A Roadmap for Standardization », Rapport technique, 2022. (Source externe pour les défis industriels)
Next G Alliance, « 6G Vision and Framework », Livre blanc, 2023. (Source externe pour l'intégration future des réseaux)
« Commission Internationale de l'Eclairage (CIE) 1931 color space », Norme.
Sony Semiconductor Solutions Corporation, « IMX530 Sensor Datasheet », Spécification technique.