Первая демонстрация демодуляции сигнала с ключевой модуляцией 512 цветов с использованием нейросетевого эквалайзера для оптической камерной связи

Содержание

1. Введение и обзор

В данной статье представлена первая экспериментальная демонстрация передачи сигнала с ключевой модуляцией 512 цветов (512-CSK) для оптической камерной связи (OCC). Ключевым достижением является безошибочная демодуляция на расстоянии 4 метра с использованием коммерческого КМОП-сенсора Sony IMX530 с объективом 50 мм и специальной нейронной сети для многоклассовой классификации, выполняющей роль нелинейного эквалайзера. Эта работа значительно расширяет границы плотности данных в OCC, переходя от ранее продемонстрированных схем 8, 16 или 32-CSK в область высокопорядковой модуляции с 512 цветами (9 бит/символ).

Исследование решает фундаментальную проблему в OCC: межцветовые перекрёстные помехи, вызванные неидеальной спектральной чувствительностью RGB-фильтров камеры, которые искажают передаваемое созвездие CSK, основанное на цветовом пространстве CIE 1931. Предлагаемый нейросетевой эквалайзер напрямую компенсирует это нелинейное искажение на основе сырых данных сенсора, обходя необходимость в сложных линейных моделях обработки сигналов.

512 цветов

Порядок модуляции (9 бит/символ)

4 метра

Дистанция передачи

Безошибочно

Достигнутая демодуляция

Матрица 8x8

Панель LED-передатчика

2. Техническая основа

2.1 Конфигурация и настройка приёмника

Приёмная система построена на основе камеры Sony Semiconductor Solutions, способной выводить 12-битные сырые RGB-данные без какой-либо постобработки (дебайеризация, шумоподавление, баланс белого). Эти сырые данные критически важны для точного восстановления цвета. Сигнал захватывается через 50-мм объектив с планарной матрицы LED-передатчика 8x8 (панель 6.5 см). Полученные значения RGB сначала преобразуются в координаты цветности CIE 1931 (x, y) с использованием стандартной матрицы преобразования цветового пространства перед подачей в нейросетевой эквалайзер.

2.2 Архитектура нейросетевого эквалайзера

Сердцем системы демодуляции является нейронная сеть для многоклассовой классификации. Её цель — выполнить нелинейную эквализацию, отображая искажённые принятые координаты (x, y) обратно в наиболее вероятный переданный 9-битный символ (для 512-CSK).

Входной слой: 2 нейрона (координаты цветности x, y).
Скрытые слои: N_h слоёв с N_u нейронами в каждом (конкретные детали архитектуры подразумеваются, но не полностью перечислены в отрывке).
Выходной слой: M = 9 нейронов, соответствующих 9 битам символа 512-CSK. Сеть обучается для многоклассовой классификации.

Сеть выводит апостериорное распределение вероятностей $p(1|x, y)$ для каждого бита. Логарифмическое отношение правдоподобия (LLR) рассчитывается из этих вероятностей и затем декодируется декодером LDPC для окончательной коррекции ошибок.

2.3 Отображение созвездия 512-CSK

512 символов стратегически размещены в пределах цветового охвата CIE 1931 RGB-LED передатчика. Отображение начинается с вершины, соответствующей основному синему цвету $(x=0.1805, y=0.0722)$, и заполняет доступное пространство «треугольным образом». Это предполагает использование эффективного алгоритма упаковки для максимизации евклидова расстояния между точками созвездия в пределах физического цветового охвата, что критически важно для минимизации вероятности ошибки на символ.

3. Результаты эксперимента и анализ

3.1 Зависимость BER от размера LED-матрицы

В эксперименте варьировалось количество активных светодиодов в передающей матрице от 1x1 до 8x8. Это эффективно изменяет интенсивность света и площадь, которую сигнал занимает на сенсоре изображения. Была оценена зависимость коэффициента битовых ошибок (BER) от этой переменной. Успешная безошибочная работа демонстрирует устойчивость нейросетевого эквалайзера к различным уровням принимаемого сигнала и его пространственному профилю. Использование полной матрицы 8x8, вероятно, обеспечивает наилучшую производительность за счёт усреднения по множеству пикселей и снижения влияния шума.

3.2 Сравнение с предыдущими работами

Статья включает сводный рисунок (Рис. 1(c)), сравнивающий данную работу с предыдущими демонстрациями OCC-CSK. Ключевые отличия:

Порядок модуляции: 512-CSK значительно превосходит 8-CSK [1], 16-CSK [2,3] и 32-CSK [4,5], о которых сообщалось в предыдущих экспериментальных работах.
Дистанция: Работа на расстоянии 4 м является конкурентоспособной, особенно с учётом высокого порядка модуляции. Она находится между демонстрациями высокого порядка на очень коротких дистанциях (3-4 см) и демонстрациями низкого порядка на более длинных дистанциях (80-100 см).
Техника: Использование нейронной сети для прямой нелинейной эквализации на основе сырых данных сенсора является новым и потенциально более универсальным подходом по сравнению с методами линейной компенсации, основанными на моделях.

4. Ключевой анализ и экспертная интерпретация

Ключевое понимание: Эта статья не только о достижении большего количества цветов; это стратегический переход от моделирования, основанного на физике, к обучению, основанному на данных, в восстановлении оптических сигналов. Авторы неявно признают, что сложный, нелинейный канал искажений в камере (перекрёстные помехи фильтров, нелинейность сенсора, артефакты объектива) лучше обрабатывать универсальным аппроксиматором функций (нейронной сетью), чем тщательно выведенной, но неизбежно неполной аналитической моделью. Это отражает сдвиг, наблюдаемый в других областях, таких как беспроводная связь, где глубокое обучение всё чаще используется для эквализации канала и детектирования символов в сложных нелинейных каналах.

Логическая последовательность: Логика убедительна: 1) Для пропускной способности необходим высокопорядковый CSK. 2) Высокопорядковый CSK крайне чувствителен к цветовым искажениям. 3) Цветовые искажения камеры сложны и нелинейны. 4) Следовательно, используйте нелинейный компенсатор (НС), обученный сквозным образом на реальных данных. Использование сырых данных сенсора — блестящий ход: это предоставляет нейронной сети максимальный объём неизменённой информации до того, как любой ISP камеры (процессор обработки изображений) внесёт свои, часто проприетарные и необратимые преобразования. Этот подход напоминает философию современной вычислительной фотографии, где алгоритмы работают с сырыми данными сенсора для максимальной гибкости.

Сильные стороны и недостатки: Основная сила — это резкий скачок в спектральной эффективности, экспериментально подтверждающий то, что ранее было областью только моделирования. Нейросетевой эквалайзер элегантен и мощён. Однако недостаток, общий для многих работ по связи на основе машинного обучения, — это характер «чёрного ящика». Статья не углубляется в поиск архитектуры НС, объём обучающих данных или способность к обобщению для разных камер, объективов или условий окружающего освещения. Потребуется ли переобучение сети для каждой новой модели приёмника? Как отмечено в основополагающем обзоре по машинному обучению для связи O'Shea & Hoydis, практичность приёмников на основе глубокого обучения зависит от их устойчивости и адаптивности к изменяющимся условиям. Кроме того, дистанция 4 м, хотя и хорошая, всё же указывает на ограничение по мощности/ОСШ. Зависимость от декодера LDPC для окончательной безошибочной работы указывает на то, что исходная вероятность ошибки на символ на выходе НС не равна нулю, что вызывает вопросы об автономной производительности эквалайзера при более низком ОСШ.

Практические выводы: Для исследователей очевидным следующим шагом является открытие «чёрного ящика». Исследовать архитектуры НС (CNN могут лучше справляться с пространственными вариациями на сенсоре), изучить обучение с малым количеством примеров или трансферное обучение для адаптации к новому оборудованию, а также интегрировать эквалайзер с прямым исправлением ошибок в более целостную, турбо-подобную структуру. Для индустрии эта работа сигнализирует о том, что высокоскоростная, без мерцания VLC с использованием стандартных камер становится ближе к реальности. Примечательно партнёрство с Sony по сенсору; коммерциализация будет зависеть от эффективного внедрения такой нейронной обработки в ASIC камер или использования уже присутствующих в смартфонах AI-ускорителей. Стандарт, за которым стоит следить, — это IEEE 802.15.7r1 (OCC), и подобные работы могут напрямую повлиять на его развитие.

5. Технические детали и математическая формулировка

Преобразование цветового пространства: Преобразование из полученных значений RGB (с сырого сенсора) в координаты CIE 1931 xy выполняется с использованием стандартной матрицы, выведенной из спектральных характеристик сенсора относительно стандартного наблюдателя CIE. В статье представлена используемая конкретная матрица: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ Это упрощённое линейное преобразование. На практике более точная модель может потребовать нелинейного отображения или матрицы, адаптированной к конкретным цветовым фильтрам сенсора.

Преобразование выхода нейронной сети в LLR: Многоклассовая НС выводит вероятность $p_i(1|x, y)$ того, что $i$-й бит (из 9) равен '1'. Логарифмическое отношение правдоподобия (LLR) $L_i$ для этого бита, подаваемое в декодер LDPC, рассчитывается как: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ Большое положительное значение LLR указывает на высокую уверенность, что бит равен 1, большое отрицательное значение указывает на высокую уверенность, что бит равен 0.

6. Структура анализа и пример применения

Структура: Конвейер «обучаемого приёмника» для OCC

Это исследование является примером современного шаблона проектирования «обучаемого приёмника», применимого за пределами OCC. Структуру можно разбить на последовательные, оптимизируемые блоки:

Аппаратно-осознанный сбор данных: Захват сигналов на самой ранней, наиболее сырой точке в цепочке обработки (например, RAW-данные сенсора, I/Q выборки RF).
Дифференцируемая предобработка: Применение минимальной необходимой предобработки (например, преобразование цветового пространства, синхронизация) таким образом, чтобы она была дифференцируемой для обеспечения потока градиентов при сквозном обучении.
Ядро нейронной сети: Использование нейронной сети (MLP, CNN, Transformer) для выполнения основной задачи демодуляции/эквализации. Сеть обучается с функцией потерь, которая напрямую минимизирует вероятность ошибки на символ или бит, часто используя перекрёстную энтропию для задач классификации.
Гибридное декодирование: Сопряжение мягких выходов нейронной сети (вероятности, LLR) с современным, не нейросетевым декодером коррекции ошибок (например, декодером LDPC или полярного кода). Это сочетает гибкость обучения с доказанной оптимальностью классической теории кодирования.

Пример применения (не код): Применение структуры к подводной VLC

Рассмотрим применение этой же структуры к подводной видимой световой связи (UVLC), которая страдает от серьёзных искажений канала, таких как рассеяние и замирания, вызванные турбулентностью. «Обучаемый приёмник» для UVLC может быть построен следующим образом:

Шаг 1: Использование высокоскоростного фотодетектора или камеры, захватывающей последовательности сырой интенсивности.
Шаг 2: Предобработка для выделения интересующей области сигнала и выполнения грубой синхронизации.
Шаг 3: Обучение одномерной свёрточной нейронной сети (CNN) или рекуррентной нейронной сети (RNN), такой как LSTM, на этих сырых последовательностях данных. Задача сети — эквализировать изменяющиеся во времени эффекты канала и демодулировать символы. Обучающие данные будут собираться при различных условиях мутности воды и турбулентности.
Шаг 4: Сеть выводит мягкие решения для декодера FEC, обеспечивая устойчивую связь в высокодинамичном канале, где традиционная оценка канала терпит неудачу.

7. Будущие применения и направления исследований

Li-Fi на основе смартфонов: Конечная цель — интеграция этой технологии в смартфоны для безопасной высокоскоростной передачи данных между устройствами или для позиционирования в помещении с точностью до сантиметра, используя существующее аппаратное обеспечение камеры.
Автомобильная связь V2X: Использование фар/габаритных огней автомобилей и камер для связи «транспортное средство — всё» (V2X), обеспечивая дополнительный, устойчивый канал передачи данных в дополнение к RF-основанным DSRC/C-V2X.
Интерфейсы AR/VR и метавселенной: Обеспечение низко-задержёных, высокоскоростных каналов передачи данных между очками дополненной реальности и инфраструктурой или между устройствами для синхронизированного совместного опыта.
Направления исследований:
1. Сквозные обучаемые системы: Исследование совместной оптимизации формы созвездия передатчика (через нейронную сеть) и эквалайзера приёмника, аналогично концепции «автоэнкодерных» систем связи.
2. Устойчивость и стандартизация: Разработка моделей нейросетевых приёмников, устойчивых к различным моделям камер, окружающему освещению и частичному перекрытию. Это критически важно для усилий по стандартизации, таких как IEEE 802.15.7.
3. Сверхвысокоскоростная OCC: Комбинирование высокопорядкового CSK с техниками модуляции на основе rolling-shutter или пространственной модуляции с использованием высокоскоростных или event-камер для преодоления барьера в Гбит/с.
4. Семантическая связь: Выход за рамки восстановления битов, использование канала OCC для прямой передачи семантической информации (например, идентификаторов объектов, данных карты), оптимизируя успешность выполнения задачи, а не коэффициент битовых ошибок.

8. Ссылки

H.-W. Chen и др., "8-CSK data transmission over 4 cm," Relevant Conference/Journal, 2019.
C. Zhu и др., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Conference/Journal, 2016.
N. Murata и др., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference/Journal, 2016.
P. Hu и др., "Tri-LEDs based 32-CSK over 3 cm," Relevant Conference/Journal, 2019.
R. Singh и др., "Tri-LEDs based 32-CSK," Relevant Conference/Journal, 2014.
O'Shea, T., & Hoydis, J. (2017). "An Introduction to Deep Learning for the Physical Layer." IEEE Transactions on Cognitive Communications and Networking. (Внешний авторитетный источник по ML для связи)
IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (Внешний авторитетный стандарт)
Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (Внешний авторитетный источник по цветоведению)
Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (Внешний авторитетный источник по аппаратному обеспечению)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Внешний авторитетный источник по нейронным сетям)