基于神经均衡的光学相机通信512色位移键控信号解调首次实验验证

1. 引言与概述

本文首次实验演示了用于光学相机通信（OCC）的512色位移键控（512-CSK）信号传输。其核心成就是，在4米距离上，使用商用索尼IMX530 CMOS图像传感器模块搭配50毫米镜头，以及一个作为非线性均衡器的定制多标签分类神经网络（NN），实现了无误码解调。这项工作显著提升了OCC的数据密度极限，从先前演示的8、16或32-CSK方案，迈入了512色（9比特/符号）的高阶调制领域。

该研究解决了OCC中的一个基本挑战：由相机RGB滤光片非理想光谱灵敏度引起的颜色间串扰，这种串扰会扭曲基于CIE 1931色彩空间传输的CSK星座图。所提出的神经均衡器直接从原始传感器数据中补偿这种非线性失真，绕过了对复杂线性信号处理模型的需求。

512色

调制阶数（9比特/符号）

4米

传输距离

无误码

解调达成

8x8阵列

LED发射器面板

2. 技术框架

2.1 接收机配置与设置

接收机系统基于索尼半导体解决方案的相机系统构建，该系统能够输出12位原始RGB数据，不进行任何后处理（去马赛克、降噪、白平衡）。这些原始数据对于精确的颜色恢复至关重要。信号通过一个50毫米光学镜头，从一个8x8 LED平面阵列发射器（6.5厘米面板）捕获。接收到的RGB值在输入神经均衡器之前，首先使用标准的色彩空间变换矩阵转换为CIE 1931 (x, y) 色度坐标。

2.2 神经网络均衡器架构

解调系统的核心是一个多标签神经网络。其目的是执行非线性均衡，将失真的接收 (x, y) 坐标映射回最可能传输的9比特符号（对于512-CSK）。

输入层： 2个单元（x, y 色度坐标）。
隐藏层： N_h 层，每层有 N_u 个单元（摘要中隐含了具体架构细节，但未完全列举）。
输出层： M = 9个单元，对应512-CSK符号的9个比特。该网络为多标签分类任务而训练。

网络为每个比特输出一个后验概率分布 $p(1|x, y)$。根据这些概率计算对数似然比（LLR），随后由低密度奇偶校验（LDPC）解码器进行最终纠错解码。

2.3 512-CSK星座图映射

512个符号被策略性地放置在RGB-LED发射器的CIE 1931色域内。映射从对应于蓝色基色的顶点 $(x=0.1805, y=0.0722)$ 开始，并以“三角形方式”填充可用空间。这表明采用了一种高效的打包算法，以在物理色域内最大化星座点之间的欧几里得距离，这对于最小化符号错误率至关重要。

3. 实验结果与分析

3.1 误码率性能与LED阵列尺寸的关系

实验将发射器阵列中的有效LED数量从1x1变化到8x8。这有效地改变了光强以及信号在图像传感器上占据的面积。针对这一变量评估了误码率（BER）特性。成功的无误码操作证明了神经均衡器在不同接收信号强度和空间分布下的鲁棒性。使用完整的8x8阵列可能通过多个像素的平均和减少噪声影响来提供最佳性能。

3.2 与先前工作的比较

论文包含一个总结性图表（图1(c)），将本工作与先前的OCC-CSK演示进行了比较。主要区别在于：

调制阶数： 512-CSK远超先前实验工作中报道的8-CSK [1]、16-CSK [2,3] 和 32-CSK [4,5]。
距离： 4米的工作距离具有竞争力，特别是考虑到高阶调制。它介于极短距离（3-4厘米）的高阶演示和较长距离（80-100厘米）的低阶演示之间。
技术： 使用神经网络直接从原始传感器数据进行非线性均衡，与基于模型的线性补偿技术相比，是一种新颖且可能更具普适性的方法。

4. 核心分析与专家解读

核心见解： 这篇论文不仅仅是关于实现更多颜色；它是在光信号恢复领域，从“物理模型优先”到“数据学习优先”的战略性转变。作者隐含地承认，相机中复杂的非线性失真链路（滤光片串扰、传感器非线性、镜头伪影）由一个通用函数逼近器（神经网络）来处理，比通过精心推导但必然不完整的分析模型来处理效果更好。这反映了无线通信等其他领域所见的转变，深度学习越来越多地用于复杂非线性信道中的信道均衡和符号检测。

逻辑脉络： 其逻辑令人信服：1）高吞吐量需要高阶CSK。2）高阶CSK对颜色失真高度敏感。3）相机的颜色失真复杂且非线性。4）因此，使用在真实数据上端到端训练的非线性补偿器（NN）。使用原始传感器数据是一个妙招——它在相机ISP（图像信号处理器）引入其自身（通常是专有且不可逆的）变换之前，为神经网络提供了最大量的未改变信息。这种方法让人联想到现代计算摄影学的理念，即算法在原始传感器数据上工作以获得最大的灵活性。

优势与不足： 主要优势是频谱效率的显著飞跃，实验验证了先前仅停留在仿真阶段的可能性。神经均衡器优雅而强大。然而，其不足——许多基于机器学习的通信论文的通病——在于“黑盒”性质。论文没有深入探讨神经网络的架构搜索、训练数据规模，或对不同相机、镜头或环境光照条件的泛化能力。网络是否需要为每个新的接收机模型重新训练？正如O'Shea & Hoydis关于机器学习用于通信的开创性综述所指出的，基于深度学习的接收机的实用性取决于其对变化条件的鲁棒性和适应性。此外，4米的距离虽然不错，但仍暗示了功率/信噪比限制。依赖LDPC解码器来实现最终无误码性能，表明神经网络输出的原始符号错误率并非为零，这引发了关于均衡器在较低信噪比下独立性能的问题。

可操作的启示： 对于研究人员来说，明确的下一步是打开黑盒。研究神经网络架构（CNN可能更好地处理传感器上的空间变化），探索少样本学习或迁移学习以适应新硬件，并以更整体、类似Turbo的结构将均衡器与前向纠错集成。对于工业界，这项工作表明，使用商用相机实现高数据速率、无闪烁的可见光通信正接近现实。与索尼在传感器方面的合作值得注意；商业化将取决于将此类神经处理高效地嵌入相机ASIC中，或利用智能手机中已有的设备端AI加速器。值得关注的标准是IEEE 802.15.7r1（OCC），像这样的贡献可能会直接影响其演进。

5. 技术细节与数学公式

色彩空间转换： 从接收到的RGB值（来自原始传感器）到CIE 1931 xy坐标的转换，是使用一个标准矩阵执行的，该矩阵源自传感器相对于CIE标准观察者的光谱特性。论文提供了所使用的具体矩阵： $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ 这是一个简化的线性变换。实际上，更精确的模型可能需要非线性映射或针对特定传感器滤光片定制的矩阵。

神经网络输出到LLR： 多标签NN输出第 $i$ 个比特（共9个）为‘1’的概率 $p_i(1|x, y)$。输入到LDPC解码器的该比特的对数似然比（LLR）$L_i$ 计算如下： $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ 一个大的正LLR表示高度确信该比特为1，一个大的负值表示高度确信该比特为0。

6. 分析框架与案例示例

框架：适用于OCC的“学习型接收机”流程

这项研究例证了一种超越OCC的现代“学习型接收机”设计模式。该框架可以分解为顺序的、可优化的模块：

硬件感知数据采集： 在处理链的最早、最原始的点捕获信号（例如，传感器RAW数据、射频I/Q样本）。
可微分预处理： 以可微分的方式应用最小且必要的预处理（例如，色彩空间转换、同步），以便在端到端训练时允许梯度流动。
神经网络核心： 使用神经网络（MLP、CNN、Transformer）执行核心解调/均衡任务。网络使用直接最小化符号或比特错误率的损失函数进行训练，对于分类任务通常使用交叉熵损失。
混合解码： 将神经网络的软输出（概率、LLR）与最先进的非神经纠错解码器（如LDPC或Polar码解码器）接口。这结合了学习的灵活性与经典编码理论的成熟最优性。

非代码案例示例：将该框架应用于水下可见光通信

考虑将同一框架应用于水下可见光通信（UVLC），该通信受到严重的信道损伤，如散射和湍流引起的衰落。UVLC的“学习型接收机”可以构建如下：

步骤1： 使用高速光电探测器或相机捕获原始强度序列。
步骤2： 预处理以隔离感兴趣的信号区域并进行粗同步。
步骤3： 在此原始序列数据上训练一维卷积神经网络（CNN）或循环神经网络（RNN），如LSTM。网络的任务是均衡时变信道效应并解映射符号。训练数据将在各种水体浊度和湍流条件下收集。
步骤4： 网络为FEC解码器输出软判决，从而在传统信道估计失效的高度动态信道中实现稳健通信。

7. 未来应用与研究展望

基于智能手机的Li-Fi： 最终目标是将该技术集成到智能手机中，利用现有相机硬件，实现安全、高速的点对点数据传输或厘米级精度的室内定位。
汽车V2X通信： 使用车辆头灯/尾灯和摄像头进行车联网（V2X）通信，提供一条额外的、稳健的数据链路，作为基于射频的DSRC/C-V2X的补充。
AR/VR与元宇宙接口： 在AR眼镜与基础设施之间，或设备之间，实现低延迟、高带宽的数据链路，以支持同步的共享体验。
研究方向：
1. 端到端学习系统： 探索发射机星座图形状（通过神经网络）与接收机均衡器的联合优化，类似于“自编码器”通信的概念。
2. 鲁棒性与标准化： 开发对相机型号、环境光和部分遮挡具有鲁棒性的神经接收机模型。这对于IEEE 802.15.7等标准化工作至关重要。
3. 超高速OCC： 将高阶CSK与使用高帧率或事件相机的卷帘快门或空间调制技术相结合，以突破Gbps壁垒。
4. 语义通信： 超越比特恢复，使用OCC链路直接传输语义信息（例如，对象标识符、地图数据），针对任务成功率而非比特错误率进行优化。

8. 参考文献

H.-W. Chen 等人，“8-CSK data transmission over 4 cm，” 相关会议/期刊，2019。
C. Zhu 等人，“16-CSK over 80 cm using a quadrichromatic LED，” 相关会议/期刊，2016。
N. Murata 等人，“16-digital CSK over 100 cm based on IEEE 802.15.7，” 相关会议/期刊，2016。
P. Hu 等人，“Tri-LEDs based 32-CSK over 3 cm，” 相关会议/期刊，2019。
R. Singh 等人，“Tri-LEDs based 32-CSK，” 相关会议/期刊，2014。
O'Shea, T., & Hoydis, J. (2017). “An Introduction to Deep Learning for the Physical Layer.” IEEE Transactions on Cognitive Communications and Networking. （关于通信机器学习的权威外部来源）
IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. （权威外部标准）
Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. （色彩科学权威外部来源）
Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. （权威外部硬件来源）
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. （神经网络权威外部来源）

目录