首次展示使用神經網路等化器進行光學相機通訊之512色位移鍵控訊號解調

1. 簡介與概述

本論文首次實驗展示了用於光學相機通訊的512色位移鍵控訊號傳輸。核心成就是在4公尺距離下，使用商用Sony IMX530 CMOS影像感測器模組搭配50毫米鏡頭，以及一個作為非線性等化器的客製化多標籤分類神經網路，實現了無誤差解調。這項工作顯著推進了OCC的資料密度極限，從先前展示的8、16或32-CSK方案，邁入了512色（9位元/符號）的高階調變領域。

本研究解決了OCC中的一個基本挑戰：由相機RGB濾光片非理想光譜靈敏度所引起的色彩間串擾，這會扭曲基於CIE 1931色彩空間傳輸的CSK星座圖。所提出的神經等化器直接從原始感測器資料補償這種非線性失真，無需複雜的線性訊號處理模型。

512色

調變階數（9位元/符號）

4公尺

傳輸距離

無誤差

達成解調

8x8陣列

LED發射器面板

2. 技術框架

2.1 接收器配置與設定

接收器系統建構於Sony Semiconductor Solutions的相機系統之上，該系統能夠輸出未經任何後處理（去馬賽克、降噪、白平衡）的12位元原始RGB資料。此原始資料對於準確的色彩復原至關重要。訊號透過50毫米光學鏡頭，從一個8x8 LED平面陣列發射器（6.5公分面板）擷取。接收到的RGB值在輸入神經等化器之前，會先使用標準的色彩空間轉換矩陣轉換為CIE 1931 (x, y)色度座標。

2.2 神經網路等化器架構

解調系統的核心是一個多標籤神經網路。其目的是執行非線性等化，將失真的接收(x, y)座標映射回最可能傳輸的9位元符號（對應512-CSK）。

輸入層： 2個單元（x, y色度座標）。
隱藏層： N_h層，每層有N_u個單元（摘要中暗示了具體架構細節但未完全列舉）。
輸出層： M = 9個單元，對應512-CSK符號的9個位元。該網路針對多標籤分類進行訓練。

網路為每個位元輸出一個後驗機率分佈$p(1|x, y)$。從這些機率計算出對數似然比，隨後由低密度奇偶校驗解碼器進行最終的錯誤更正。

2.3 512-CSK 星座圖映射

512個符號策略性地放置在RGB-LED發射器的CIE 1931色域內。映射從對應藍色原色的頂點$(x=0.1805, y=0.0722)$開始，並以「三角形方式」填滿可用空間。這暗示了一種有效的封裝演算法，旨在物理色域內最大化星座點之間的歐幾里得距離，這對於最小化符號錯誤率至關重要。

3. 實驗結果與分析

3.1 位元錯誤率效能 vs. LED陣列尺寸

實驗將發射器陣列中的有效LED數量從1x1變化到8x8。這有效地改變了光強度以及訊號在影像感測器上佔據的面積。針對此變數評估了位元錯誤率特性。成功的無誤差操作證明了神經等化器在不同接收訊號強度和空間分佈下的穩健性。使用完整的8x8陣列可能透過對多個像素取平均並降低雜訊影響，提供了最佳效能。

3.2 與先前研究之比較

論文包含一個總結圖（圖1(c)），將此工作與先前的OCC-CSK演示進行比較。主要區別在於：

調變階數： 512-CSK遠遠超過先前實驗工作中報告的8-CSK [1]、16-CSK [2,3]和32-CSK [4,5]。
距離： 4公尺的操作具有競爭力，特別是考慮到高調變階數。它介於極短距離（3-4公分）的高階演示和較長距離（80-100公分）的低階演示之間。
技術： 使用神經網路從原始感測器資料進行直接非線性等化，與基於模型的線性補償技術相比，是一種新穎且可能更具泛化性的方法。

4. 核心分析與專家解讀

核心洞見： 這篇論文不僅僅是關於實現更多顏色；它是在光學訊號復原領域，從物理優先建模到資料優先學習的策略性轉向。作者隱含地承認，相機中複雜的非線性失真流程（濾光片串擾、感測器非線性、鏡頭偽影）由一個通用函數逼近器（神經網路）來處理，比由精心推導但必然不完整的分析模型來處理更好。這反映了無線通訊等其他領域中看到的轉變，深度學習越來越多地用於複雜非線性通道中的通道等化與符號偵測。

邏輯流程： 其邏輯具有說服力：1) 高吞吐量需要高階CSK。2) 高階CSK對色彩失真高度敏感。3) 相機色彩失真複雜且非線性。4) 因此，使用在真實資料上端到端訓練的非線性補償器（神經網路）。使用原始感測器資料是一個妙招——它在任何相機影像訊號處理器引入其自身（通常是專有且不可逆的）轉換之前，為神經網路提供了最大量的未經修改資訊。這種方法讓人聯想到現代計算攝影學的理念，即演算法在原始感測器資料上運作以獲得最大靈活性。

優點與缺陷： 主要優點是頻譜效率的顯著飛躍，實驗驗證了先前僅限於模擬的領域。神經等化器優雅而強大。然而，缺陷——許多基於機器學習的通訊論文的共同點——是其「黑盒子」性質。論文沒有深入探討神經網路的架構搜尋、訓練資料大小，或對不同相機、鏡頭或環境光條件的泛化能力。網路是否需要為每個新的接收器模型重新訓練？正如O'Shea & Hoydis關於機器學習用於通訊的開創性綜述中所指出的，基於深度學習的接收器的實用性取決於其對變化條件的穩健性和適應性。此外，4公尺的距離雖然不錯，但仍暗示了功率/訊噪比的限制。依賴LDPC解碼器來實現最終的無誤差效能，表明神經網路輸出的原始符號錯誤率並非為零，這引發了關於等化器在較低訊噪比下獨立效能的疑問。

可行見解： 對於研究人員來說，明確的下一步是打開黑盒子。研究神經網路架構（卷積神經網路可能更好地處理感測器上的空間變化）、探索少樣本學習或遷移學習以適應新硬體，並將等化器與前向錯誤更正以更整體、類似渦輪碼的結構整合。對於產業界，這項工作標誌著使用商用相機實現高資料速率、無閃爍的可見光通訊正逐漸接近現實。與Sony在感測器方面的合作值得注意；商業化將取決於將此類神經處理有效地嵌入相機ASIC中，或利用智慧型手機中已有的裝置端AI加速器。值得關注的標準是IEEE 802.15.7r1 (OCC)，像這樣的貢獻可能直接影響其演進。

5. 技術細節與數學公式

色彩空間轉換： 從接收到的RGB值（來自原始感測器）到CIE 1931 xy座標的轉換，是使用一個標準矩陣執行的，該矩陣源自感測器相對於CIE標準觀察者的光譜特性。論文提供了所使用的特定矩陣： $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ 這是一個簡化的線性轉換。實際上，更準確的模型可能需要非線性映射或針對特定感測器色彩濾光片量身訂製的矩陣。

神經網路輸出至LLR： 多標籤神經網路輸出第$i$個位元（共9個）為'1'的機率$p_i(1|x, y)$。傳遞給LDPC解碼器的該位元對數似然比$L_i$計算如下： $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ 一個大的正LLR表示高度確信該位元為1，一個大的負值表示高度確信該位元為0。

6. 分析框架與案例範例

框架：適用於OCC的「學習型接收器」流程

這項研究例證了一個現代「學習型接收器」設計模式，其適用性超越OCC。該框架可以分解為連續的、可最佳化的區塊：

硬體感知資料擷取： 在處理鏈中最早、最原始的點擷取訊號（例如，感測器RAW資料、射頻I/Q樣本）。
可微分預處理： 以可微分的方式應用最小必要預處理（例如，色彩空間轉換、同步），以便在端到端訓練時允許梯度流動。
神經網路核心： 使用神經網路（多層感知器、卷積神經網路、Transformer）來執行核心解調/等化任務。網路使用直接最小化符號或位元錯誤率的損失函數進行訓練，對於分類任務通常使用交叉熵損失。
混合解碼： 將神經網路的軟輸出（機率、LLR）與最先進的非神經錯誤更正解碼器（如LDPC或極化碼解碼器）介接。這結合了學習的靈活性與經典編碼理論的已證實最優性。

非程式碼案例範例：將框架應用於水下可見光通訊

考慮將相同的框架應用於水下可見光通訊，該通訊方式受到嚴重的通道損傷，如散射和湍流引起的衰落。UVLC的「學習型接收器」可以如下建構：

步驟1： 使用高速光電探測器或相機擷取原始強度序列。
步驟2： 進行預處理以隔離感興趣的訊號區域並執行粗略同步。
步驟3： 在此原始序列資料上訓練一維卷積神經網路或循環神經網路（如LSTM）。網路的任務是等化時變通道效應並解映射符號。訓練資料將在各種水體濁度和湍流條件下收集。
步驟4： 網路為FEC解碼器輸出軟決策，從而在傳統通道估計失效的高度動態通道中實現穩健通訊。

7. 未來應用與研究方向

基於智慧型手機的Li-Fi： 最終目標是將此技術整合到智慧型手機中，利用現有的相機硬體，實現安全、高速的點對點資料傳輸或公分級精度的室內定位。
汽車V2X通訊： 使用車輛頭燈/尾燈和相機進行車聯網通訊，提供一個額外的、穩健的資料鏈路，作為基於射頻的DSRC/C-V2X的補充。
AR/VR與元宇宙介面： 在AR眼鏡與基礎設施之間，或在裝置之間實現低延遲、高頻寬的資料鏈路，以實現同步的共享體驗。
研究方向：
1. 端到端學習系統： 探索發射器星座圖形狀（透過神經網路）與接收器等化器的聯合最佳化，類似於「自動編碼器」通訊的概念。
2. 穩健性與標準化： 開發對不同相機型號、環境光和部分遮擋具有穩健性的神經接收器模型。這對於IEEE 802.15.7等標準化工作至關重要。
3. 超高速度OCC： 將高階CSK與使用高幀率或事件驅動相機的滾動快門或空間調變技術相結合，以突破Gbps障礙。
4. 語義通訊： 超越位元復原，使用OCC鏈路直接傳輸語義資訊（例如，物件識別碼、地圖資料），最佳化任務成功率而非位元錯誤率。

8. 參考文獻

H.-W. Chen等人，「8-CSK data transmission over 4 cm」，相關會議/期刊，2019。
C. Zhu等人，「16-CSK over 80 cm using a quadrichromatic LED」，相關會議/期刊，2016。
N. Murata等人，「16-digital CSK over 100 cm based on IEEE 802.15.7」，相關會議/期刊，2016。
P. Hu等人，「Tri-LEDs based 32-CSK over 3 cm」，相關會議/期刊，2019。
R. Singh等人，「Tri-LEDs based 32-CSK」，相關會議/期刊，2014。
O'Shea, T., & Hoydis, J. (2017). 「An Introduction to Deep Learning for the Physical Layer.」 IEEE Transactions on Cognitive Communications and Networking. （關於通訊機器學習的外部權威來源）
IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. （外部權威標準）
Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. （色彩科學的外部權威來源）
Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. （外部權威硬體來源）
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. （關於神經網路的外部權威來源）

目錄