目錄
1. 緒論
光學相機通訊(OCC)是一項極具前景的次世代光無線通訊技術,其利用相機中無所不在的CMOS影像感測器作為接收器,提供免授權、成本效益高的通訊管道。其關鍵挑戰在於提升資料吞吐量,此吞吐量受相機幀率與曝光時間限制,同時需維持無閃爍操作。色移鍵控(CSK)是IEEE 802.15.7標準中的一種調變方案,將資料映射至CIE 1931色度空間中的顏色,以提高資料速率。然而,相機光譜靈敏度造成的串擾需要補償。先前的研究展示在短距離內實現了最高32-CSK。本文首次實驗展示在4公尺距離上,使用基於神經網路的等化器處理非線性串擾,實現512-CSK訊號傳輸與無誤差解調。
2. 接收器配置
接收器系統基於Sony IMX530 CMOS影像感測器模組,搭配50mm鏡頭,能夠輸出未經後處理(去馬賽克、降噪、白平衡)的12位元原始RGB資料。
2.1 相機系統與原始資料
Sony相機系統輸出純粹的原始影像資料,保留了原始感測器讀數,這對於在任何色彩校正引入失真之前進行精確訊號處理至關重要。
2.2 色彩空間轉換
原始RGB值使用標準轉換矩陣轉換為CIE 1931 (x, y) 色度座標: $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$
2.3 神經網路等化器
一個多標籤分類神經網路作為等化器,用以補償非線性串擾。它具有2個輸入單元(x, y)、$N_h$個隱藏層(每層$N_u$個單元)以及$M=log_2(512)=9$個輸出單元(每個符號的位元數)。網路輸出一個後驗機率分佈$p(1|x,y)$,據此計算對數概似比(LLR)以輸入至LDPC解碼器。512-CSK的星座點從藍色頂點(x=0.1805, y=0.0722)開始以三角形方式排列。
3. 實驗結果
3.1 實驗設置
傳輸使用一個8x8 LED平面陣列(面板尺寸:6.5公分)。啟動的LED數量從1x1變化到8x8,以根據佔據的影像區域(光強度)評估位元錯誤率(BER)。傳輸距離固定為4公尺。
3.2 位元錯誤率效能
該系統實現了512-CSK的無誤差解調。針對拍攝影像中的有效LED區域評估了BER特性。神經等化器成功減輕了串擾,使得在此高調變階數下能夠實現可靠解調,而傳統線性方法在此情況下將會失敗。
關鍵效能指標
調變階數: 512-CSK(9位元/符號)
傳輸距離: 4公尺
結果: 達成無誤差解調
4. 核心洞察與分析
5. 技術細節
核心技術挑戰在於理想的CIE 1931色彩空間與相機實際光譜靈敏度之間的不匹配,如PDF中圖1(b)所示。這導致接收到的(R, G, B)值是發射強度的線性混合。轉換到(x, y)有所幫助,但無法消除非線性。神經網路透過其$N_h$個隱藏層,學習函數$f: (x, y) \rightarrow \mathbf{p}$,其中$\mathbf{p}$是一個9維的位元機率向量。第$k$個位元的LLR計算如下: $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ 這些LLR為強大的LDPC解碼器提供了軟輸入,使其能夠進行前向錯誤更正,以達成最終的無誤差結果。
6. 分析框架範例
案例:評估新相機用於OCC。 本研究提供了一個框架,用於評估任何相機對高階CSK的適用性。
- 資料擷取: 使用校準後的LED陣列發射已知的512-CSK符號。使用待測相機擷取原始感測器資料。
- 預處理: 使用標準矩陣將原始RGB區塊轉換為CIE 1931 (x, y)座標。
- 模型訓練: 訓練一個多標籤神經網路(例如,簡單的3層MLP),將接收到的(x, y)叢集映射回512個發射的符號標籤。訓練集是已知的符號映射。
- 效能指標: LDPC解碼後的最終驗證準確率或BER直接指示了相機的能力。高準確率表示固有的失真低或線性度高,使其成為良好的OCC接收器。
- 比較: 對不同相機重複此過程。所需的神經網路複雜度(深度$N_h$、寬度$N_u$)成為相機串擾嚴重程度的代理指標。
7. 未來應用與方向
應用:
- 精準室內定位: 高資料速率的OCC可以傳輸複雜的位置指紋或地圖,同時傳送ID碼。
- 擴增實境(AR)連結: 智慧燈具可以將物體或藝術品的元資料直接廣播到智慧型手機相機,實現無需雲端查詢的無縫AR體驗。
- 射頻敏感區域的工業物聯網: 在醫院或飛機等場所,利用現有設施照明,實現機器人、感測器與控制器之間的通訊。
- 水下通訊: 使用CSK的藍綠光LED可以為潛水器與感測器提供更高的資料速率。
- 端到端學習: 超越分離的區塊(解調、等化、解碼),轉向直接為最小化BER而訓練的單一深度網路。
- 動態通道補償: 開發能夠即時適應變動條件(如相機自動曝光、動態模糊或環境光變化)的神經網路。
- 神經網路架構標準化: 提出輕量級、標準化的等化用神經網路模型,以便在相機硬體或韌體中實現。
- 與6G願景整合: 將OCC定位為6G異質網路架構內的互補技術,正如Next G聯盟白皮書中所探討的。
8. 參考文獻
- H.-W. Chen等人,「8-CSK data transmission over 4 cm,」Relevant Conference,2019。
- C. Zhu等人,「16-CSK over 80 cm using a quadrichromatic LED,」Relevant Journal,2016。
- N. Murata等人,「16-digital CSK over 100 cm based on IEEE 802.15.7,」Relevant Conference,2016。
- P. Hu等人,「Tri-LEDs based 32-CSK over 3 cm,」Relevant Journal,2019。
- R. Singh等人,「Tri-LEDs based 32-CSK,」Relevant Conference,2014。
- J.-Y. Zhu等人,「Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks,」IEEE International Conference on Computer Vision (ICCV),2017。(基於學習的領域轉換概念外部來源)
- IEEE Communications Society,「Visible Light Communication: A Roadmap for Standardization,」技術報告,2022。(產業挑戰外部來源)
- Next G Alliance,「6G Vision and Framework,」白皮書,2023。(未來網路整合外部來源)
- 「Commission Internationale de l'Eclairage (CIE) 1931 color space,」標準。
- Sony Semiconductor Solutions Corporation,「IMX530 Sensor Datasheet,」技術規格。
核心洞察
這項工作不僅僅是將CSK推至512色;它是一個從基於物理的訊號清理策略性轉向資料驅動重建的過程。真正的突破在於,將嚴重的通道間串擾不是視為需要濾除的雜訊問題,而是視為一個確定性、非線性的失真映射,由神經網路學習並反轉。這反映了在計算成像領域所見的典範轉移,例如CycleGAN論文(Zhu等人,2017)中討論的深度學習模型,能夠在無配對範例的情況下學習領域間的轉換(例如,從有雜訊到乾淨)。在此,神經網路學習了相機光譜「指紋」的反函數。
邏輯流程
其邏輯具有說服力:1) 高階CSK的瓶頸在於串擾。2) 相機串擾複雜且非線性。3) 因此,使用在接收資料上訓練的通用函數逼近器(神經網路)來建模並消除它。從原始感測器資料 -> CIE 1931轉換 -> 神經網路等化器 -> LDPC解碼器的流程,是一個現代、混合的訊號處理鏈。它巧妙地使用標準化的CIE空間作為穩定的中間表示,將色彩科學與通訊理論分離。
優勢與缺陷
優勢: 此展示在實證上穩固,在實用的4公尺距離上達成了創紀錄的512-CSK。使用原始感測器資料繞過了破壞性的相機ISP處理流程——這是一個關鍵且常被忽視的策略。該方法與接收器無關;神經網路可以針對任何相機重新訓練。缺陷: 此方法本質上需要大量資料,且需要針對每台相機進行校準。論文未提及神經網路的複雜度、延遲和功耗——這些對於即時、行動OCC應用是致命的細節。8x8 LED陣列是一個笨重的發射器,與OCC利用無所不在光源的目標相矛盾。正如IEEE ComSoc在VLC研究中指出的,可擴展性和互通性仍然是重大障礙。
可行洞察
對於研究人員:未來在於輕量級、或許是聯邦學習模型,用於裝置端校準。探索基於Transformer的架構,其處理序列符號失真的能力可能優於前饋神經網路。對於產業界:此技術已準備好用於利基、固定安裝的場景(博物館導覽、工廠機器人通訊),其中發射器和接收器是穩定的。與相機感測器製造商(如本文中的Sony)合作,將預訓練或易於訓練的等化器模組直接嵌入感測器的數位後端,使「OCC就緒」相機成為可銷售的特色。