選擇語言

首次利用神經網絡均衡實現512色移鍵控信號解調嘅光學相機通訊實驗演示

利用CMOS圖像傳感器同多標籤神經網絡均衡器,實現無誤碼解調嘅512-CSK光學相機通訊傳輸實驗演示。
rgbcw.org | PDF Size: 0.4 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - 首次利用神經網絡均衡實現512色移鍵控信號解調嘅光學相機通訊實驗演示

目錄

1. 引言與概述

本文首次展示咗用於光學相機通訊嘅512色移鍵控信號傳輸實驗。核心成果係喺4米距離下,利用商用Sony IMX530 CMOS圖像傳感器模組配合50毫米鏡頭,以及一個作為非線性均衡器嘅自訂多標籤分類神經網絡,實現咗無誤碼解調。呢項工作將OCC嘅數據密度推至新高,從先前展示嘅8、16或32-CSK方案,躍升至512色(每符號9比特)嘅高階調製領域。

研究解決咗OCC中一個基本挑戰:由相機RGB濾光片非理想光譜靈敏度引起嘅顏色間串擾,呢種串擾會扭曲基於CIE 1931色彩空間傳輸嘅CSK星座圖。所提出嘅神經均衡器直接從原始傳感器數據補償呢種非線性失真,無需依賴複雜嘅線性信號處理模型。

512色

調製階數(每符號9比特)

4米

傳輸距離

無誤碼

實現解調

8x8陣列

LED發射器面板

2. 技術框架

2.1 接收器配置與設置

接收器系統圍繞一個Sony Semiconductor Solutions相機系統構建,該系統能夠輸出12位原始RGB數據,無需任何後處理(去馬賽克、降噪、白平衡)。呢啲原始數據對於準確顏色恢復至關重要。信號透過一個50毫米光學鏡頭,從一個8x8 LED平面陣列發射器(6.5厘米面板)捕獲。接收到嘅RGB值首先使用標準色彩空間轉換矩陣轉換為CIE 1931 (x, y)色度座標,然後再輸入神經均衡器。

2.2 神經網絡均衡器架構

解調系統嘅核心係一個多標籤神經網絡。其目的係執行非線性均衡,將失真嘅接收(x, y)座標映射返最有可能傳輸嘅9比特符號(對於512-CSK)。

  • 輸入層: 2個單元(x, y色度座標)。
  • 隱藏層: Nh層,每層有Nu個單元(摘要中暗示咗具體架構細節但未完全列舉)。
  • 輸出層: M = 9個單元,對應512-CSK符號嘅9個比特。該網絡為多標籤分類而訓練。

網絡為每個比特輸出一個後驗概率分佈$p(1|x, y)$。從呢啲概率計算對數似然比,然後由低密度奇偶校驗解碼器進行最終糾錯解碼。

2.3 512-CSK星座圖映射

512個符號策略性地放置喺RGB-LED發射器嘅CIE 1931色域內。映射從對應藍色原色嘅頂點$(x=0.1805, y=0.0722)$開始,以「三角形方式」填充可用空間。呢表明咗一種高效嘅封裝算法,旨在物理色域內最大化星座點之間嘅歐幾里得距離,對於最小化符號錯誤率至關重要。

3. 實驗結果與分析

3.1 誤碼率性能與LED陣列尺寸關係

實驗將發射器陣列中嘅有效LED數量從1x1變化到8x8。呢實際上改變咗光強度同信號喺圖像傳感器上佔據嘅面積。針對呢個變量評估咗誤碼率特性。成功嘅無誤碼操作證明咗神經均衡器喺不同接收信號強度同空間分佈下嘅穩健性。使用完整嘅8x8陣列可能通過對多個像素取平均同降低噪聲影響,提供最佳性能。

3.2 與先前工作嘅比較

本文包含一個總結圖(圖1(c)),將呢項工作同先前嘅OCC-CSK演示進行比較。主要區別在於:

  • 調製階數: 512-CSK遠遠超過先前實驗工作中報告嘅8-CSK [1]、16-CSK [2,3] 同 32-CSK [4,5]。
  • 距離: 4米操作具有競爭力,特別係考慮到高調製階數。佢介乎於超短距離(3-4厘米)高階演示同較長距離(80-100厘米)低階演示之間。
  • 技術: 使用神經網絡從原始傳感器數據進行直接非線性均衡,相比基於模型嘅線性補償技術,係一種新穎且可能更具通用性嘅方法。

4. 核心分析與專家解讀

核心見解: 本文唔單止係關於實現更多顏色數量;佢係光學信號恢復領域從物理優先建模到數據優先學習嘅戰略性轉向。作者隱含地承認,相機中複雜嘅非線性失真流程(濾光片串擾、傳感器非線性、鏡頭偽影)由一個通用函數逼近器(神經網絡)處理,會比由一個精心推導但必然唔完整嘅分析模型處理得更好。呢反映咗無線通訊等其他領域中見到嘅轉變,深度學習越來越多地用於複雜非線性通道中嘅通道均衡同符號檢測。

邏輯流程: 邏輯令人信服:1) 高吞吐量需要高階CSK。2) 高階CSK對顏色失真高度敏感。3) 相機顏色失真複雜且非線性。4) 因此,使用喺真實數據上端到端訓練嘅非線性補償器(神經網絡)。使用原始傳感器數據係一個高明之舉——佢為神經網絡提供咗最大量嘅未經修改信息,喺任何相機ISP引入其自身(通常係專有且不可逆嘅)轉換之前。呢種方法令人聯想到現代計算攝影學中嘅理念,即算法喺原始傳感器數據上工作以獲得最大靈活性。

優點與不足: 主要優點係頻譜效率嘅巨大飛躍,實驗驗證咗先前僅限於模擬嘅領域。神經均衡器優雅而強大。然而,不足之處——許多基於機器學習嘅通訊論文嘅通病——係「黑盒」性質。本文冇深入探討神經網絡嘅架構搜索、訓練數據大小,或者對不同相機、鏡頭或環境光條件嘅泛化能力。係咪每個新接收器型號都需要重新訓練網絡?正如O'Shea & Hoydis關於機器學習用於通訊嘅一篇開創性綜述中指出,基於深度學習嘅接收器嘅實用性取決於佢哋對變化條件嘅穩健性同適應性。此外,4米距離雖然唔錯,但仍然暗示咗功率/信噪比限制。依賴LDPC解碼器實現最終無誤碼性能,表明神經網絡輸出嘅原始符號錯誤率並非零,引發咗關於均衡器喺較低信噪比下獨立性能嘅疑問。

可行見解: 對於研究人員,清晰嘅下一步係打開黑盒。研究神經網絡架構(卷積神經網絡可能更好地處理傳感器上嘅空間變化),探索少樣本學習或遷移學習以適應新硬件,並將均衡器與前向糾錯以更整體、類似渦輪嘅結構集成。對於業界,呢項工作標誌著使用商用相機實現高數據速率、無閃爍可見光通訊正逐漸接近現實。與Sony喺傳感器方面嘅合作值得注意;商業化將取決於將呢類神經處理高效嵌入相機ASIC中,或者利用智能手機中已有嘅設備端AI加速器。需要關注嘅標準係IEEE 802.15.7r1 (OCC),而呢類貢獻可能直接影響其演進。

5. 技術細節與數學公式

色彩空間轉換: 從接收到嘅RGB值(來自原始傳感器)到CIE 1931 xy座標嘅轉換,係使用一個標準矩陣進行嘅,該矩陣源自傳感器相對於CIE標準觀察者嘅光譜特性。本文提供咗所用嘅特定矩陣: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ 呢係一個簡化嘅線性轉換。實際上,更準確嘅模型可能需要非線性映射或針對特定傳感器濾光片定制嘅矩陣。

神經網絡輸出到LLR: 多標籤神經網絡輸出第$i$個比特(共9個)為'1'嘅概率$p_i(1|x, y)$。傳遞畀LDPC解碼器嘅該比特對數似然比$L_i$計算如下: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ 一個大嘅正LLR表示高度確信該比特為1,一個大嘅負值表示高度確信該比特為0。

6. 分析框架與案例示例

框架:適用於OCC嘅「學習型接收器」流程

呢項研究例證咗一種現代「學習型接收器」設計模式,該模式適用於OCC之外嘅領域。該框架可以分解為連續、可優化嘅模塊:

  1. 硬件感知數據採集: 喺處理鏈中最早、最原始嘅點捕獲信號(例如,傳感器RAW數據、射頻I/Q樣本)。
  2. 可微分預處理: 以可微分嘅方式應用最少、必要嘅預處理(例如,色彩空間轉換、同步),以便喺端到端訓練時允許梯度流動。
  3. 神經網絡核心: 使用神經網絡(多層感知器、卷積神經網絡、Transformer)執行核心解調/均衡任務。該網絡使用直接最小化符號或比特錯誤率嘅損失函數進行訓練,對於分類任務通常使用交叉熵損失。
  4. 混合解碼: 將神經網絡嘅軟輸出(概率、LLR)與最先進嘅非神經糾錯解碼器(如LDPC或極化碼解碼器)接口。呢結合咗學習嘅靈活性同經典編碼理論嘅已證實最優性。

非代碼案例示例:將框架應用於水下可見光通訊

考慮將相同框架應用於水下可見光通訊,該通訊受到嚴重通道損傷,如散射同湍流引起嘅衰落。UVLC嘅「學習型接收器」可以構建如下:

  • 步驟1: 使用高速光電探測器或捕獲原始強度序列嘅相機。
  • 步驟2: 預處理以隔離感興趣嘅信號區域並執行粗略同步。
  • 步驟3: 喺呢啲原始序列數據上訓練一個一維卷積神經網絡或循環神經網絡(如LSTM)。網絡嘅任務係均衡時變通道效應同解映射符號。訓練數據將喺不同水體濁度同湍流條件下收集。
  • 步驟4: 網絡為FEC解碼器輸出軟判決,從而喺傳統通道估計失效嘅高度動態通道中實現穩健通訊。

7. 未來應用與研究方向

  • 基於智能手機嘅Li-Fi: 最終目標係將呢項技術集成到智能手機中,用於安全、高速嘅點對點數據傳輸或利用現有相機硬件實現厘米級精度嘅室內定位。
  • 汽車V2X通訊: 使用車輛頭燈/尾燈同相機進行車聯網通訊,提供一個額外、穩健嘅數據鏈路,作為基於射頻嘅DSRC/C-V2X嘅補充。
  • AR/VR與元宇宙接口: 實現AR眼鏡與基礎設施之間或設備之間嘅低延遲、高帶寬數據鏈路,用於同步共享體驗。
  • 研究方向:
    1. 端到端學習系統: 探索發射器星座圖形狀(透過神經網絡)同接收器均衡器嘅聯合優化,類似於「自動編碼器」通訊嘅概念。
    2. 穩健性與標準化: 開發對不同相機型號、環境光同部分遮擋具有穩健性嘅神經接收器模型。呢對於IEEE 802.15.7等標準化工作至關重要。
    3. 超高速OCC: 將高階CSK與使用高幀率或事件相機嘅滾動快門或空間調製技術相結合,以突破Gbps障礙。
    4. 語義通訊: 超越比特恢復,使用OCC鏈路直接傳輸語義信息(例如,物件標識符、地圖數據),針對任務成功率而非誤碼率進行優化。

8. 參考文獻

  1. H.-W. Chen等人,「8-CSK data transmission over 4 cm,」相關會議/期刊,2019。
  2. C. Zhu等人,「16-CSK over 80 cm using a quadrichromatic LED,」相關會議/期刊,2016。
  3. N. Murata等人,「16-digital CSK over 100 cm based on IEEE 802.15.7,」相關會議/期刊,2016。
  4. P. Hu等人,「Tri-LEDs based 32-CSK over 3 cm,」相關會議/期刊,2019。
  5. R. Singh等人,「Tri-LEDs based 32-CSK,」相關會議/期刊,2014。
  6. O'Shea, T., & Hoydis, J. (2017). 「An Introduction to Deep Learning for the Physical Layer.」 IEEE Transactions on Cognitive Communications and Networking. (關於通訊機器學習嘅外部權威來源)
  7. IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (外部權威標準)
  8. Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (色彩科學外部權威來源)
  9. Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (外部權威硬件來源)
  10. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (神經網絡外部權威來源)