Kandungan
1. Pengenalan & Gambaran Keseluruhan
Kertas kerja ini membentangkan demonstrasi eksperimen pertama penghantaran isyarat 512-Color Shift Keying (512-CSK) untuk Komunikasi Kamera Optik (OCC). Pencapaian teras adalah penyahmodulatan tanpa ralat pada jarak 4 meter menggunakan modul sensor imej CMOS Sony IMX530 komersial yang dipasangkan dengan kanta 50-mm dan rangkaian neural klasifikasi pelabelan pelbagai (NN) tersuai yang bertindak sebagai penyelaras tak linear. Kerja ini dengan ketara meningkatkan had ketumpatan data OCC, beralih daripada skema 8, 16, atau 32-CSK yang telah ditunjukkan sebelum ini ke alam modulasi tertib tinggi 512 warna (9 bit/simbol).
Penyelidikan ini menangani cabaran asas dalam OCC: silang-bicara antara warna yang disebabkan oleh kepekaan spektrum penapis RGB kamera yang tidak ideal, yang memesongkan konstelasi CSK yang dihantar berdasarkan ruang warna CIE 1931. Penyelaras neural yang dicadangkan secara langsung mengimbangi herotan tak linear ini daripada data sensor mentalah, memintas keperluan untuk model pemprosesan isyarat linear yang kompleks.
512 Warna
Tertib Modulasi (9 bit/simbol)
4 Meter
Jarak Penghantaran
Tanpa Ralat
Penyahmodulatan Dicapai
Tatasusunan 8x8
Panel Pemancar LED
2. Kerangka Teknikal
2.1 Konfigurasi & Persediaan Penerima
Sistem penerima dibina berasaskan sistem kamera Sony Semiconductor Solutions yang mampu mengeluarkan data RGB mentalah 12-bit tanpa sebarang pasca pemprosesan (penyahmosakan, penyingkiran hingar, keseimbangan putih). Data mentalah ini adalah penting untuk pemulihan warna yang tepat. Isyarat ditangkap melalui kanta optik 50-mm daripada pemancar tatasusunan planar LED 8x8 (panel 6.5 cm). Nilai RGB yang diterima pertama kali ditukar kepada koordinat kromatisiti CIE 1931 (x, y) menggunakan matriks transformasi ruang warna piawai sebelum dimasukkan ke dalam penyelaras neural.
2.2 Seni Bina Penyelaras Rangkaian Neural
Inti sistem penyahmodulatan adalah rangkaian neural pelabelan pelbagai. Tujuannya adalah untuk melaksanakan penyelarasan tak linear, memetakan koordinat (x, y) yang diterima dan terherot kembali kepada simbol 9-bit yang paling berkemungkinan dihantar (untuk 512-CSK).
- Lapisan Input: 2 unit (koordinat kromatisiti x, y).
- Lapisan Tersembunyi: Nh lapisan dengan Nu unit setiap satu (butiran seni bina khusus difahami tetapi tidak disenaraikan sepenuhnya dalam petikan).
- Lapisan Output: M = 9 unit, sepadan dengan 9 bit simbol 512-CSK. Rangkaian ini dilatih untuk klasifikasi pelabelan pelbagai.
Rangkaian mengeluarkan taburan kebarangkalian posterior $p(1|x, y)$ untuk setiap bit. Nisbah Log-Kebarangkalian (LLR) dikira daripada kebarangkalian ini dan seterusnya dinyahkod oleh penyahkod Low-Density Parity-Check (LDPC) untuk pembetulan ralat akhir.
2.3 Pemetaan Konstelasi 512-CSK
512 simbol diletakkan secara strategik dalam gamut CIE 1931 pemancar RGB-LED. Pemetaan bermula dari bucu yang sepadan dengan warna primer biru $(x=0.1805, y=0.0722)$ dan mengisi ruang yang tersedia secara "segi tiga." Ini mencadangkan algoritma pekalan yang cekap untuk memaksimumkan jarak Euclidean antara titik konstelasi dalam gamut warna fizikal, yang penting untuk meminimumkan kadar ralat simbol.
3. Keputusan & Analisis Eksperimen
3.1 Prestasi BER vs. Saiz Tatasusunan LED
Eksperimen mengubah bilangan LED aktif dalam tatasusunan pemancar dari 1x1 hingga 8x8. Ini secara efektif mengubah keamatan cahaya dan kawasan yang diduduki isyarat pada sensor imej. Ciri-ciri Kadar Ralat Bit (BER) dinilai terhadap pemboleh ubah ini. Operasi tanpa ralat yang berjaya menunjukkan keteguhan penyelaras neural merentasi kekuatan isyarat dan profil spatial yang diterima berbeza. Penggunaan tatasusunan penuh 8x8 berkemungkinan memberikan prestasi terbaik dengan purata merentasi pelbagai piksel dan mengurangkan kesan hingar.
3.2 Perbandingan dengan Kerja Sebelumnya
Kertas kerja ini termasuk rajah ringkasan (Rajah 1(c)) yang membandingkan kerja ini dengan demonstrasi OCC-CSK sebelumnya. Pembeza utama adalah:
- Tertib Modulasi: 512-CSK jauh melebihi 8-CSK [1], 16-CSK [2,3], dan 32-CSK [4,5] yang dilaporkan dalam kerja eksperimen sebelumnya.
- Jarak: Operasi 4m adalah kompetitif, terutamanya memandangkan tertib modulasi tinggi. Ia berada antara demonstrasi tertib tinggi jarak sangat pendek (3-4 cm) dan demonstrasi tertib rendah jarak lebih panjang (80-100 cm).
- Teknik: Penggunaan rangkaian neural untuk penyelarasan tak linear langsung daripada data sensor mentalah adalah pendekatan yang novel dan berpotensi lebih boleh digeneralisasikan berbanding teknik pampasan linear berasaskan model.
4. Analisis Teras & Tafsiran Pakar
Wawasan Teras: Kertas kerja ini bukan sekadar tentang mencapai bilangan warna yang lebih tinggi; ia adalah perubahan strategik daripada pemodelan berasaskan fizik kepada pembelajaran berasaskan data dalam pemulihan isyarat optik. Penulis secara tersirat mengakui bahawa saluran herotan tak linear yang kompleks dalam kamera (silang-bicara penapis, ketaklinearan sensor, artifak kanta) lebih baik ditangani oleh penghampir fungsi universal (rangkaian neural) daripada model analitik yang diterbitkan dengan teliti tetapi tidak lengkap. Ini mencerminkan peralihan yang dilihat dalam bidang lain seperti komunikasi tanpa wayar, di mana Pembelajaran Mendalam semakin digunakan untuk penyelarasan saluran dan pengesanan simbol dalam saluran kompleks dan tak linear.
Aliran Logik: Logiknya menarik: 1) CSK tertib tinggi diperlukan untuk kadar pemindahan. 2) CSK tertib tinggi sangat sensitif kepada herotan warna. 3) He rotan warna kamera adalah kompleks dan tak linear. 4) Oleh itu, gunakan pampas tak linear (NN) yang dilatih hujung-ke-hujung pada data sebenar. Penggunaan data sensor mentalah adalah langkah bijak—ia menyediakan rangkaian neural dengan jumlah maklumat tidak terubah maksimum sebelum mana-mana ISP (Pemproses Isyarat Imej) kamera memperkenalkan transformasinya sendiri, yang sering proprietari dan tidak boleh diterbalikkan. Pendekatan ini mengingatkan falsafah dalam fotografi pengiraan moden, di mana algoritma bekerja pada data sensor mentalah untuk fleksibiliti maksimum.
Kekuatan & Kelemahan: Kekuatan utama adalah lonjakan dramatik dalam kecekapan spektrum, mengesahkan secara eksperimen apa yang sebelum ini hanya wilayah simulasi. Penyelaras neural adalah elegan dan berkuasa. Walau bagaimanapun, kelemahan—biasa dalam banyak kertas komunikasi berasaskan ML—adalah sifat "kotak hitam." Kertas kerja ini tidak menyelami carian seni bina NN, saiz data latihan, atau keupayaan generalisasi kepada kamera, kanta, atau keadaan cahaya ambien yang berbeza. Adakah rangkaian perlu dilatih semula untuk setiap model penerima baru? Seperti yang dinyatakan dalam ulasan penting mengenai pembelajaran mesin untuk komunikasi oleh O'Shea & Hoydis, kepraktisan penerima berasaskan DL bergantung pada keteguhan dan kebolehsesuaian mereka kepada keadaan berubah. Tambahan pula, jarak 4m, walaupun baik, masih membayangkan batasan kuasa/SNR. Kebergantungan pada penyahkod LDPC untuk prestasi tanpa ralat akhir menunjukkan kadar ralat simbol mentalah pada output NN bukan sifar, menimbulkan persoalan tentang prestasi penyelaras secara bersendirian di bawah SNR yang lebih rendah.
Wawasan Boleh Tindak: Untuk penyelidik, langkah seterusnya yang jelas adalah membuka kotak hitam. Siasat seni bina NN (CNN mungkin lebih baik mengendalikan variasi spatial merentasi sensor), terokai pembelajaran sedikit tembakan atau pindahan untuk menyesuaikan diri dengan perkakasan baru, dan integrasikan penyelaras dengan pembetulan ralat ke hadapan dalam struktur yang lebih holistik, seperti turbo. Untuk industri, kerja ini menandakan bahawa VLC kadar data tinggi, tanpa kelipan menggunakan kamera komoditi semakin hampir kepada realiti. Perkongsian dengan Sony untuk sensor adalah ketara; pengkomersialan akan bergantung pada menanam pemprosesan neural sedemikian dengan cekap ke dalam ASIC kamera atau memanfaatkan pemecut AI pada peranti yang sudah ada dalam telefon pintar. Piawaian yang perlu diperhatikan adalah IEEE 802.15.7r1 (OCC), dan sumbangan seperti ini boleh secara langsung mempengaruhi evolusinya.
5. Butiran Teknikal & Formulasi Matematik
Penukaran Ruang Warna: Transformasi daripada nilai RGB yang diterima (daripada sensor mentalah) kepada koordinat xy CIE 1931 dilakukan menggunakan matriks piawai yang diterbitkan daripada ciri spektrum sensor relatif kepada pemerhati piawai CIE. Kertas kerja ini menyediakan matriks khusus yang digunakan: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ Ini adalah transformasi linear yang dipermudahkan. Dalam praktik, model yang lebih tepat mungkin memerlukan pemetaan tak linear atau matriks yang disesuaikan dengan penapis warna sensor tertentu.
Output Rangkaian Neural kepada LLR: NN pelabelan pelbagai mengeluarkan kebarangkalian $p_i(1|x, y)$ bahawa bit ke-$i$ (daripada 9) adalah '1'. Nisbah Log-Kebarangkalian (LLR) $L_i$ untuk bit itu, yang dimasukkan ke dalam penyahkod LDPC, dikira sebagai: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ LLR positif besar menunjukkan keyakinan tinggi bit itu adalah 1, nilai negatif besar menunjukkan keyakinan tinggi ia adalah 0.
6. Kerangka Analisis & Contoh Kes
Kerangka: Saluran "Penerima Terpelajar" untuk OCC
Penyelidikan ini menggambarkan corak reka bentuk "penerima terpelajar" moden yang boleh digunakan di luar OCC. Kerangka ini boleh dipecahkan kepada blok berurutan yang boleh dioptimumkan:
- Perolehan Data Sedar Perkakasan: Tangkap isyarat pada titik paling awal, paling mentalah dalam rantaian pemprosesan (cth., data RAW sensor, sampel I/Q RF).
- Pra-pemprosesan Boleh Bezakan: Gunakan pra-pemprosesan minimum, yang diperlukan (cth., penukaran ruang warna, penyegerakan) dengan cara yang boleh dibezakan untuk membenarkan aliran kecerunan jika melatih hujung-ke-hujung.
- Teras Rangkaian Neural: Gunakan rangkaian neural (MLP, CNN, Transformer) untuk melaksanakan tugas penyahmodulatan/penyelarasan teras. Rangkaian dilatih dengan fungsi kerugian yang secara langsung meminimumkan kadar ralat simbol atau bit, selalunya menggunakan kerugian entropi silang untuk tugas klasifikasi.
- Penyahkodan Hibrid: Antaramuka output lembut rangkaian neural (kebarangkalian, LLR) dengan penyahkod pembetulan ralat bukan neural terkini (seperti penyahkod kod LDPC atau Polar). Ini menggabungkan fleksibiliti pembelajaran dengan keoptimalan terbukti teori pengekodan klasik.
Contoh Kes Bukan Kod: Menggunakan Kerangka kepada VLC Bawah Air
Pertimbangkan menggunakan kerangka yang sama kepada Komunikasi Cahaya Nampak Bawah Air (UVLC), yang mengalami gangguan saluran teruk seperti serakan dan pudaran akibat pergolakan. "Penerima Terpelajar" untuk UVLC boleh dibina seperti berikut:
- Langkah 1: Gunakan pengesan foto berkelajuan tinggi atau kamera yang menangkap jujukan keamatan mentalah.
- Langkah 2: Pra-proses untuk mengasingkan kawasan isyarat yang diminati dan melaksanakan penyegerakan kasar.
- Langkah 3: Latih Rangkaian Neural Konvolusi 1D (CNN) atau Rangkaian Neural Berulang (RNN) seperti LSTM pada data jujukan mentalah ini. Tugas rangkaian adalah untuk menyelaraskan kesan saluran berubah masa dan menyahpeta simbol. Data latihan akan dikumpulkan di bawah pelbagai keadaan kekeruhan dan pergolakan air.
- Langkah 4: Rangkaian mengeluarkan keputusan lembut untuk penyahkod FEC, membolehkan komunikasi teguh dalam saluran yang sangat dinamik di mana anggaran saluran tradisional gagal.
7. Aplikasi Masa Depan & Hala Tuju Penyelidikan
- Li-Fi Berasaskan Telefon Pintar: Matlamat utama adalah mengintegrasikan teknologi ini ke dalam telefon pintar untuk pemindahan data rakan-ke-rakan yang selamat dan berkelajuan tinggi atau penentududukan dalaman dengan ketepatan peringkat sentimeter, memanfaatkan perkakasan kamera sedia ada.
- Komunikasi V2X Automotif: Menggunakan lampu hadapan/ekor kenderaan dan kamera untuk komunikasi Kenderaan-ke-Segala (V2X), menyediakan pautan data tambahan yang teguh pelengkap kepada DSRC/C-V2X berasaskan RF.
- Antaramuka AR/VR dan Metaverse: Membolehkan pautan data latensi rendah, jalur lebar tinggi antara cermin mata AR dan infrastruktur atau antara peranti untuk pengalaman kongsi yang disegerakkan.
- Hala Tuju Penyelidikan:
- Sistem Terpelajar Hujung-ke-Hujung: Meneroka pengoptimuman bersama bentuk konstelasi pemancar (melalui rangkaian neural) dan penyelaras penerima, serupa dengan konsep komunikasi "pengekod auto."
- Keteguhan & Pemiawaian: Membangunkan model penerima neural yang teguh kepada model kamera, cahaya ambien, dan okulsi separa yang berbeza. Ini adalah kritikal untuk usaha pemiawaian seperti IEEE 802.15.7.
- OCC Kelajuan Ultra-Tinggi: Menggabungkan CSK tertib tinggi dengan teknik modulasi pengatup-gelongsor atau spatial menggunakan kamera kadar bingkai tinggi atau berasaskan peristiwa untuk memecahkan halangan Gbps.
- Komunikasi Semantik: Bergerak melebihi pemulihan bit, menggunakan pautan OCC untuk menghantar maklumat semantik (cth., pengenal objek, data peta) secara langsung, mengoptimumkan untuk kejayaan tugas dan bukannya kadar ralat bit.
8. Rujukan
- H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference/Journal, 2019.
- C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Conference/Journal, 2016.
- N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference/Journal, 2016.
- P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Conference/Journal, 2019.
- R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference/Journal, 2014.
- O'Shea, T., & Hoydis, J. (2017). "An Introduction to Deep Learning for the Physical Layer." IEEE Transactions on Cognitive Communications and Networking. (Sumber berwibawa luaran mengenai ML untuk komunikasi)
- IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (Piawaian berwibawa luaran)
- Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (Sumber berwibawa luaran untuk sains warna)
- Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (Sumber perkakasan berwibawa luaran)
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (Sumber berwibawa luaran mengenai rangkaian neural)