विषय सूची
1. परिचय
ऑप्टिकल कैमरा संचार (OCC) अगली पीढ़ी के ऑप्टिकल वायरलेस संचार के लिए एक आशाजनक तकनीक है, जो कैमरों में सर्वव्यापी CMOS इमेज सेंसर को रिसीवर के रूप में उपयोग करती है। यह लाइसेंस-मुक्त, लागत-प्रभावी चैनल प्रदान करती है। एक प्रमुख चुनौती डेटा थ्रूपुट को बढ़ाना है, जो कैमरा फ्रेम दर और एक्सपोज़र समय द्वारा सीमित है, साथ ही फ्लिकर-मुक्त संचालन बनाए रखना है। कलर-शिफ्ट कीइंग (CSK), IEEE 802.15.7 से एक मॉड्यूलेशन योजना, डेटा दर बढ़ाने के लिए डेटा को CIE 1931 क्रोमैटिसिटी स्पेस में रंगों पर मैप करती है। हालांकि, कैमरा स्पेक्ट्रल संवेदनशीलता के कारण होने वाले क्रॉसटॉक के लिए क्षतिपूर्ति की आवश्यकता होती है। पूर्व प्रदर्शनों में कम दूरी पर 32-CSK तक हासिल किया गया था। यह पेपर 4 मीटर की दूरी पर त्रुटि-मुक्त डिमॉड्यूलेशन के साथ 512-CSK सिग्नल ट्रांसमिशन का पहला प्रायोगिक प्रदर्शन प्रस्तुत करता है, जो गैर-रैखिक क्रॉसटॉक को संभालने के लिए तंत्रिका नेटवर्क-आधारित समीकरणकर्ता का उपयोग करता है।
2. रिसीवर विन्यास
रिसीवर प्रणाली सोनी IMX530 CMOS इमेज सेंसर मॉड्यूल पर आधारित है जिसमें 50mm लेंस है, जो पोस्ट-प्रोसेसिंग (डीमोसाइकिंग, डीनॉइज़िंग, व्हाइट बैलेंसिंग) के बिना 12-बिट रॉ RGB डेटा आउटपुट करने में सक्षम है।
2.1 कैमरा प्रणाली और रॉ डेटा
सोनी कैमरा प्रणाली शुद्ध रॉ इमेज डेटा आउटपुट करती है, जो किसी भी रंग सुधार द्वारा विरूपण शुरू करने से पहले सटीक सिग्नल प्रोसेसिंग के लिए महत्वपूर्ण मूल सेंसर रीडिंग को संरक्षित करती है।
2.2 रंग स्थान रूपांतरण
रॉ RGB मानों को एक मानक परिवर्तन मैट्रिक्स का उपयोग करके CIE 1931 (x, y) क्रोमैटिसिटी निर्देशांक में परिवर्तित किया जाता है: $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$
2.3 तंत्रिका नेटवर्क समीकरणकर्ता
एक मल्टी-लेबल वर्गीकरण तंत्रिका नेटवर्क गैर-रैखिक क्रॉसटॉक की क्षतिपूर्ति के लिए एक समीकरणकर्ता के रूप में कार्य करता है। इसमें 2 इनपुट यूनिट (x, y), $N_h$ हिडन लेयर $N_u$ यूनिट के साथ, और $M=log_2(512)=9$ आउटपुट यूनिट (प्रति प्रतीक बिट) हैं। नेटवर्क एक पोस्टीरियर प्रायिकता वितरण $p(1|x,y)$ आउटपुट करता है, जिससे लॉग-लाइकलीहुड रेशियो (LLR) की गणना की जाती है ताकि इसे एक LDPC डिकोडर में इनपुट किया जा सके। 512-CSK के लिए नक्षत्र बिंदु नीले शीर्ष (x=0.1805, y=0.0722) से शुरू होकर त्रिकोणीय रूप से व्यवस्थित किए गए हैं।
3. प्रयोग परिणाम
3.1 प्रायोगिक सेटअप
ट्रांसमिशन के लिए एक 8x8 LED प्लानर ऐरे (पैनल आकार: 6.5 सेमी) का उपयोग किया गया। सक्रिय LED की संख्या 1x1 से 8x8 तक भिन्न की गई ताकि कब्जा किए गए इमेज क्षेत्र (प्रकाश तीव्रता) के आधार पर बिट एरर रेट (BER) का मूल्यांकन किया जा सके। ट्रांसमिशन दूरी 4 मीटर पर निश्चित रखी गई थी।
3.2 BER प्रदर्शन
सिस्टम ने 512-CSK के लिए त्रुटि-मुक्त डिमॉड्यूलेशन हासिल किया। कैप्चर की गई छवि में प्रभावी LED क्षेत्र के विरुद्ध BER विशेषताओं का मूल्यांकन किया गया। तंत्रिका समीकरणकर्ता ने सफलतापूर्वक क्रॉसटॉक को कम किया, जिससे इस उच्च मॉड्यूलेशन क्रम पर विश्वसनीय डिमॉड्यूलेशन संभव हुआ जहां पारंपरिक रैखिक विधियां विफल हो जातीं।
मुख्य प्रदर्शन मापदंड
मॉड्यूलेशन क्रम: 512-CSK (9 बिट/प्रतीक)
ट्रांसमिशन दूरी: 4 मीटर
परिणाम: त्रुटि-मुक्त डिमॉड्यूलेशन हासिल
4. मूल अंतर्दृष्टि एवं विश्लेषण
5. तकनीकी विवरण
मूल तकनीकी चुनौती आदर्श CIE 1931 रंग स्थान और कैमरे की वास्तविक स्पेक्ट्रल संवेदनशीलता के बीच का बेमेल है, जैसा कि PDF के चित्र 1(b) में दिखाया गया है। इसके कारण प्राप्त (R, G, B) मान प्रेषित तीव्रताओं के रैखिक मिश्रण बन जाते हैं। (x, y) में रूपांतरण मदद करता है लेकिन गैर-रैखिकताओं को समाप्त नहीं करता। तंत्रिका नेटवर्क, अपनी $N_h$ हिडन लेयर के साथ, फ़ंक्शन $f: (x, y) \rightarrow \mathbf{p}$ सीखता है, जहां $\mathbf{p}$ बिट प्रायिकताओं का एक 9-आयामी वेक्टर है। $k$-वें बिट के लिए LLR की गणना इस प्रकार की जाती है: $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ ये LLR शक्तिशाली LDPC डिकोडर के लिए नरम इनपुट प्रदान करते हैं, जिससे अंतिम त्रुटि-मुक्त परिणाम प्राप्त करने के लिए फॉरवर्ड एरर करेक्शन सक्षम होता है।
6. विश्लेषण ढांचा उदाहरण
केस: OCC के लिए एक नए कैमरे का मूल्यांकन। यह शोध उच्च-क्रम CSK के लिए किसी भी कैमरे की उपयुक्तता को बेंचमार्क करने के लिए एक ढांचा प्रदान करता है।
- डेटा अधिग्रहण: एक कैलिब्रेटेड LED ऐरे का उपयोग करके ज्ञात 512-CSK प्रतीक प्रसारित करें। परीक्षणाधीन कैमरे के साथ रॉ सेंसर डेटा कैप्चर करें।
- पूर्व-प्रसंस्करण: मानक मैट्रिक्स का उपयोग करके रॉ RGB पैच को CIE 1931 (x, y) निर्देशांक में परिवर्तित करें।
- मॉडल प्रशिक्षण: एक मल्टी-लेबल तंत्रिका नेटवर्क (जैसे, एक साधारण 3-लेयर MLP) को प्रशिक्षित करें ताकि प्राप्त (x, y) क्लस्टर को वापस 512 प्रेषित प्रतीक लेबल पर मैप किया जा सके। प्रशिक्षण सेट ज्ञात प्रतीक मैपिंग है।
- प्रदर्शन मापदंड: LDPC डिकोडिंग के बाद अंतिम सत्यापन सटीकता या BER सीधे कैमरे की क्षमता को इंगित करती है। उच्च सटीकता निम्न अंतर्निहित विरूपण या उच्च रैखिकता का संकेत देती है, जिससे यह एक अच्छा OCC रिसीवर बनता है।
- तुलना: विभिन्न कैमरों के लिए दोहराएं। आवश्यक तंत्रिका नेटवर्क जटिलता (गहराई $N_h$, चौड़ाई $N_u$) कैमरे के क्रॉसटॉक की गंभीरता के लिए एक प्रॉक्सी बन जाती है।
7. भविष्य के अनुप्रयोग एवं दिशाएं
अनुप्रयोग:
- सटीक इनडोर पोजिशनिंग: उच्च-डेटा-दर OCC आईडी कोड के साथ-साथ जटिल स्थान फिंगरप्रिंट या मानचित्र प्रसारित कर सकता है।
- संवर्धित वास्तविकता (AR) लिंकेज: स्मार्ट लाइट्स वस्तुओं या कलाकृतियों के बारे में मेटाडेटा सीधे स्मार्टफोन कैमरों पर प्रसारित कर सकती हैं, जिससे बिना क्लाउड लुकअप के सहज AR सक्षम हो सके।
- RF-संवेदनशील क्षेत्रों में औद्योगिक IoT: अस्पतालों या विमानों में मौजूदा सुविधा प्रकाश व्यवस्था का उपयोग करके रोबोट, सेंसर और नियंत्रकों के बीच संचार।
- अंडरवाटर संचार: CSK का उपयोग करने वाले ब्लू-ग्रीन LED पनडुब्बी वाहनों और सेंसर के लिए उच्च डेटा दर प्रदान कर सकते हैं।
- एंड-टू-एंड लर्निंग: अलग-अलग ब्लॉक (डिमॉड्यूलेशन, समीकरण, डिकोडिंग) से आगे बढ़कर सीधे BER न्यूनीकरण के लिए प्रशिक्षित एक एकल गहन नेटवर्क की ओर।
- डायनेमिक चैनल क्षतिपूर्ति: ऐसे NN विकसित करना जो कैमरा ऑटो-एक्सपोज़र, मोशन ब्लर, या परिवेश प्रकाश परिवर्तन जैसी बदलती परिस्थितियों के लिए वास्तविक समय में अनुकूलन कर सकें।
- NN आर्किटेक्चर का मानकीकरण: समीकरण के लिए हल्के, मानकीकृत NN मॉडल प्रस्तावित करना जिन्हें कैमरा हार्डवेयर या फर्मवेयर में लागू किया जा सकता है।
- 6G विजन के साथ एकीकरण: OCC को 6G के विषम नेटवर्क आर्किटेक्चर के भीतर एक पूरक तकनीक के रूप में स्थापित करना, जैसा कि नेक्स्ट जी एलायंस के श्वेत पत्रों में अन्वेषित किया गया है।
8. संदर्भ
- H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference, 2019.
- C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Journal, 2016.
- N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference, 2016.
- P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Journal, 2019.
- R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference, 2014.
- J.-Y. Zhu et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," IEEE International Conference on Computer Vision (ICCV), 2017. (सीखने-आधारित डोमेन अनुवाद अवधारणा के लिए बाहरी स्रोत)
- IEEE Communications Society, "Visible Light Communication: A Roadmap for Standardization," Technical Report, 2022. (उद्योग चुनौतियों के लिए बाहरी स्रोत)
- Next G Alliance, "6G Vision and Framework," White Paper, 2023. (भविष्य के नेटवर्क एकीकरण के लिए बाहरी स्रोत)
- "Commission Internationale de l'Eclairage (CIE) 1931 color space," Standard.
- Sony Semiconductor Solutions Corporation, "IMX530 Sensor Datasheet," Technical Specification.
मूल अंतर्दृष्टि
यह कार्य केवल CSK को 512 रंगों तक धकेलने के बारे में नहीं है; यह भौतिकी-आधारित सिग्नल सफाई से डेटा-संचालित पुनर्निर्माण की ओर एक रणनीतिक मोड़ है। वास्तविक सफलता गंभीर इंटर-चैनल क्रॉसटॉक को फ़िल्टर किए जाने वाली शोर समस्या के रूप में नहीं, बल्कि एक निर्धारित, गैर-रैखिक विरूपण मानचित्र के रूप में मानने में है जिसे तंत्रिका नेटवर्क द्वारा सीखा और उलटा किया जा सकता है। यह कम्प्यूटेशनल इमेजिंग में देखे गए प्रतिमान बदलाव को दर्शाता है, जहां CycleGAN पेपर (Zhu et al., 2017) में चर्चित गहन शिक्षण मॉडल जोड़े उदाहरणों के बिना डोमेन (जैसे, शोरयुक्त से स्वच्छ) के बीच अनुवाद करना सीखते हैं। यहां, NN कैमरे के स्पेक्ट्रल 'फिंगरप्रिंट' का व्युत्क्रम सीखता है।
तार्किक प्रवाह
तर्क प्रभावशाली है: 1) उच्च-क्रम CSK क्रॉसटॉक द्वारा बाधित है। 2) कैमरा क्रॉसटॉक जटिल और गैर-रैखिक है। 3) इसलिए, इसे मॉडल और रद्द करने के लिए प्राप्त डेटा पर प्रशिक्षित एक सार्वभौमिक फ़ंक्शन अनुमानित (एक तंत्रिका नेटवर्क) का उपयोग करें। रॉ सेंसर डेटा -> CIE 1931 रूपांतरण -> NN समीकरणकर्ता -> LDPC डिकोडर का प्रवाह एक आधुनिक, संकर सिग्नल प्रोसेसिंग श्रृंखला है। यह चतुराई से मानकीकृत CIE स्पेस को एक स्थिर मध्यवर्ती प्रतिनिधित्व के रूप में उपयोग करता है, रंग विज्ञान को संचार सिद्धांत से अलग करता है।
शक्तियां एवं कमियां
शक्तियां: प्रदर्शन अनुभवजन्य रूप से ठोस है, जो एक व्यावहारिक 4m दूरी पर रिकॉर्ड 512-CSK हासिल करता है। रॉ सेंसर डेटा का उपयोग विनाशकारी कैमरा ISP पाइपलाइनों को दरकिनार करता है—एक महत्वपूर्ण, अक्सर अनदेखी की जाने वाली रणनीति। यह विधि रिसीवर-अज्ञेयवादी है; NN को किसी भी कैमरे के लिए पुनः प्रशिक्षित किया जा सकता है। कमियां: यह दृष्टिकोण स्वाभाविक रूप से डेटा-भूखा है और प्रति-कैमरा कैलिब्रेशन की आवश्यकता है। पेपर NN की जटिलता, विलंबता और बिजली की खपत पर मौन है—वास्तविक समय, मोबाइल OCC के लिए घातक विवरण। 8x8 LED ऐरे एक भारी ट्रांसमीटर है, जो सर्वव्यापी प्रकाश स्रोतों का लाभ उठाने के OCC के लक्ष्य का खंडन करता है। IEEE ComSoc के VLC पर शोध में उल्लेखित अनुसार, स्केलेबिलिटी और इंटरऑपरेबिलिटी महत्वपूर्ण बाधाएं बनी हुई हैं।
कार्रवाई योग्य अंतर्दृष्टि
शोधकर्ताओं के लिए: भविष्य हल्के, शायद फ़ेडरेटेड लर्निंग मॉडल में है जो डिवाइस पर कैलिब्रेशन के लिए हैं। ट्रांसफॉर्मर-आधारित आर्किटेक्चर का अन्वेषण करें जो फीडफॉरवर्ड NN की तुलना में अनुक्रमिक प्रतीक विरूपण को बेहतर ढंग से संभाल सकते हैं। उद्योग के लिए: यह तकनीक विशिष्ट, स्थिर-स्थापना परिदृश्यों (संग्रहालय गाइड, कारखाना रोबोट संचार) के लिए तैयार है जहां ट्रांसमीटर और रिसीवर स्थिर हैं। कैमरा सेंसर निर्माताओं (जैसे इस पेपर में सोनी) के साथ साझेदारी करें ताकि पूर्व-प्रशिक्षित या आसानी से प्रशिक्षित करने योग्य समीकरणकर्ता ब्लॉक्स को सीधे सेंसर के डिजिटल बैकएंड में एम्बेड किया जा सके, जिससे "OCC-तैयार" कैमरे एक बिक्री योग्य विशेषता बन जाएं।