فهرست مطالب
1. مقدمه و مرور کلی
این مقاله اولین نمایش عملی انتقال سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگه (۵۱۲-CSK) برای ارتباط نوری دوربین (OCC) را ارائه میدهد. دستاورد اصلی، دمدولاسیون بدون خطا در فاصله ۴ متری با استفاده از یک ماژول حسگر تصویر CMOS تجاری سونی IMX530 جفت شده با یک لنز ۵۰ میلیمتری و یک شبکه عصبی طبقهبندی چندبرچسبه سفارشی است که به عنوان یک همترازساز غیرخطی عمل میکند. این کار به طور قابل توجهی مرزهای چگالی داده در OCC را جابجا کرده و از طرحهای ۸، ۱۶ یا ۳۲-CSK که قبلاً نمایش داده شده بودند، به قلمرو مدولاسیون مرتبه بالا با ۵۱۲ رنگ (۹ بیت/نماد) حرکت میکند.
این پژوهش به یک چالش اساسی در OCC میپردازد: تداخل بین رنگی ناشی از حساسیت طیفی غیرایدهآل فیلترهای RGB دوربین، که صورتفلکی CSK ارسالی مبتنی بر فضای رنگی CIE 1931 را مخدوش میکند. همترازساز عصبی پیشنهادی، این اعوجاج غیرخطی را مستقیماً از دادههای خام حسگر جبران میکند و نیاز به مدلهای پیچیده پردازش سیگنال خطی را دور میزند.
۵۱۲ رنگ
مرتبه مدولاسیون (۹ بیت/نماد)
۴ متر
فاصله انتقال
بدون خطا
دمدولاسیون حاصل شده
آرایه ۸x8
پنل فرستنده LED
2. چارچوب فنی
2.1 پیکربندی و تنظیم گیرنده
سیستم گیرنده حول یک سیستم دوربین سونی Semiconductor Solutions ساخته شده است که قادر به خروجی دادن دادههای خام ۱۲-بیتی RGB بدون هیچ پردازش پسینی (دموزایکینگ، حذف نویز، بالانس سفیدی) است. این داده خام برای بازیابی دقیق رنگ حیاتی است. سیگنال از طریق یک لنز نوری ۵۰ میلیمتری از یک فرستنده آرایه صفحهای LED با ابعاد ۸x8 (پنل ۶.۵ سانتیمتری) دریافت میشود. مقادیر RGB دریافتی، قبل از ورود به همترازساز عصبی، ابتدا با استفاده از یک ماتریس تبدیل استاندارد فضای رنگ به مختصات رنگی CIE 1931 (x, y) تبدیل میشوند.
2.2 معماری همترازساز شبکه عصبی
قلب سیستم دمدولاسیون، یک شبکه عصبی چندبرچسبه است. هدف آن انجام همترازسازی غیرخطی، یعنی نگاشت مختصات مخدوش شده دریافتی (x, y) به محتملترین نماد ۹-بیتی ارسالی (برای ۵۱۲-CSK) است.
- لایه ورودی: ۲ واحد (مختصات رنگی x, y).
- لایههای پنهان: Nh لایه با Nu واحد در هر لایه (جزئیات معماری خاص اشاره شده اما در این گزیده به طور کامل فهرست نشده است).
- لایه خروجی: M = ۹ واحد، معادل ۹ بیت نماد ۵۱۲-CSK. شبکه برای طبقهبندی چندبرچسبه آموزش دیده است.
شبکه یک توزیع احتمال پسین $p(1|x, y)$ برای هر بیت خروجی میدهد. یک نسبت احتمال لگاریتمی (LLR) از این احتمالات محاسبه شده و متعاقباً توسط یک رمزگشای LDPC برای تصحیح خطای نهایی، رمزگشایی میشود.
2.3 نگاشت صورتفلکی ۵۱۲-CSK
۵۱۲ نماد به صورت استراتژیک در محدوده رنگی CIE 1931 فرستنده RGB-LED قرار داده شدهاند. نگاشت از رأس مربوط به رنگ اصلی آبی $(x=0.1805, y=0.0722)$ شروع شده و فضای موجود را به روشی "مثلثی" پر میکند. این امر نشاندهنده یک الگوریتم بستهبندی کارآمد برای بیشینهسازی فاصله اقلیدسی بین نقاط صورتفلکی درون محدوده رنگی فیزیکی است که برای کمینه کردن نرخ خطای نماد حیاتی است.
3. نتایج و تحلیل آزمایش
3.1 عملکرد نرخ خطای بیت در مقابل اندازه آرایه LED
آزمایش تعداد LEDهای فعال در آرایه فرستنده را از ۱x1 تا ۸x8 تغییر داد. این کار به طور مؤثر شدت نور و مساحتی که سیگنال روی حسگر تصویر اشغال میکند را تغییر میدهد. ویژگیهای نرخ خطای بیت (BER) در مقابل این متغیر ارزیابی شد. عملکرد موفق بدون خطا، استحکام همترازساز عصبی را در شدتهای سیگنال دریافتی و پروفایلهای فضایی مختلف نشان میدهد. استفاده از یک آرایه کامل ۸x8 احتمالاً با میانگینگیری روی پیکسلهای متعدد و کاهش تأثیر نویز، بهترین عملکرد را فراهم میکند.
3.2 مقایسه با کارهای پیشین
مقاله شامل یک شکل خلاصه (شکل ۱(c)) است که این کار را در مقایسه با نمایشهای قبلی OCC-CSK مقایسه میکند. تمایزهای کلیدی عبارتند از:
- مرتبه مدولاسیون: ۵۱۲-CSK به میزان زیادی از ۸-CSK [1]، ۱۶-CSK [2,3] و ۳۲-CSK [4,5] گزارش شده در کارهای آزمایشی پیشین فراتر میرود.
- فاصله: عملکرد ۴ متری رقابتی است، به ویژه با در نظر گرفتن مرتبه مدولاسیون بالا. این فاصله بین نمایشهای مرتبه بالا با برد بسیار کوتاه (۴-۳ سانتیمتر) و نمایشهای مرتبه پایین با برد طولانیتر (۱۰۰-۸۰ سانتیمتر) قرار میگیرد.
- تکنیک: استفاده از یک شبکه عصبی برای همترازسازی غیرخطی مستقیم از دادههای خام حسگر، رویکردی نوآورانه و بالقوه قابل تعمیمتر در مقایسه با تکنیکهای جبران خطی مبتنی بر مدل است.
4. تحلیل هستهای و تفسیر تخصصی
بینش هستهای: این مقاله فقط درباره دستیابی به تعداد رنگ بیشتر نیست؛ بلکه یک چرخش استراتژیک از مدلسازی فیزیک-محور به یادگیری داده-محور در بازیابی سیگنال نوری است. نویسندگان به طور ضمنی تصدیق میکنند که خط لوله اعوجاج پیچیده و غیرخطی در یک دوربین (تداخل فیلتر، غیرخطی بودن حسگر، آرتیفکتهای لنز) بهتر توسط یک تقریبزننده تابع جهانی (یک شبکه عصبی) مدیریت میشود تا توسط یک مدل تحلیلی با دقت استخراج شده اما اجتنابناپذیر ناقص. این امر انعکاسی از تغییر مشاهده شده در سایر زمینهها مانند ارتباطات بیسیم است، جایی که یادگیری عمیق به طور فزایندهای برای همترازسازی کانال و تشخیص نماد در کانالهای پیچیده و غیرخطی استفاده میشود.
جریان منطقی: منطق قانعکننده است: ۱) CSK مرتبه بالا برای توان عملیاتی مورد نیاز است. ۲) CSK مرتبه بالا به شدت به اعوجاج رنگ حساس است. ۳) اعوجاج رنگ دوربین پیچیده و غیرخطی است. ۴) بنابراین، از یک جبرانکننده غیرخطی (شبکه عصبی) که به صورت سرتاسری روی دادههای واقعی آموزش دیده استفاده کنید. استفاده از دادههای خام حسگر یک حرکت استادانه است - این کار حداکثر اطلاعات دستنخورده را قبل از اینکه هر پردازنده سیگنال تصویر (ISP) دوربین، تبدیلهای خاص خود (که اغلب اختصاصی و غیرقابل معکوس هستند) را اعمال کند، در اختیار شبکه عصبی قرار میدهد. این رویکرد یادآور فلسفه در عکاسی محاسباتی مدرن است، جایی که الگوریتمها روی دادههای خام حسگر برای حداکثر انعطافپذیری کار میکنند.
نقاط قوت و ضعف: نقطه قوت اصلی، جهش چشمگیر در بازده طیفی است که به صورت آزمایشی چیزی را تأیید میکند که قبلاً فقط در محدوده شبیهسازی بود. همترازساز عصبی ظریف و قدرتمند است. با این حال، ضعف - که در بسیاری از مقالات ارتباطات مبتنی بر ML مشترک است - ماهیت "جعبه سیاه" آن است. مقاله به جستجوی معماری شبکه عصبی، حجم داده آموزشی، یا قابلیت تعمیم به دوربینها، لنزها یا شرایط نور محیطی مختلف نمیپردازد. آیا شبکه برای هر مدل گیرنده جدیدی نیاز به آموزش مجدد خواهد داشت؟ همانطور که در یک مرور بنیادی توسط O'Shea & Hoydis در مورد یادگیری ماشین برای ارتباطات اشاره شده است، کاربردی بودن گیرندههای مبتنی بر DL به استحکام و سازگاری آنها با شرایط در حال تغییر بستگی دارد. علاوه بر این، فاصله ۴ متری، اگرچه خوب است، اما هنوز به محدودیت توان/SNR اشاره دارد. اتکا به یک رمزگشای LDPC برای عملکرد نهایی بدون خطا نشان میدهد که نرخ خطای نماد خام در خروجی شبکه عصبی صفر نیست و سؤالاتی را در مورد عملکرد مستقل همترازساز تحت SNR پایینتر مطرح میکند.
بینشهای عملی: برای پژوهشگران، گام بعدی واضح، باز کردن جعبه سیاه است. بررسی معماریهای شبکه عصبی (شبکههای عصبی کانولوشنی ممکن است تغییرات فضایی در سراسر حسگر را بهتر مدیریت کنند)، کاوش یادگیری کمنمونه یا انتقالی برای سازگاری با سختافزار جدید، و یکپارچهسازی همترازساز با تصحیح خطای رو به جلو در یک ساختار کلیتر و شبیه توربو. برای صنعت، این کار نشان میدهد که VLC با نرخ داده بالا و بدون سوسو با استفاده از دوربینهای متداول، به واقعیت نزدیکتر میشود. مشارکت با سونی برای حسگر قابل توجه است؛ تجاریسازی به تعبیه کارآمد چنین پردازش عصبی در ASICهای دوربین یا استفاده از شتابدهندههای هوش مصنوعی روی دستگاه که قبلاً در تلفنهای هوشمند وجود دارند، بستگی خواهد داشت. استانداردی که باید زیر نظر داشت IEEE 802.15.7r1 (OCC) است و مشارکتهایی مانند این میتواند مستقیماً بر تکامل آن تأثیر بگذارد.
5. جزئیات فنی و فرمولبندی ریاضی
تبدیل فضای رنگ: تبدیل از مقادیر RGB دریافتی (از حسگر خام) به مختصات xy در CIE 1931 با استفاده از یک ماتریس استاندارد مشتق شده از ویژگیهای طیفی حسگر نسبت به ناظر استاندارد CIE انجام میشود. مقاله ماتریس خاص استفاده شده را ارائه میدهد: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ این یک تبدیل خطی سادهشده است. در عمل، یک مدل دقیقتر ممکن است نیاز به یک نگاشت غیرخطی یا یک ماتریس متناسب با فیلترهای رنگ حسگر خاص داشته باشد.
خروجی شبکه عصبی به LLR: شبکه عصبی چندبرچسبه احتمال $p_i(1|x, y)$ را که بیت $i$-ام (از ۹ بیت) '1' است، خروجی میدهد. نسبت احتمال لگاریتمی (LLR) $L_i$ برای آن بیت، که به رمزگشای LDPC داده میشود، به صورت زیر محاسبه میشود: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ یک مقدار LLR مثبت بزرگ نشاندهنده اطمینان بالا به اینکه بیت ۱ است، و یک مقدار منفی بزرگ نشاندهنده اطمینان بالا به اینکه بیت ۰ است.
6. چارچوب تحلیل و مثال موردی
چارچوب: خط لوله "گیرنده یادگرفته" برای OCC
این پژوهش نمونهای از یک الگوی طراحی مدرن "گیرنده یادگرفته" است که فراتر از OCC قابل اعمال است. چارچوب را میتوان به بلوکهای متوالی و بهینهپذیر تجزیه کرد:
- اکتساب داده آگاه از سختافزار: ثبت سیگنالها در اولین و خامترین نقطه در زنجیره پردازش (مثلاً داده RAW حسگر، نمونههای I/Q RF).
- پیشپردازش مشتقپذیر: اعمال حداقل پیشپردازش لازم (مانند تبدیل فضای رنگ، همگامسازی) به گونهای که در صورت آموزش سرتاسری، جریان گرادیان امکانپذیر باشد.
- هسته شبکه عصبی: استفاده از یک شبکه عصبی (MLP, CNN, Transformer) برای انجام وظیفه اصلی دمدولاسیون/همترازسازی. شبکه با یک تابع زیان آموزش دیده میشود که مستقیماً نرخ خطای نماد یا بیت را کمینه میکند، که اغلب از زیان آنتروپی متقاطع برای وظایف طبقهبندی استفاده میکند.
- رمزگشایی ترکیبی: واسط کردن خروجیهای نرم شبکه عصبی (احتمالات، LLRها) با یک رمزگشای تصحیح خطای غیرعصبی پیشرفته (مانند رمزگشای کد LDPC یا Polar). این کار انعطافپذیری یادگیری را با بهینگی اثبات شده تئوری کدگذاری کلاسیک ترکیب میکند.
مثال موردی غیرکد: اعمال چارچوب به VLC زیرآب
اعمال همین چارچوب به ارتباط نوری مرئی زیرآب (UVLC) را در نظر بگیرید که از اختلالات شدید کانال مانند پراکندگی و محو شدن ناشی از تلاطم رنج میبرد. یک "گیرنده یادگرفته" برای UVLC را میتوان به صورت زیر ساخت:
- گام ۱: استفاده از یک آشکارساز نوری پرسرعت یا دوربین که دنبالههای شدت خام را ثبت میکند.
- گام ۲: پیشپردازش برای جداسازی ناحیه مورد علاقه سیگنال و انجام همگامسازی تقریبی.
- گام ۳: آموزش یک شبکه عصبی کانولوشنی ۱ بعدی (CNN) یا یک شبکه عصبی بازگشتی (RNN) مانند LSTM روی این دادههای دنباله خام. وظیفه شبکه، همترازسازی اثرات کانال متغیر با زمان و دنگاشت نمادها است. داده آموزشی تحت شرایط مختلف کدورت آب و تلاطم جمعآوری میشود.
- گام ۴: شبکه تصمیمات نرمی را برای یک رمزگشای FEC خروجی میدهد که ارتباط قوی را در یک کانال بسیار پویا که تخمین کانال سنتی در آن شکست میخورد، امکانپذیر میسازد.
7. کاربردهای آینده و جهتهای پژوهشی
- Li-Fi مبتنی بر تلفن هوشمند: هدف نهایی، یکپارچهسازی این فناوری در تلفنهای هوشمند برای انتقال داده همتا به همتا ایمن و پرسرعت یا موقعیتیابی داخلی با دقت سانتیمتری، با استفاده از سختافزار دوربین موجود است.
- ارتباط خودرویی V2X: استفاده از چراغهای جلو/عقب خودرو و دوربینها برای ارتباط خودرو با همه چیز (V2X)، فراهم کردن یک پیوند داده اضافی و قوی که مکمل DSRC/C-V2X مبتنی بر RF است.
- رابطهای AR/VR و متاورس: امکانپذیر کردن پیوندهای داده با تأخیر کم و پهنای باند بالا بین عینکهای AR و زیرساخت یا بین دستگاهها برای تجربیات اشتراکی همگامشده.
- جهتهای پژوهشی:
- سیستمهای یادگرفته سرتاسری: کاوش بهینهسازی مشترک شکل صورتفلکی فرستنده (از طریق یک شبکه عصبی) و همترازساز گیرنده، مشابه مفهوم ارتباطات "خودرمزگذار".
- استحکام و استانداردسازی: توسعه مدلهای گیرنده عصبی که نسبت به مدلهای مختلف دوربین، نور محیط و انسداد جزئی مقاوم هستند. این امر برای تلاشهای استانداردسازی مانند IEEE 802.15.7 حیاتی است.
- OCC فوقپرسرعت: ترکیب CSK مرتبه بالا با تکنیکهای مدولاسیون شاتر غلتان یا فضایی با استفاده از دوربینهای با نرخ فریم بالا یا مبتنی بر رویداد برای شکستن مانع Gbps.
- ارتباط معنایی: حرکت فراتر از بازیابی بیت، استفاده از پیوند OCC برای انتقال مستقیم اطلاعات معنایی (مانند شناسههای شیء، داده نقشه)، بهینهسازی برای موفقیت وظیفه به جای نرخ خطای بیت.
8. مراجع
- H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference/Journal, 2019.
- C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Conference/Journal, 2016.
- N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference/Journal, 2016.
- P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Conference/Journal, 2019.
- R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference/Journal, 2014.
- O'Shea, T., & Hoydis, J. (2017). "An Introduction to Deep Learning for the Physical Layer." IEEE Transactions on Cognitive Communications and Networking. (منبع معتبر خارجی در مورد ML برای ارتباطات)
- IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (استاندارد معتبر خارجی)
- Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (منبع معتبر خارجی برای علم رنگ)
- Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (منبع معتبر خارجی سختافزار)
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (منبع معتبر خارجی در مورد شبکههای عصبی)