انتخاب زبان

اولین نمایش عملی دمدولاسیون سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگه با استفاده از همترازسازی عصبی برای ارتباط نوری دوربین

نمایش عملی انتقال OCC با ۵۱۲-CSK با استفاده از حسگر تصویر CMOS و یک همترازساز شبکه عصبی چندبرچسبه برای دمدولاسیون بدون خطا.
rgbcw.org | PDF Size: 0.4 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - اولین نمایش عملی دمدولاسیون سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگه با استفاده از همترازسازی عصبی برای ارتباط نوری دوربین

فهرست مطالب

1. مقدمه و مرور کلی

این مقاله اولین نمایش عملی انتقال سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگه (۵۱۲-CSK) برای ارتباط نوری دوربین (OCC) را ارائه می‌دهد. دستاورد اصلی، دمدولاسیون بدون خطا در فاصله ۴ متری با استفاده از یک ماژول حسگر تصویر CMOS تجاری سونی IMX530 جفت شده با یک لنز ۵۰ میلی‌متری و یک شبکه عصبی طبقه‌بندی چندبرچسبه سفارشی است که به عنوان یک همترازساز غیرخطی عمل می‌کند. این کار به طور قابل توجهی مرزهای چگالی داده در OCC را جابجا کرده و از طرح‌های ۸، ۱۶ یا ۳۲-CSK که قبلاً نمایش داده شده بودند، به قلمرو مدولاسیون مرتبه بالا با ۵۱۲ رنگ (۹ بیت/نماد) حرکت می‌کند.

این پژوهش به یک چالش اساسی در OCC می‌پردازد: تداخل بین رنگی ناشی از حساسیت طیفی غیرایده‌آل فیلترهای RGB دوربین، که صورت‌فلکی CSK ارسالی مبتنی بر فضای رنگی CIE 1931 را مخدوش می‌کند. همترازساز عصبی پیشنهادی، این اعوجاج غیرخطی را مستقیماً از داده‌های خام حسگر جبران می‌کند و نیاز به مدل‌های پیچیده پردازش سیگنال خطی را دور می‌زند.

۵۱۲ رنگ

مرتبه مدولاسیون (۹ بیت/نماد)

۴ متر

فاصله انتقال

بدون خطا

دمدولاسیون حاصل شده

آرایه ۸x8

پنل فرستنده LED

2. چارچوب فنی

2.1 پیکربندی و تنظیم گیرنده

سیستم گیرنده حول یک سیستم دوربین سونی Semiconductor Solutions ساخته شده است که قادر به خروجی دادن داده‌های خام ۱۲-بیتی RGB بدون هیچ پردازش پسینی (دموزایکینگ، حذف نویز، بالانس سفیدی) است. این داده خام برای بازیابی دقیق رنگ حیاتی است. سیگنال از طریق یک لنز نوری ۵۰ میلی‌متری از یک فرستنده آرایه صفحه‌ای LED با ابعاد ۸x8 (پنل ۶.۵ سانتی‌متری) دریافت می‌شود. مقادیر RGB دریافتی، قبل از ورود به همترازساز عصبی، ابتدا با استفاده از یک ماتریس تبدیل استاندارد فضای رنگ به مختصات رنگی CIE 1931 (x, y) تبدیل می‌شوند.

2.2 معماری همترازساز شبکه عصبی

قلب سیستم دمدولاسیون، یک شبکه عصبی چندبرچسبه است. هدف آن انجام همترازسازی غیرخطی، یعنی نگاشت مختصات مخدوش شده دریافتی (x, y) به محتمل‌ترین نماد ۹-بیتی ارسالی (برای ۵۱۲-CSK) است.

  • لایه ورودی: ۲ واحد (مختصات رنگی x, y).
  • لایه‌های پنهان: Nh لایه با Nu واحد در هر لایه (جزئیات معماری خاص اشاره شده اما در این گزیده به طور کامل فهرست نشده است).
  • لایه خروجی: M = ۹ واحد، معادل ۹ بیت نماد ۵۱۲-CSK. شبکه برای طبقه‌بندی چندبرچسبه آموزش دیده است.

شبکه یک توزیع احتمال پسین $p(1|x, y)$ برای هر بیت خروجی می‌دهد. یک نسبت احتمال لگاریتمی (LLR) از این احتمالات محاسبه شده و متعاقباً توسط یک رمزگشای LDPC برای تصحیح خطای نهایی، رمزگشایی می‌شود.

2.3 نگاشت صورت‌فلکی ۵۱۲-CSK

۵۱۲ نماد به صورت استراتژیک در محدوده رنگی CIE 1931 فرستنده RGB-LED قرار داده شده‌اند. نگاشت از رأس مربوط به رنگ اصلی آبی $(x=0.1805, y=0.0722)$ شروع شده و فضای موجود را به روشی "مثلثی" پر می‌کند. این امر نشان‌دهنده یک الگوریتم بسته‌بندی کارآمد برای بیشینه‌سازی فاصله اقلیدسی بین نقاط صورت‌فلکی درون محدوده رنگی فیزیکی است که برای کمینه کردن نرخ خطای نماد حیاتی است.

3. نتایج و تحلیل آزمایش

3.1 عملکرد نرخ خطای بیت در مقابل اندازه آرایه LED

آزمایش تعداد LEDهای فعال در آرایه فرستنده را از ۱x1 تا ۸x8 تغییر داد. این کار به طور مؤثر شدت نور و مساحتی که سیگنال روی حسگر تصویر اشغال می‌کند را تغییر می‌دهد. ویژگی‌های نرخ خطای بیت (BER) در مقابل این متغیر ارزیابی شد. عملکرد موفق بدون خطا، استحکام همترازساز عصبی را در شدت‌های سیگنال دریافتی و پروفایل‌های فضایی مختلف نشان می‌دهد. استفاده از یک آرایه کامل ۸x8 احتمالاً با میانگین‌گیری روی پیکسل‌های متعدد و کاهش تأثیر نویز، بهترین عملکرد را فراهم می‌کند.

3.2 مقایسه با کارهای پیشین

مقاله شامل یک شکل خلاصه (شکل ۱(c)) است که این کار را در مقایسه با نمایش‌های قبلی OCC-CSK مقایسه می‌کند. تمایزهای کلیدی عبارتند از:

  • مرتبه مدولاسیون: ۵۱۲-CSK به میزان زیادی از ۸-CSK [1]، ۱۶-CSK [2,3] و ۳۲-CSK [4,5] گزارش شده در کارهای آزمایشی پیشین فراتر می‌رود.
  • فاصله: عملکرد ۴ متری رقابتی است، به ویژه با در نظر گرفتن مرتبه مدولاسیون بالا. این فاصله بین نمایش‌های مرتبه بالا با برد بسیار کوتاه (۴-۳ سانتی‌متر) و نمایش‌های مرتبه پایین با برد طولانی‌تر (۱۰۰-۸۰ سانتی‌متر) قرار می‌گیرد.
  • تکنیک: استفاده از یک شبکه عصبی برای همترازسازی غیرخطی مستقیم از داده‌های خام حسگر، رویکردی نوآورانه و بالقوه قابل تعمیم‌تر در مقایسه با تکنیک‌های جبران خطی مبتنی بر مدل است.

4. تحلیل هسته‌ای و تفسیر تخصصی

بینش هسته‌ای: این مقاله فقط درباره دستیابی به تعداد رنگ بیشتر نیست؛ بلکه یک چرخش استراتژیک از مدل‌سازی فیزیک-محور به یادگیری داده-محور در بازیابی سیگنال نوری است. نویسندگان به طور ضمنی تصدیق می‌کنند که خط لوله اعوجاج پیچیده و غیرخطی در یک دوربین (تداخل فیلتر، غیرخطی بودن حسگر، آرتیفکت‌های لنز) بهتر توسط یک تقریب‌زننده تابع جهانی (یک شبکه عصبی) مدیریت می‌شود تا توسط یک مدل تحلیلی با دقت استخراج شده اما اجتناب‌ناپذیر ناقص. این امر انعکاسی از تغییر مشاهده شده در سایر زمینه‌ها مانند ارتباطات بی‌سیم است، جایی که یادگیری عمیق به طور فزاینده‌ای برای همترازسازی کانال و تشخیص نماد در کانال‌های پیچیده و غیرخطی استفاده می‌شود.

جریان منطقی: منطق قانع‌کننده است: ۱) CSK مرتبه بالا برای توان عملیاتی مورد نیاز است. ۲) CSK مرتبه بالا به شدت به اعوجاج رنگ حساس است. ۳) اعوجاج رنگ دوربین پیچیده و غیرخطی است. ۴) بنابراین، از یک جبران‌کننده غیرخطی (شبکه عصبی) که به صورت سرتاسری روی داده‌های واقعی آموزش دیده استفاده کنید. استفاده از داده‌های خام حسگر یک حرکت استادانه است - این کار حداکثر اطلاعات دست‌نخورده را قبل از اینکه هر پردازنده سیگنال تصویر (ISP) دوربین، تبدیل‌های خاص خود (که اغلب اختصاصی و غیرقابل معکوس هستند) را اعمال کند، در اختیار شبکه عصبی قرار می‌دهد. این رویکرد یادآور فلسفه در عکاسی محاسباتی مدرن است، جایی که الگوریتم‌ها روی داده‌های خام حسگر برای حداکثر انعطاف‌پذیری کار می‌کنند.

نقاط قوت و ضعف: نقطه قوت اصلی، جهش چشمگیر در بازده طیفی است که به صورت آزمایشی چیزی را تأیید می‌کند که قبلاً فقط در محدوده شبیه‌سازی بود. همترازساز عصبی ظریف و قدرتمند است. با این حال، ضعف - که در بسیاری از مقالات ارتباطات مبتنی بر ML مشترک است - ماهیت "جعبه سیاه" آن است. مقاله به جستجوی معماری شبکه عصبی، حجم داده آموزشی، یا قابلیت تعمیم به دوربین‌ها، لنزها یا شرایط نور محیطی مختلف نمی‌پردازد. آیا شبکه برای هر مدل گیرنده جدیدی نیاز به آموزش مجدد خواهد داشت؟ همانطور که در یک مرور بنیادی توسط O'Shea & Hoydis در مورد یادگیری ماشین برای ارتباطات اشاره شده است، کاربردی بودن گیرنده‌های مبتنی بر DL به استحکام و سازگاری آنها با شرایط در حال تغییر بستگی دارد. علاوه بر این، فاصله ۴ متری، اگرچه خوب است، اما هنوز به محدودیت توان/SNR اشاره دارد. اتکا به یک رمزگشای LDPC برای عملکرد نهایی بدون خطا نشان می‌دهد که نرخ خطای نماد خام در خروجی شبکه عصبی صفر نیست و سؤالاتی را در مورد عملکرد مستقل همترازساز تحت SNR پایین‌تر مطرح می‌کند.

بینش‌های عملی: برای پژوهشگران، گام بعدی واضح، باز کردن جعبه سیاه است. بررسی معماری‌های شبکه عصبی (شبکه‌های عصبی کانولوشنی ممکن است تغییرات فضایی در سراسر حسگر را بهتر مدیریت کنند)، کاوش یادگیری کم‌نمونه یا انتقالی برای سازگاری با سخت‌افزار جدید، و یکپارچه‌سازی همترازساز با تصحیح خطای رو به جلو در یک ساختار کلی‌تر و شبیه توربو. برای صنعت، این کار نشان می‌دهد که VLC با نرخ داده بالا و بدون سوسو با استفاده از دوربین‌های متداول، به واقعیت نزدیک‌تر می‌شود. مشارکت با سونی برای حسگر قابل توجه است؛ تجاری‌سازی به تعبیه کارآمد چنین پردازش عصبی در ASICهای دوربین یا استفاده از شتاب‌دهنده‌های هوش مصنوعی روی دستگاه که قبلاً در تلفن‌های هوشمند وجود دارند، بستگی خواهد داشت. استانداردی که باید زیر نظر داشت IEEE 802.15.7r1 (OCC) است و مشارکت‌هایی مانند این می‌تواند مستقیماً بر تکامل آن تأثیر بگذارد.

5. جزئیات فنی و فرمول‌بندی ریاضی

تبدیل فضای رنگ: تبدیل از مقادیر RGB دریافتی (از حسگر خام) به مختصات xy در CIE 1931 با استفاده از یک ماتریس استاندارد مشتق شده از ویژگی‌های طیفی حسگر نسبت به ناظر استاندارد CIE انجام می‌شود. مقاله ماتریس خاص استفاده شده را ارائه می‌دهد: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ این یک تبدیل خطی ساده‌شده است. در عمل، یک مدل دقیق‌تر ممکن است نیاز به یک نگاشت غیرخطی یا یک ماتریس متناسب با فیلترهای رنگ حسگر خاص داشته باشد.

خروجی شبکه عصبی به LLR: شبکه عصبی چندبرچسبه احتمال $p_i(1|x, y)$ را که بیت $i$-ام (از ۹ بیت) '1' است، خروجی می‌دهد. نسبت احتمال لگاریتمی (LLR) $L_i$ برای آن بیت، که به رمزگشای LDPC داده می‌شود، به صورت زیر محاسبه می‌شود: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ یک مقدار LLR مثبت بزرگ نشان‌دهنده اطمینان بالا به اینکه بیت ۱ است، و یک مقدار منفی بزرگ نشان‌دهنده اطمینان بالا به اینکه بیت ۰ است.

6. چارچوب تحلیل و مثال موردی

چارچوب: خط لوله "گیرنده یادگرفته" برای OCC

این پژوهش نمونه‌ای از یک الگوی طراحی مدرن "گیرنده یادگرفته" است که فراتر از OCC قابل اعمال است. چارچوب را می‌توان به بلوک‌های متوالی و بهینه‌پذیر تجزیه کرد:

  1. اکتساب داده آگاه از سخت‌افزار: ثبت سیگنال‌ها در اولین و خام‌ترین نقطه در زنجیره پردازش (مثلاً داده RAW حسگر، نمونه‌های I/Q RF).
  2. پیش‌پردازش مشتق‌پذیر: اعمال حداقل پیش‌پردازش لازم (مانند تبدیل فضای رنگ، همگام‌سازی) به گونه‌ای که در صورت آموزش سرتاسری، جریان گرادیان امکان‌پذیر باشد.
  3. هسته شبکه عصبی: استفاده از یک شبکه عصبی (MLP, CNN, Transformer) برای انجام وظیفه اصلی دمدولاسیون/همترازسازی. شبکه با یک تابع زیان آموزش دیده می‌شود که مستقیماً نرخ خطای نماد یا بیت را کمینه می‌کند، که اغلب از زیان آنتروپی متقاطع برای وظایف طبقه‌بندی استفاده می‌کند.
  4. رمزگشایی ترکیبی: واسط کردن خروجی‌های نرم شبکه عصبی (احتمالات، LLRها) با یک رمزگشای تصحیح خطای غیرعصبی پیشرفته (مانند رمزگشای کد LDPC یا Polar). این کار انعطاف‌پذیری یادگیری را با بهینگی اثبات شده تئوری کدگذاری کلاسیک ترکیب می‌کند.

مثال موردی غیرکد: اعمال چارچوب به VLC زیرآب

اعمال همین چارچوب به ارتباط نوری مرئی زیرآب (UVLC) را در نظر بگیرید که از اختلالات شدید کانال مانند پراکندگی و محو شدن ناشی از تلاطم رنج می‌برد. یک "گیرنده یادگرفته" برای UVLC را می‌توان به صورت زیر ساخت:

  • گام ۱: استفاده از یک آشکارساز نوری پرسرعت یا دوربین که دنباله‌های شدت خام را ثبت می‌کند.
  • گام ۲: پیش‌پردازش برای جداسازی ناحیه مورد علاقه سیگنال و انجام همگام‌سازی تقریبی.
  • گام ۳: آموزش یک شبکه عصبی کانولوشنی ۱ بعدی (CNN) یا یک شبکه عصبی بازگشتی (RNN) مانند LSTM روی این داده‌های دنباله خام. وظیفه شبکه، همترازسازی اثرات کانال متغیر با زمان و دنگاشت نمادها است. داده آموزشی تحت شرایط مختلف کدورت آب و تلاطم جمع‌آوری می‌شود.
  • گام ۴: شبکه تصمیمات نرمی را برای یک رمزگشای FEC خروجی می‌دهد که ارتباط قوی را در یک کانال بسیار پویا که تخمین کانال سنتی در آن شکست می‌خورد، امکان‌پذیر می‌سازد.

7. کاربردهای آینده و جهت‌های پژوهشی

  • Li-Fi مبتنی بر تلفن هوشمند: هدف نهایی، یکپارچه‌سازی این فناوری در تلفن‌های هوشمند برای انتقال داده همتا به همتا ایمن و پرسرعت یا موقعیت‌یابی داخلی با دقت سانتی‌متری، با استفاده از سخت‌افزار دوربین موجود است.
  • ارتباط خودرویی V2X: استفاده از چراغ‌های جلو/عقب خودرو و دوربین‌ها برای ارتباط خودرو با همه چیز (V2X)، فراهم کردن یک پیوند داده اضافی و قوی که مکمل DSRC/C-V2X مبتنی بر RF است.
  • رابط‌های AR/VR و متاورس: امکان‌پذیر کردن پیوندهای داده با تأخیر کم و پهنای باند بالا بین عینک‌های AR و زیرساخت یا بین دستگاه‌ها برای تجربیات اشتراکی همگام‌شده.
  • جهت‌های پژوهشی:
    1. سیستم‌های یادگرفته سرتاسری: کاوش بهینه‌سازی مشترک شکل صورت‌فلکی فرستنده (از طریق یک شبکه عصبی) و همترازساز گیرنده، مشابه مفهوم ارتباطات "خودرمزگذار".
    2. استحکام و استانداردسازی: توسعه مدل‌های گیرنده عصبی که نسبت به مدل‌های مختلف دوربین، نور محیط و انسداد جزئی مقاوم هستند. این امر برای تلاش‌های استانداردسازی مانند IEEE 802.15.7 حیاتی است.
    3. OCC فوق‌پرسرعت: ترکیب CSK مرتبه بالا با تکنیک‌های مدولاسیون شاتر غلتان یا فضایی با استفاده از دوربین‌های با نرخ فریم بالا یا مبتنی بر رویداد برای شکستن مانع Gbps.
    4. ارتباط معنایی: حرکت فراتر از بازیابی بیت، استفاده از پیوند OCC برای انتقال مستقیم اطلاعات معنایی (مانند شناسه‌های شیء، داده نقشه)، بهینه‌سازی برای موفقیت وظیفه به جای نرخ خطای بیت.

8. مراجع

  1. H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference/Journal, 2019.
  2. C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Conference/Journal, 2016.
  3. N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference/Journal, 2016.
  4. P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Conference/Journal, 2019.
  5. R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference/Journal, 2014.
  6. O'Shea, T., & Hoydis, J. (2017). "An Introduction to Deep Learning for the Physical Layer." IEEE Transactions on Cognitive Communications and Networking. (منبع معتبر خارجی در مورد ML برای ارتباطات)
  7. IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (استاندارد معتبر خارجی)
  8. Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (منبع معتبر خارجی برای علم رنگ)
  9. Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (منبع معتبر خارجی سخت‌افزار)
  10. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (منبع معتبر خارجی در مورد شبکه‌های عصبی)