انتخاب زبان

اولین نمایش دمودولاسیون سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگی با استفاده از همترازسازی عصبی برای ارتباط نوری دوربین

نمایش تجربی انتقال OCC با ۵۱۲-CSK با استفاده از حسگر تصویر CMOS و یک همترازکننده مبتنی بر شبکه عصبی برای دمودولاسیون بدون خطا.
rgbcw.org | PDF Size: 0.4 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - اولین نمایش دمودولاسیون سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگی با استفاده از همترازسازی عصبی برای ارتباط نوری دوربین

فهرست مطالب

1. مقدمه و مرور کلی

این مقاله یک نمایش تجربی پیشگامانه از کلیدزنی تغییر رنگ ۵۱۲-رنگی (۵۱۲-CSK) برای ارتباط نوری دوربین (OCC) ارائه می‌دهد. دستاورد اصلی، اولین دمودولاسیون بدون خطای چنین طرح مدولاسیون مرتبه‌بالایی در فاصله ۴ متری است که چالش مهم تداخل غیرخطی ذاتی در گیرنده‌های مبتنی بر دوربین را از طریق استفاده نوآورانه از یک همترازکننده مبتنی بر شبکه عصبی چندبرچسبی (NN) پشت سر می‌گذارد.

OCC به عنوان یک فناوری بی‌سیم نوری نسل آینده مطرح است که از حسگرهای تصویر CMOS فراگیر در تلفن‌های هوشمند و دستگاه‌ها بهره می‌برد. یکی از محورهای اصلی پژوهش، افزایش نرخ داده بوده که توسط نرخ فریم دوربین محدود می‌شود. CSK داده‌ها را بر روی تغییرات رنگ از یک فرستنده RGB-LED مدوله می‌کند که در فضای رنگی CIE 1931 نگاشت می‌شود. CSK مرتبه بالاتر (مانند ۵۱۲-CSK) کارایی طیفی بیشتری را نوید می‌دهد اما به شدت توسط تداخل بین‌رنگی ناشی از حساسیت طیفی و فیلترهای رنگ دوربین مختل می‌شود.

۵۱۲

رنگ / نماد

۴ متر

فاصله انتقال

۹ بیت/نماد

کارایی طیفی (log₂512)

بدون خطا

دمودولاسیون حاصل شده

2. چارچوب فنی

2.1 پیکربندی گیرنده و سخت‌افزار

سیستم گیرنده حول یک ماژول حسگر تصویر CMOS سونی IMX530 ساخته شده است که به دلیل قابلیت خروجی دادن داده‌های خام RGB 12-بیتی بدون پردازش پسین (دمزایکینگ، نویززدایی، تراز سفیدی) انتخاب شده است. این داده خام برای بازیابی دقیق سیگنال حیاتی است. سیگنال از طریق یک لنز نوری ۵۰ میلی‌متری ثبت می‌شود. فرستنده یک آرایه صفحه‌ای ۸×۸ از LEDهای RGB است (اندازه پنل: ۶.۵ سانتی‌متر).

2.2 پردازش سیگنال و همترازسازی عصبی

خط لوله پردازش به شرح زیر است:

  1. اکتساب داده خام: ثبت مقادیر RGB پردازش‌نشده از حسگر.
  2. تبدیل فضای رنگ: تبدیل RGB به مختصات رنگی CIE 1931 (x, y) با استفاده از یک ماتریس استاندارد: $\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$.
  3. همترازسازی شبکه عصبی: مختصات (x, y) به یک شبکه عصبی چندبرچسبی وارد می‌شوند. این شبکه برای یادگیری و جبران تداخل غیرخطی بین کانال‌های رنگ طراحی شده است. این شبکه دارای ۲ واحد ورودی (x, y)، $N_h$ لایه پنهان با $N_u$ واحد، و M=9 واحد خروجی (متناظر با ۹ بیت در هر نماد برای ۵۱۲-CSK) است.
  4. دمودولاسیون و رمزگشایی: شبکه عصبی یک توزیع احتمال پسین خروجی می‌دهد. نسبت‌های درست‌نمایی لگاریتمی (LLR) از این توزیع محاسبه و به یک رمزگشای LDPC برای تصحیح خطای نهایی وارد می‌شوند.

نمادهای صورت‌فلکی ۵۱۲-CSK به صورت متوالی در یک الگوی مثلثی در نمودار CIE 1931، از رأس آبی (x=0.1805, y=0.0722) شروع می‌شوند، چیده شده‌اند.

3. نتایج تجربی و تحلیل

3.1 عملکرد نرخ خطای بیت در مقابل اندازه آرایه LED

آزمایش تعداد LEDهای فعال در آرایه را از ۱×۱ تا ۸×۸ تغییر داد تا نرخ خطای بیت (BER) را به عنوان تابعی از شدت نور دریافتی (مساحت در تصویر) ارزیابی کند. فاصله انتقال در ۴ متر ثابت بود. نتایج نشان داد که همترازکننده عصبی برای دستیابی به عملکرد بدون خطا با آرایه کامل ۸×۸ ضروری بود و به طور مؤثری تداخلی را که با شدت سیگنال و مساحت افزایش می‌یابد، کاهش داد.

3.2 معیارهای کلیدی عملکرد

  • مرتبه مدولاسیون: ۵۱۲-CSK (۹ بیت/نماد)، یک رکورد بالا برای نمایش‌های تجربی OCC.
  • فاصله: ۴ متر، نشان‌دهنده برد عملی.
  • عامل کلیدی امکان‌پذیرکننده: همترازسازی غیرخطی مبتنی بر شبکه عصبی که مستقیماً روی داده حسگر خام اعمال می‌شود.
  • مقایسه: این کار به طور قابل توجهی فراتر از نمایش‌های قبلی (۸-CSK، ۱۶-CSK، ۳۲-CSK) هم در مرتبه مدولاسیون و هم در پیچیدگی تکنیک جبران پیش می‌رود.

4. تحلیل هسته‌ای و تفسیر تخصصی

بینش هسته‌ای: این مقاله فقط درباره پیش بردن CSK به ۵۱۲ رنگ نیست؛ بلکه یک اثبات مفهوم قطعی است که پردازش سیگنال عصبی مبتنی بر داده، کلید باز کردن قفل OCC با عملکرد بالا است. نویسندگان به درستی شناسایی کرده‌اند که گلوگاه اساسی، LED یا حسگر نیست، بلکه اعوجاج پیچیده و غیرخطی در کانال است. راه‌حل آن‌ها—دور زدن همترازکننده‌های خطی سنتی به نفع یک شبکه عصبی چندبرچسبی—یک تغییر فلسفه طراحی کاربردی و قدرتمند است که موفقیت گیرنده‌های عصبی در ارتباطات RF را بازتاب می‌دهد [۱].

جریان منطقی: منطق قانع‌کننده است: ۱) CSK مرتبه بالاتر برای سرعت لازم است، ۲) تداخل دوربین CSK مرتبه بالاتر را از بین می‌برد، ۳) این تداخل پیچیده و غیرخطی است، ۴) بنابراین، از یک تقریب‌زننده تابع جهانی (یک شبکه عصبی) برای خنثی کردن آن استفاده کنید. استفاده از داده حسگر خام یک جزئیات حیاتی و اغلب نادیده گرفته شده است. این کار از اتلاف اطلاعات و اعوجاج‌های معرفی شده توسط پردازنده سیگنال تصویر داخلی دوربین (ISP) اجتناب می‌کند، رویه‌ای که با بهترین روش‌ها در پژوهش عکاسی محاسباتی از مؤسساتی مانند آزمایشگاه رسانه‌ای MIT همسو است.

نقاط قوت و ضعف: نقطه قوت اصلی، ادغام موفقیت‌آمیز یک مؤلفه ML مدرن در پشته ارتباطات لایه فیزیکی و دستیابی به یک رکورد اعلام شده است. اعتبارسنجی تجربی واضح است. با این حال، تحلیل دارای ضعف‌های معمول یک نمایش اولیه است: ذکری از نرخ داده (بیت در ثانیه) نشده، فقط کارایی طیفی (بیت در نماد) ذکر شده است. تأثیر واقعی توان عملیاتی مبهم باقی مانده است. علاوه بر این، پیچیدگی شبکه عصبی، نیازمندی‌های داده آموزشی، و توانایی تعمیم آن به دوربین‌ها یا محیط‌های مختلف بررسی نشده‌اند—موانع قابل توجهی برای استانداردسازی و تجاری‌سازی.

بینش‌های قابل اجرا: برای پژوهشگران، مسیر روشن است: تمرکز بر معماری‌های عصبی سبک‌وزن و سازگار برای همترازسازی بلادرنگ. معیارسنجی باید شامل توان عملیاتی و تأخیر واقعی باشد. برای صنعت (مانند گروه وظیفه OCC در IEEE P802.15.7r1)، این کار شواهد قوی‌ای ارائه می‌دهد تا گیرنده‌های مبتنی بر شبکه عصبی در استانداردهای آینده در نظر گرفته شوند، اما باید همراه با آزمون‌های دقیق قابلیت همکاری متقابل باشد. گام بعدی حرکت از یک تنظیمات ثابت آزمایشگاهی به یک سناریوی پویا است، شاید با استفاده از تکنیک‌هایی الهام‌گرفته از انطباق دامنه به سبک CycleGAN [۲] تا شبکه عصبی بتواند شرایط نور محیطی متغیر را جبران کند، چالشی به مراتب سخت‌تر از تداخل ثابت.

5. جزئیات فنی و فرمول‌بندی ریاضی

پردازش سیگنال هسته‌ای شامل دو تبدیل کلیدی است:

۱. تبدیل RGB به CIE 1931: $\begin{pmatrix} x \\ y \end{pmatrix} = \mathbf{M} \cdot \begin{pmatrix} R \\ G \\ B \end{pmatrix}$ که در آن $\mathbf{M}$ ماتریس از پیش تعریف شده است: $\mathbf{M} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix}$. این نگاشت، مقادیر وابسته به دستگاه RGB را به یک فضای رنگ مطلق تبدیل می‌کند.

۲. شبکه عصبی به عنوان همترازکننده: شبکه عصبی تابع $f_{\theta}$ را یاد می‌گیرد که مختصات دریافتی مخدوش $(x', y')$ را به احتمال پسین $P(\text{symbol}_i | x', y')$ برای همه ۵۱۲ نماد نگاشت می‌کند. پارامترهای $\theta$ برای کمینه کردن یک تابع زیان آنتروپی متقاطع بین احتمالات پیش‌بینی شده و نمادهای ارسالی شناخته شده آموزش داده می‌شوند. سپس LLR برای بیت $k$-ام به صورت زیر تقریب زده می‌شود: $LLR(b_k) \approx \log \frac{\sum_{i \in S_k^1} P(\text{symbol}_i | x', y')}{\sum_{i \in S_k^0} P(\text{symbol}_i | x', y')}$ که در آن $S_k^1$ و $S_k^0$ مجموعه‌هایی از نمادها هستند که در آن‌ها بیت $k$-ام به ترتیب ۱ و ۰ است.

6. چارچوب تحلیل و مثال موردی

چارچوب برای ارزیابی پیشرفت‌های OCC: برای ارزیابی انتقادی هر مقاله جدید OCC، یک چارچوب تحلیل چهاربعدی پیشنهاد می‌کنیم:

  1. کارایی طیفی-مکانی (بیت/منبع): نرخ داده حاصل شده (bps) چقدر است و از چه منابعی استفاده می‌کند (پهنای باند، پیکسل‌های مکانی، زمان)؟ این مقاله در کارایی طیفی (بیت/نماد) امتیاز بالایی دارد اما فاقد یک رقم مشخص bps است.
  2. استحکام و عملی بودن: محدودیت‌های عملیاتی (فاصله، همترازی، نور محیط) چیست؟ ۴ متر خوب است، اما شرایط ایستا یک محدودیت است.
  3. پیچیدگی و هزینه سیستم: هزینه راه‌حل چقدر است؟ یک همترازکننده عصبی هزینه محاسباتی و سربار آموزشی اضافه می‌کند.
  4. پتانسیل استانداردسازی: این تکنیک چقدر قابل تکرار و قابلیت همکاری متقابل دارد؟ اتکا به داده خام و یک شبکه عصبی آموزش‌دیده در حال حاضر این امتیاز را کاهش می‌دهد.

مثال موردی - اعمال چارچوب: این کار ۵۱۲-CSK مبتنی بر NN را با یک کار کلاسیک ۸-CSK با استفاده از همترازسازی خطی [۳] مقایسه کنید.

  • کارایی: ۵۱۲-CSK در بیت/نماد به طور قابل توجهی برتر است.
  • استحکام: شبکه عصبی ممکن است غیرخطی بودن‌ها را بهتر مدیریت کند، اما عملکرد آن در شرایط آموزش‌ندیده (دوربین جدید، نور متفاوت) در مقابل یک مدل خطی ساده‌تر ناشناخته است.
  • پیچیدگی: شبکه عصبی به طور قابل توجهی پیچیده‌تر است.
  • استانداردسازی: همترازسازی خطی استانداردسازی آسان‌تری دارد.
مبادله واضح است: پردازش سیگنال پیشرفته، کارایی بالاتر را به بهای پیچیدگی می‌خرد. مسیر حرکت این حوزه به سمت پذیرش آن پیچیدگی برای غلبه بر محدودیت‌های فیزیکی است.

7. کاربردهای آینده و جهت‌های پژوهشی

پیامدهای این کار فراتر از آزمایشگاه گسترش می‌یابد:

  • LiFi با سرعت فوق‌العاده بالا برای ۶G: ادغام چنین OCC مرتبه بالایی با زیرساخت LiFi می‌تواند دسترسی نقطه دسترسی چندگیگابیت بر ثانیه در استادیوم‌ها، فرودگاه‌ها یا کارخانه‌های هوشمند را فراهم کند و شبکه‌های RF را تکمیل نماید.
  • اینترنت اشیاء متمرکز بر تلفن هوشمند: امکان‌پذیر کردن تبادل داده امن و مبتنی بر مجاورت (مانند پرداخت‌ها، بلیط‌ها، جفت‌سازی دستگاه) با استفاده از دوربین‌های تلفن هوشمند به عنوان گیرنده با حداقل افزودن سخت‌افزار.
  • ارتباطات خودرویی V2X: استفاده از چراغ‌های جلو/عقب خودرو و دوربین‌ها برای ارتباط مستقیم خودرو به خودرو یا خودرو به زیرساخت، بهبود سیستم‌های ایمنی.

جهت‌های پژوهشی حیاتی:

  1. یادگیری سازگار و فدرال برای همترازکننده‌ها: توسعه شبکه‌های عصبی که بتوانند به صورت برخط با مدل‌های دوربین جدید یا نورپردازی سازگار شوند، احتمالاً با استفاده از یادگیری فدرال در بین دستگاه‌ها برای ساخت مدل‌های مستحکم بدون اشتراک‌گذاری داده خام.
  2. رمزگذاری مشترک منبع-کانال با بینایی: کاوش تکنیک‌های یادگیری عمیقی که به طور مشترک مدولاسیون (صورت‌فلکی CSK) و همترازکننده را برای یک حسگر دوربین خاص بهینه می‌کنند، مشابه سیستم‌های ارتباطی یادگرفته شده سرتاسری.
  3. بهینه‌سازی چندلایه: ادغام همترازکننده عصبی لایه فیزیکی با پروتکل‌های لایه بالاتر برای بهینه‌سازی توان عملیاتی و قابلیت اطمینان کلی سیستم در محیط‌های پویا.
همگرایی ارتباطات، بینایی کامپیوتر و یادگیری ماشین، همان‌طور که در این مقاله نشان داده شده است، جایی است که نوآوری‌های مختل‌کننده‌ترین در OCC ظهور خواهند کرد.

8. مراجع

  1. O'Shea, T. J., & Hoydis, J. (2017). An Introduction to Deep Learning for the Physical Layer. IEEE Transactions on Cognitive Communications and Networking. (مثالی از شبکه‌های عصبی در ارتباطات).
  2. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (CycleGAN برای انطباق دامنه).
  3. Chen, H.-W., et al. (2019). [1] در PDF اصلی. (مثالی از کار قبلی CSK با مرتبه پایین‌تر).
  4. IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018.
  5. MIT Media Lab, Computational Photography. (منبع مفهومی برای اهمیت داده حسگر خام).