اولین نمایش عملی دمودولاسیون سیگنال کلیدزنی تغییر رنگ ۵۱۲-رنگی با استفاده از همترازسازی عصبی برای ارتباط نوری دوربین

فهرست مطالب

1. مقدمه

ارتباط نوری دوربین (OCC) فناوری امیدبخشی برای نسل بعدی ارتباط بی‌سیم نوری است که از حسگرهای تصویر CMOS فراگیر در دوربین‌ها به عنوان گیرنده استفاده می‌کند. این فناوری کانال‌هایی بدون نیاز به مجوز و مقرون‌به‌صرفه ارائه می‌دهد. یکی از چالش‌های کلیدی، افزایش توان عملیاتی داده است که توسط نرخ فریم دوربین و زمان نوردهی محدود می‌شود، در حالی که باید عملکرد بدون سوسو حفظ شود. کلیدزنی تغییر رنگ (CSK)، یک طرح مدولاسیون از استاندارد IEEE 802.15.7، داده‌ها را به رنگ‌ها در فضای رنگی CIE 1931 نگاشت می‌کند تا نرخ داده افزایش یابد. با این حال، تداخل بین کانالی ناشی از حساسیت طیفی دوربین نیاز به جبران دارد. نمایش‌های قبلی تا ۳۲-CSK را در فواصل کوتاه محقق کرده‌اند. این مقاله اولین نمایش تجربی انتقال سیگنال ۵۱۲-CSK با دمودولاسیون بدون خطا در فاصله ۴ متری را ارائه می‌دهد و از یک همترازساز مبتنی بر شبکه عصبی برای مدیریت تداخل غیرخطی استفاده می‌کند.

2. پیکربندی گیرنده

سیستم گیرنده بر اساس ماژول حسگر تصویر CMOS سونی IMX530 با لنز ۵۰ میلی‌متری است که قادر به خروجی دادن داده‌های خام ۱۲-بیتی RGB بدون پردازش پسین (دموزایک، حذف نویز، تراز سفیدی) می‌باشد.

2.1 سیستم دوربین و داده‌های خام

سیستم دوربین سونی داده‌های تصویری خام خالص را خروجی می‌دهد و قرائت‌های اصلی حسگر را حفظ می‌کند که برای پردازش سیگنال دقیق قبل از هرگونه اصلاح رنگ که اعوجاج ایجاد می‌کند، حیاتی است.

2.2 تبدیل فضای رنگ

مقادیر خام RGB با استفاده از یک ماتریس تبدیل استاندارد به مختصات رنگی CIE 1931 (x, y) تبدیل می‌شوند: $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$

2.3 همترازساز شبکه عصبی

یک شبکه عصبی طبقه‌بندی چندبرچسبی به عنوان همترازساز عمل می‌کند تا تداخل غیرخطی را جبران کند. این شبکه دارای ۲ واحد ورودی (x, y)، $N_h$ لایه پنهان با $N_u$ واحد، و $M=log_2(512)=9$ واحد خروجی (بیت در هر نماد) است. شبکه یک توزیع احتمال پسین $p(1|x,y)$ را خروجی می‌دهد که از آن نسبت‌های درست‌نمایی لگاریتمی (LLR) برای ورود به رمزگشای LDPC محاسبه می‌شود. نقاط صورت‌فلکی برای ۵۱۲-CSK به صورت مثلثی از رأس آبی (x=0.1805, y=0.0722) شروع می‌شوند.

3. نتایج آزمایش

3.1 تنظیمات آزمایش

انتقال از یک آرایه صفحه‌ای LED با ابعاد ۸x8 (اندازه پنل: ۶.۵ سانتی‌متر) استفاده کرد. تعداد LEDهای فعال از ۱x1 تا ۸x8 تغییر داده شد تا نرخ خطای بیتی (BER) بر اساس مساحت تصویر اشغال‌شده (شدت نور) ارزیابی شود. فاصله انتقال در ۴ متر ثابت نگه داشته شد.

3.2 عملکرد نرخ خطای بیتی

سیستم به دمودولاسیون بدون خطا برای ۵۱۲-CSK دست یافت. ویژگی‌های BER در برابر مساحت مؤثر LED در تصویر ثبت‌شده ارزیابی شد. همترازساز عصبی با موفقیت تداخل را کاهش داد و امکان دمودولاسیون قابل اطمینان در این مرتبه مدولاسیون بالا را فراهم کرد، جایی که روش‌های خطی سنتی شکست می‌خورند.

معیار کلیدی عملکرد

مرتبه مدولاسیون: ۵۱۲-CSK (۹ بیت/نماد)

فاصله انتقال: ۴ متر

نتیجه: دمودولاسیون بدون خطا محقق شد

4. بینش و تحلیل محوری

بینش محوری

این کار صرفاً درباره پیش‌بردن CSK به ۵۱۲ رنگ نیست؛ بلکه یک چرخش استراتژیک از پاکسازی سیگنال مبتنی بر فیزیک به بازسازی مبتنی بر داده است. پیشرفت واقعی این است که تداخل شدید بین کانالی نه به عنوان یک مشکل نویز برای فیلتر شدن، بلکه به عنوان یک نگاشت اعوجاج قطعی و غیرخطی در نظر گرفته می‌شود که باید توسط یک شبکه عصبی یاد گرفته و معکوس شود. این امر بازتابی از تغییر پارادایم دیده شده در تصویربرداری محاسباتی است، جایی که مدل‌های یادگیری عمیق مانند آنچه در مقاله CycleGAN (Zhu و همکاران، ۲۰۱۷) بحث شده، یاد می‌گیرند تا بین دامنه‌ها (مثلاً از نویزدار به تمیز) بدون نمونه‌های جفت‌شده ترجمه کنند. در اینجا، شبکه عصبی معکوس «اثر انگشت» طیفی دوربین را یاد می‌گیرد.

جریان منطقی

منطق قانع‌کننده است: ۱) CSK با مرتبه بالا توسط تداخل محدود می‌شود. ۲) تداخل دوربین پیچیده و غیرخطی است. ۳) بنابراین، از یک تقریب‌زننده تابع جهانی (یک شبکه عصبی) آموزش‌دیده بر روی داده‌های دریافتی برای مدل‌سازی و حذف آن استفاده کنید. جریان از داده‌های حسگر خام -> تبدیل CIE 1931 -> همترازساز شبکه عصبی -> رمزگشای LDPC یک زنجیره پردازش سیگنال ترکیبی مدرن است. این روش هوشمندانه از فضای استاندارد CIE به عنوان یک بازنمایی میانی پایدار استفاده می‌کند و علم رنگ را از نظریه ارتباطات جدا می‌کند.

نقاط قوت و ضعف

نقاط قوت: نمایش تجربی محکمی ارائه شده و رکورد ۵۱۲-CSK را در یک فاصله عملی ۴ متری محقق کرده است. استفاده از داده‌های حسگر خام، خطوط لوله مخرب ISP دوربین را دور می‌زند - یک تاکتیک حیاتی و اغلب نادیده گرفته شده. این روش مستقل از گیرنده است؛ شبکه عصبی می‌تواند برای هر دوربینی مجدداً آموزش ببیند. نقاط ضعف: این رویکرد ذاتاً گرسنه داده است و نیاز به کالیبراسیون برای هر دوربین دارد. مقاله در مورد پیچیدگی، تأخیر و مصرف توان شبکه عصبی سکوت کرده است - جزئیاتی حیاتی برای OCC بلادرنگ و موبایل. آرایه LED با ابعاد ۸x8 یک فرستنده حجیم است که با هدف OCC در استفاده از منابع نور فراگیر در تضاد است. همانطور که در تحقیقات IEEE ComSoc درباره VLC اشاره شده، مقیاس‌پذیری و قابلیت همکاری همچنان موانع مهمی هستند.

بینش‌های عملی

برای محققان: آینده در مدل‌های یادگیری سبک‌وزن، شاید یادگیری فدرال برای کالیبراسیون روی دستگاه نهفته است. معماری‌های مبتنی بر ترنسفورمر را بررسی کنید که ممکن است اعوجاج نمادهای متوالی را بهتر از شبکه‌های عصبی پیش‌خور مدیریت کنند. برای صنعت: این فناوری برای سناریوهای تخصصی و نصب ثابت (راهنمای موزه، ارتباط ربات‌های کارخانه) که فرستنده‌ها و گیرنده‌ها ثابت هستند، آماده است. با تولیدکنندگان حسگر دوربین (مانند سونی، همانطور که در این مقاله آمده) همکاری کنید تا بلوک‌های همترازساز از پیش آموزش‌دیده یا به راحتی قابل آموزش را مستقیماً در بخش دیجیتال پشتی حسگر تعبیه کنند و دوربین‌های «آماده OCC» را به یک ویژگی قابل فروش تبدیل کنند.

5. جزئیات فنی

چالش فنی اصلی، عدم تطابق بین فضای رنگ ایده‌آل CIE 1931 و حساسیت طیفی واقعی دوربین است، همانطور که در شکل ۱(b) PDF نشان داده شده است. این باعث می‌شود مقادیر دریافتی (R, G, B) ترکیب‌های خطی از شدت‌های ارسالی باشند. تبدیل به (x, y) کمک می‌کند اما غیرخطی بودن را حذف نمی‌کند. شبکه عصبی، با $N_h$ لایه پنهان خود، تابع $f: (x, y) \rightarrow \mathbf{p}$ را یاد می‌گیرد، جایی که $\mathbf{p}$ یک بردار ۹-بعدی از احتمالات بیت است. LLR برای بیت $k$-ام به صورت زیر محاسبه می‌شود: $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ این LLRها ورودی‌های نرم برای رمزگشای قدرتمند LDPC فراهم می‌کنند و امکان تصحیح خطای پیش‌رو را برای دستیابی به نتیجه نهایی بدون خطا فراهم می‌سازند.

6. نمونه چارچوب تحلیل

مورد: ارزیابی یک دوربین جدید برای OCC. این تحقیق چارچوبی برای معیارسازی مناسب بودن هر دوربین برای CSK با مرتبه بالا ارائه می‌دهد.

اکتساب داده: با استفاده از یک آرایه LED کالیبره‌شده، نمادهای شناخته شده ۵۱۲-CSK را ارسال کنید. داده‌های حسگر خام را با دوربین تحت آزمایش ثبت کنید.
پیش‌پردازش: تکه‌های خام RGB را با استفاده از ماتریس استاندارد به مختصات CIE 1931 (x, y) تبدیل کنید.
آموزش مدل: یک شبکه عصبی چندبرچسبی (مثلاً یک MLP ساده ۳ لایه) را آموزش دهید تا خوشه‌های دریافتی (x, y) را به ۵۱۲ برچسب نماد ارسالی نگاشت کند. مجموعه آموزشی، نگاشت نماد شناخته شده است.
معیار عملکرد: دقت نهایی اعتبارسنجی یا BER پس از رمزگشایی LDPC به طور مستقیم نشان‌دهنده قابلیت دوربین است. دقت بالا نشان‌دهنده اعوجاج ذاتی کم یا خطی بودن بالا است و آن را به یک گیرنده OCC خوب تبدیل می‌کند.
مقایسه: این فرآیند را برای دوربین‌های مختلف تکرار کنید. پیچیدگی مورد نیاز شبکه عصبی (عمق $N_h$، عرض $N_u$) به یک نماینده برای شدت تداخل دوربین تبدیل می‌شود.

این چارچوب فراتر از تحلیل برگه مشخصات فنی، به یک ارزیابی عملکردی و متمرکز بر ارتباط حرکت می‌کند.

7. کاربردها و جهت‌های آینده

کاربردها:

مکان‌یابی داخلی دقیق: OCC با نرخ داده بالا می‌تواند اثرانگشت‌ها یا نقشه‌های موقعیت مکانی پیچیده را همراه با کدهای شناسایی منتقل کند.
پیوند واقعیت افزوده (AR): نورهای هوشمند می‌توانند فراداده‌ها درباره اشیاء یا آثار هنری را مستقیماً به دوربین‌های تلفن همراه پخش کنند و AR یکپارچه بدون نیاز به جستجوی ابری را ممکن سازند.
اینترنت اشیاء صنعتی در مناطق حساس به RF: ارتباط بین ربات‌ها، حسگرها و کنترلرها در بیمارستان‌ها یا هواپیماها با استفاده از روشنایی موجود تأسیسات.
ارتباط زیر آب: LEDهای آبی-سبز با استفاده از CSK می‌توانند نرخ داده بالاتری برای وسایل نقلیه و حسگرهای زیرآبی فراهم کنند.

جهت‌های تحقیقاتی:

یادگیری سرتاسری: حرکت فراتر از بلوک‌های جداگانه (دمودولاسیون، همترازسازی، رمزگشایی) به سمت یک شبکه عمیق واحد که مستقیماً برای کمینه‌سازی BER آموزش دیده است.
جبران کانال پویا: توسعه شبکه‌های عصبی که می‌توانند به صورت بلادرنگ با شرایط متغیر مانند نوردهی خودکار دوربین، تاری حرکت یا تغییرات نور محیطی سازگار شوند.
استانداردسازی معماری‌های شبکه عصبی: پیشنهاد مدل‌های شبکه عصبی سبک‌وزن و استاندارد برای همترازسازی که می‌توانند در سخت‌افزار یا فریم‌ور دوربین پیاده‌سازی شوند.
ادغام با چشم‌انداز ۶G: قرار دادن OCC به عنوان یک فناوری مکمل در معماری شبکه ناهمگن ۶G، همانطور که در اوراق سفید اتحادیه Next G مورد بررسی قرار گرفته است.

8. مراجع

H.-W. Chen و همکاران، "انتقال داده ۸-CSK بر روی ۴ سانتی‌متر"، کنفرانس مرتبط، ۲۰۱۹.
C. Zhu و همکاران، "۱۶-CSK بر روی ۸۰ سانتی‌متر با استفاده از LED چهاررنگی"، مجله مرتبط، ۲۰۱۶.
N. Murata و همکاران، "۱۶-CSK دیجیتال بر روی ۱۰۰ سانتی‌متر بر اساس IEEE 802.15.7"، کنفرانس مرتبط، ۲۰۱۶.
P. Hu و همکاران، "۳۲-CSK مبتنی بر سه LED بر روی ۳ سانتی‌متر"، مجله مرتبط، ۲۰۱۹.
R. Singh و همکاران، "۳۲-CSK مبتنی بر سه LED"، کنفرانس مرتبط، ۲۰۱۴.
J.-Y. Zhu و همکاران، "ترجمه تصویر به تصویر بدون جفت با استفاده از شبکه‌های متخاصم با چرخه سازگار"، کنفرانس بین‌المللی IEEE در مورد بینایی کامپیوتر (ICCV)، ۲۰۱۷. (منبع خارجی برای مفهوم ترجمه دامنه مبتنی بر یادگیری)
انجمن ارتباطات IEEE، "ارتباط نور مرئی: نقشه راه برای استانداردسازی"، گزارش فنی، ۲۰۲۲. (منبع خارجی برای چالش‌های صنعت)
اتحادیه Next G، "چشم‌انداز و چارچوب ۶G"، اوراق سفید، ۲۰۲۳. (منبع خارجی برای ادغام شبکه آینده)
"فضای رنگ CIE 1931"، استاندارد.
شرکت راه‌حل‌های نیمه‌هادی سونی، "برگه مشخصات حسگر IMX530"، مشخصات فنی.