فهرست مطالب
1. مقدمه
ارتباط نوری دوربین (OCC) فناوری امیدبخشی برای نسل بعدی ارتباط بیسیم نوری است که از حسگرهای تصویر CMOS فراگیر در دوربینها به عنوان گیرنده استفاده میکند. این فناوری کانالهایی بدون نیاز به مجوز و مقرونبهصرفه ارائه میدهد. یکی از چالشهای کلیدی، افزایش توان عملیاتی داده است که توسط نرخ فریم دوربین و زمان نوردهی محدود میشود، در حالی که باید عملکرد بدون سوسو حفظ شود. کلیدزنی تغییر رنگ (CSK)، یک طرح مدولاسیون از استاندارد IEEE 802.15.7، دادهها را به رنگها در فضای رنگی CIE 1931 نگاشت میکند تا نرخ داده افزایش یابد. با این حال، تداخل بین کانالی ناشی از حساسیت طیفی دوربین نیاز به جبران دارد. نمایشهای قبلی تا ۳۲-CSK را در فواصل کوتاه محقق کردهاند. این مقاله اولین نمایش تجربی انتقال سیگنال ۵۱۲-CSK با دمودولاسیون بدون خطا در فاصله ۴ متری را ارائه میدهد و از یک همترازساز مبتنی بر شبکه عصبی برای مدیریت تداخل غیرخطی استفاده میکند.
2. پیکربندی گیرنده
سیستم گیرنده بر اساس ماژول حسگر تصویر CMOS سونی IMX530 با لنز ۵۰ میلیمتری است که قادر به خروجی دادن دادههای خام ۱۲-بیتی RGB بدون پردازش پسین (دموزایک، حذف نویز، تراز سفیدی) میباشد.
2.1 سیستم دوربین و دادههای خام
سیستم دوربین سونی دادههای تصویری خام خالص را خروجی میدهد و قرائتهای اصلی حسگر را حفظ میکند که برای پردازش سیگنال دقیق قبل از هرگونه اصلاح رنگ که اعوجاج ایجاد میکند، حیاتی است.
2.2 تبدیل فضای رنگ
مقادیر خام RGB با استفاده از یک ماتریس تبدیل استاندارد به مختصات رنگی CIE 1931 (x, y) تبدیل میشوند: $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$
2.3 همترازساز شبکه عصبی
یک شبکه عصبی طبقهبندی چندبرچسبی به عنوان همترازساز عمل میکند تا تداخل غیرخطی را جبران کند. این شبکه دارای ۲ واحد ورودی (x, y)، $N_h$ لایه پنهان با $N_u$ واحد، و $M=log_2(512)=9$ واحد خروجی (بیت در هر نماد) است. شبکه یک توزیع احتمال پسین $p(1|x,y)$ را خروجی میدهد که از آن نسبتهای درستنمایی لگاریتمی (LLR) برای ورود به رمزگشای LDPC محاسبه میشود. نقاط صورتفلکی برای ۵۱۲-CSK به صورت مثلثی از رأس آبی (x=0.1805, y=0.0722) شروع میشوند.
3. نتایج آزمایش
3.1 تنظیمات آزمایش
انتقال از یک آرایه صفحهای LED با ابعاد ۸x8 (اندازه پنل: ۶.۵ سانتیمتر) استفاده کرد. تعداد LEDهای فعال از ۱x1 تا ۸x8 تغییر داده شد تا نرخ خطای بیتی (BER) بر اساس مساحت تصویر اشغالشده (شدت نور) ارزیابی شود. فاصله انتقال در ۴ متر ثابت نگه داشته شد.
3.2 عملکرد نرخ خطای بیتی
سیستم به دمودولاسیون بدون خطا برای ۵۱۲-CSK دست یافت. ویژگیهای BER در برابر مساحت مؤثر LED در تصویر ثبتشده ارزیابی شد. همترازساز عصبی با موفقیت تداخل را کاهش داد و امکان دمودولاسیون قابل اطمینان در این مرتبه مدولاسیون بالا را فراهم کرد، جایی که روشهای خطی سنتی شکست میخورند.
معیار کلیدی عملکرد
مرتبه مدولاسیون: ۵۱۲-CSK (۹ بیت/نماد)
فاصله انتقال: ۴ متر
نتیجه: دمودولاسیون بدون خطا محقق شد
4. بینش و تحلیل محوری
5. جزئیات فنی
چالش فنی اصلی، عدم تطابق بین فضای رنگ ایدهآل CIE 1931 و حساسیت طیفی واقعی دوربین است، همانطور که در شکل ۱(b) PDF نشان داده شده است. این باعث میشود مقادیر دریافتی (R, G, B) ترکیبهای خطی از شدتهای ارسالی باشند. تبدیل به (x, y) کمک میکند اما غیرخطی بودن را حذف نمیکند. شبکه عصبی، با $N_h$ لایه پنهان خود، تابع $f: (x, y) \rightarrow \mathbf{p}$ را یاد میگیرد، جایی که $\mathbf{p}$ یک بردار ۹-بعدی از احتمالات بیت است. LLR برای بیت $k$-ام به صورت زیر محاسبه میشود: $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ این LLRها ورودیهای نرم برای رمزگشای قدرتمند LDPC فراهم میکنند و امکان تصحیح خطای پیشرو را برای دستیابی به نتیجه نهایی بدون خطا فراهم میسازند.
6. نمونه چارچوب تحلیل
مورد: ارزیابی یک دوربین جدید برای OCC. این تحقیق چارچوبی برای معیارسازی مناسب بودن هر دوربین برای CSK با مرتبه بالا ارائه میدهد.
- اکتساب داده: با استفاده از یک آرایه LED کالیبرهشده، نمادهای شناخته شده ۵۱۲-CSK را ارسال کنید. دادههای حسگر خام را با دوربین تحت آزمایش ثبت کنید.
- پیشپردازش: تکههای خام RGB را با استفاده از ماتریس استاندارد به مختصات CIE 1931 (x, y) تبدیل کنید.
- آموزش مدل: یک شبکه عصبی چندبرچسبی (مثلاً یک MLP ساده ۳ لایه) را آموزش دهید تا خوشههای دریافتی (x, y) را به ۵۱۲ برچسب نماد ارسالی نگاشت کند. مجموعه آموزشی، نگاشت نماد شناخته شده است.
- معیار عملکرد: دقت نهایی اعتبارسنجی یا BER پس از رمزگشایی LDPC به طور مستقیم نشاندهنده قابلیت دوربین است. دقت بالا نشاندهنده اعوجاج ذاتی کم یا خطی بودن بالا است و آن را به یک گیرنده OCC خوب تبدیل میکند.
- مقایسه: این فرآیند را برای دوربینهای مختلف تکرار کنید. پیچیدگی مورد نیاز شبکه عصبی (عمق $N_h$، عرض $N_u$) به یک نماینده برای شدت تداخل دوربین تبدیل میشود.
7. کاربردها و جهتهای آینده
کاربردها:
- مکانیابی داخلی دقیق: OCC با نرخ داده بالا میتواند اثرانگشتها یا نقشههای موقعیت مکانی پیچیده را همراه با کدهای شناسایی منتقل کند.
- پیوند واقعیت افزوده (AR): نورهای هوشمند میتوانند فرادادهها درباره اشیاء یا آثار هنری را مستقیماً به دوربینهای تلفن همراه پخش کنند و AR یکپارچه بدون نیاز به جستجوی ابری را ممکن سازند.
- اینترنت اشیاء صنعتی در مناطق حساس به RF: ارتباط بین رباتها، حسگرها و کنترلرها در بیمارستانها یا هواپیماها با استفاده از روشنایی موجود تأسیسات.
- ارتباط زیر آب: LEDهای آبی-سبز با استفاده از CSK میتوانند نرخ داده بالاتری برای وسایل نقلیه و حسگرهای زیرآبی فراهم کنند.
- یادگیری سرتاسری: حرکت فراتر از بلوکهای جداگانه (دمودولاسیون، همترازسازی، رمزگشایی) به سمت یک شبکه عمیق واحد که مستقیماً برای کمینهسازی BER آموزش دیده است.
- جبران کانال پویا: توسعه شبکههای عصبی که میتوانند به صورت بلادرنگ با شرایط متغیر مانند نوردهی خودکار دوربین، تاری حرکت یا تغییرات نور محیطی سازگار شوند.
- استانداردسازی معماریهای شبکه عصبی: پیشنهاد مدلهای شبکه عصبی سبکوزن و استاندارد برای همترازسازی که میتوانند در سختافزار یا فریمور دوربین پیادهسازی شوند.
- ادغام با چشمانداز ۶G: قرار دادن OCC به عنوان یک فناوری مکمل در معماری شبکه ناهمگن ۶G، همانطور که در اوراق سفید اتحادیه Next G مورد بررسی قرار گرفته است.
8. مراجع
- H.-W. Chen و همکاران، "انتقال داده ۸-CSK بر روی ۴ سانتیمتر"، کنفرانس مرتبط، ۲۰۱۹.
- C. Zhu و همکاران، "۱۶-CSK بر روی ۸۰ سانتیمتر با استفاده از LED چهاررنگی"، مجله مرتبط، ۲۰۱۶.
- N. Murata و همکاران، "۱۶-CSK دیجیتال بر روی ۱۰۰ سانتیمتر بر اساس IEEE 802.15.7"، کنفرانس مرتبط، ۲۰۱۶.
- P. Hu و همکاران، "۳۲-CSK مبتنی بر سه LED بر روی ۳ سانتیمتر"، مجله مرتبط، ۲۰۱۹.
- R. Singh و همکاران، "۳۲-CSK مبتنی بر سه LED"، کنفرانس مرتبط، ۲۰۱۴.
- J.-Y. Zhu و همکاران، "ترجمه تصویر به تصویر بدون جفت با استفاده از شبکههای متخاصم با چرخه سازگار"، کنفرانس بینالمللی IEEE در مورد بینایی کامپیوتر (ICCV)، ۲۰۱۷. (منبع خارجی برای مفهوم ترجمه دامنه مبتنی بر یادگیری)
- انجمن ارتباطات IEEE، "ارتباط نور مرئی: نقشه راه برای استانداردسازی"، گزارش فنی، ۲۰۲۲. (منبع خارجی برای چالشهای صنعت)
- اتحادیه Next G، "چشمانداز و چارچوب ۶G"، اوراق سفید، ۲۰۲۳. (منبع خارجی برای ادغام شبکه آینده)
- "فضای رنگ CIE 1931"، استاندارد.
- شرکت راهحلهای نیمههادی سونی، "برگه مشخصات حسگر IMX530"، مشخصات فنی.
بینش محوری
این کار صرفاً درباره پیشبردن CSK به ۵۱۲ رنگ نیست؛ بلکه یک چرخش استراتژیک از پاکسازی سیگنال مبتنی بر فیزیک به بازسازی مبتنی بر داده است. پیشرفت واقعی این است که تداخل شدید بین کانالی نه به عنوان یک مشکل نویز برای فیلتر شدن، بلکه به عنوان یک نگاشت اعوجاج قطعی و غیرخطی در نظر گرفته میشود که باید توسط یک شبکه عصبی یاد گرفته و معکوس شود. این امر بازتابی از تغییر پارادایم دیده شده در تصویربرداری محاسباتی است، جایی که مدلهای یادگیری عمیق مانند آنچه در مقاله CycleGAN (Zhu و همکاران، ۲۰۱۷) بحث شده، یاد میگیرند تا بین دامنهها (مثلاً از نویزدار به تمیز) بدون نمونههای جفتشده ترجمه کنند. در اینجا، شبکه عصبی معکوس «اثر انگشت» طیفی دوربین را یاد میگیرد.
جریان منطقی
منطق قانعکننده است: ۱) CSK با مرتبه بالا توسط تداخل محدود میشود. ۲) تداخل دوربین پیچیده و غیرخطی است. ۳) بنابراین، از یک تقریبزننده تابع جهانی (یک شبکه عصبی) آموزشدیده بر روی دادههای دریافتی برای مدلسازی و حذف آن استفاده کنید. جریان از دادههای حسگر خام -> تبدیل CIE 1931 -> همترازساز شبکه عصبی -> رمزگشای LDPC یک زنجیره پردازش سیگنال ترکیبی مدرن است. این روش هوشمندانه از فضای استاندارد CIE به عنوان یک بازنمایی میانی پایدار استفاده میکند و علم رنگ را از نظریه ارتباطات جدا میکند.
نقاط قوت و ضعف
نقاط قوت: نمایش تجربی محکمی ارائه شده و رکورد ۵۱۲-CSK را در یک فاصله عملی ۴ متری محقق کرده است. استفاده از دادههای حسگر خام، خطوط لوله مخرب ISP دوربین را دور میزند - یک تاکتیک حیاتی و اغلب نادیده گرفته شده. این روش مستقل از گیرنده است؛ شبکه عصبی میتواند برای هر دوربینی مجدداً آموزش ببیند. نقاط ضعف: این رویکرد ذاتاً گرسنه داده است و نیاز به کالیبراسیون برای هر دوربین دارد. مقاله در مورد پیچیدگی، تأخیر و مصرف توان شبکه عصبی سکوت کرده است - جزئیاتی حیاتی برای OCC بلادرنگ و موبایل. آرایه LED با ابعاد ۸x8 یک فرستنده حجیم است که با هدف OCC در استفاده از منابع نور فراگیر در تضاد است. همانطور که در تحقیقات IEEE ComSoc درباره VLC اشاره شده، مقیاسپذیری و قابلیت همکاری همچنان موانع مهمی هستند.
بینشهای عملی
برای محققان: آینده در مدلهای یادگیری سبکوزن، شاید یادگیری فدرال برای کالیبراسیون روی دستگاه نهفته است. معماریهای مبتنی بر ترنسفورمر را بررسی کنید که ممکن است اعوجاج نمادهای متوالی را بهتر از شبکههای عصبی پیشخور مدیریت کنند. برای صنعت: این فناوری برای سناریوهای تخصصی و نصب ثابت (راهنمای موزه، ارتباط رباتهای کارخانه) که فرستندهها و گیرندهها ثابت هستند، آماده است. با تولیدکنندگان حسگر دوربین (مانند سونی، همانطور که در این مقاله آمده) همکاری کنید تا بلوکهای همترازساز از پیش آموزشدیده یا به راحتی قابل آموزش را مستقیماً در بخش دیجیتال پشتی حسگر تعبیه کنند و دوربینهای «آماده OCC» را به یک ویژگی قابل فروش تبدیل کنند.