اختر اللغة

التوضيح الأول لفك تشكيل إشارة تحويل ترميز الألوان 512-لون باستخدام معادلة عصبية للاتصالات البصرية بالكاميرا

توضيح تجريبي لنقل OCC باستخدام ترميز 512-CSK، باستخدام مستشعر صور CMOS ومعادل قائم على شبكة عصبية لفك تشفير خالٍ من الأخطاء.
rgbcw.org | PDF Size: 0.4 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - التوضيح الأول لفك تشكيل إشارة تحويل ترميز الألوان 512-لون باستخدام معادلة عصبية للاتصالات البصرية بالكاميرا

جدول المحتويات

1. المقدمة والنظرة العامة

تقدم هذه الورقة توضيحًا تجريبيًا رائدًا لتقنية تحويل ترميز الألوان 512-لون (512-CSK) للاتصالات البصرية بالكاميرا (OCC). الإنجاز الأساسي هو أول عملية فك تشكيل خالية من الأخطاء لمثل هذا المخطط التعديل عالي الرتبة على مسافة 4 أمتار، متغلبًا على التحدي الكبير المتمثل في التداخل اللاخطي الكامن في المستقبلات القائمة على الكاميرا من خلال الاستخدام المبتكر لـ معادل قائم على شبكة عصبية متعددة التسميات (NN).

يتم وضع تقنية OCC كتقنية لاسلكية بصرية من الجيل التالي، مستفيدةً من مستشعرات صور CMOS المنتشرة في الهواتف الذكية والأجهزة. كان أحد محاور البحث الرئيسية هو زيادة معدلات نقل البيانات، المقيدة بمعدل إطارات الكاميرا. تقوم تقنية CSK بتعديل البيانات على تباينات الألوان من جهاز إرسال LED-RGB، مع تعيينها ضمن فضاء الألوان CIE 1931. تعد تقنية CSK عالية الرتبة (مثل 512-CSK) بكفاءة طيفية أكبر ولكنها تعاني بشدة من التداخل بين الألوان الناجم عن الحساسية الطيفية للكاميرا ومرشحات الألوان.

512

لون / رمز

4 م

مسافة النقل

9 بت/رمز

الكفاءة الطيفية (log₂512)

خالٍ من الأخطاء

تم تحقيق فك التشكيل

2. الإطار التقني

2.1 تكوين المستقبل والأجهزة

تم بناء نظام المستقبل حول وحدة مستشعر صور CMOS من نوع Sony IMX530، تم اختيارها لقدرتها على إخراج بيانات RGB خام بدقة 12 بت دون معالجة لاحقة (إزالة الفسيفساء، إزالة الضوضاء، موازنة البياض). هذه البيانات الخام حاسمة لاستعادة الإشارة بدقة. يتم التقاط الإشارة من خلال عدسة بصرية 50 ملم. جهاز الإرسال عبارة عن مصفوفة مستوية 8×8 من مصابيح LED-RGB (حجم اللوحة: 6.5 سم).

2.2 معالجة الإشارة والمعادلة العصبية

مسار المعالجة كما يلي:

  1. الحصول على البيانات الخام: التقاط قيم RGB غير المعالجة من المستشعر.
  2. تحويل فضاء الألوان: تحويل RGB إلى إحداثيات اللونية CIE 1931 (x, y) باستخدام مصفوفة قياسية: $\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$.
  3. المعادلة العصبية: يتم إدخال الإحداثيات (x, y) في شبكة عصبية متعددة التسميات. تم تصميم هذه الشبكة لتعلم وتعويض التداخل اللاخطي بين قنوات الألوان. تحتوي على وحدتي إدخال (x, y)، و $N_h$ طبقات مخفية تحتوي على $N_u$ وحدة، و M=9 وحدات إخراج (تتوافق مع 9 بت لكل رمز لـ 512-CSK).
  4. فك التشكيل وفك الترميز: تنتج الشبكة العصبية توزيع احتمالي لاحق. يتم حساب نسب الاحتمال اللوغاريتمي (LLRs) من هذا وتغذيتها في وحدة فك ترميز LDPC للتصحيح النهائي للأخطاء.

يتم ترتيب رموز كوكبة 512-CSK بشكل تسلسلي في نمط مثلثي في مخطط CIE 1931، بدءًا من قمة اللون الأزرق (x=0.1805, y=0.0722).

3. النتائج التجريبية والتحليل

3.1 أداء معدل الخطأ مقابل حجم مصفوفة LED

تغيرت التجربة في عدد مصابيح LED النشطة في المصفوفة من 1×1 إلى 8×8 لتقييم معدل الخطأ في البت (BER) كدالة لشدة الضوء المستلم (المساحة في الصورة). كانت مسافة النقل ثابتة عند 4 أمتار. أظهرت النتائج أن المعادل العصبي كان ضروريًا لتحقيق تشغيل خالٍ من الأخطاء مع المصفوفة الكاملة 8×8، مما خفف بشكل فعال من التداخل الذي يزداد مع شدة الإشارة والمساحة.

3.2 مقاييس الأداء الرئيسية

  • رتبة التعديل: 512-CSK (9 بت/رمز)، وهي رقماً قياسياً للتجارب التوضيحية لـ OCC.
  • المسافة: 4 أمتار، مما يظهر مدى عملي.
  • الممكن الرئيسي: المعادلة اللاخطية القائمة على الشبكة العصبية المطبقة مباشرة على بيانات المستشعر الخام.
  • المقارنة: يتقدم هذا العمل بشكل كبير عن التجارب السابقة (8-CSK، 16-CSK، 32-CSK) في كل من رتبة التعديل وتطور تقنية التعويض.

4. التحليل الأساسي والتفسير الخبير

الرؤية الأساسية: هذه الورقة ليست مجرد دفع لتقنية CSK إلى 512 لونًا؛ إنها دليل قاطع على المفهوم بأن معالجة الإشارات العصبية القائمة على البيانات هي المفتاح لتحقيق أداء عالٍ في OCC. حدد المؤلفون بشكل صحيح أن عنق الزجاجة الأساسي ليس LED أو المستشعر، بل التشويه اللاخطي المعقد في القناة. حلتهم—بتجاوز المعادلات الخطية التقليدية لصالح شبكة عصبية متعددة التسميات—تمثل تحولًا عمليًا وقويًا في فلسفة التصميم، مما يعكس نجاح المستقبلات العصبية في الاتصالات الراديوية [1].

التدفق المنطقي: المنطق مقنع: 1) هناك حاجة إلى CSK عالية الرتبة للسرعة، 2) التداخل في الكاميرا يدمر CSK عالية الرتبة، 3) هذا التداخل معقد ولا خطي، 4) لذلك، استخدم مقاربًا عالميًا للدالة (شبكة عصبية) لإلغائه. إن استخدام بيانات المستشعر الخام هو تفصيل حاسم غالبًا ما يتم تجاهله. فهو يتجنب فقدان المعلومات والتشويه الناتج عن معالج إشارة الصورة الداخلي (ISP) للكاميرا، وهي ممارسة تتماشى مع أفضل الممارسات في أبحاث التصوير الحسابي من مؤسسات مثل MIT Media Lab.

نقاط القوة والضعف: القوة الرئيسية هي التكامل الناجح لمكون ML حديث في مكدس اتصالات الطبقة المادية، وتحقيق رقم قياسي معلن. التحقق التجريبي واضح. ومع ذلك، يحتوي التحليل على عيوب نموذجية للتجربة التوضيحية المبكرة: لا يوجد ذكر لمعدل نقل البيانات (بت/ثانية)، فقط الكفاءة الطيفية (بت/رمز). يظل تأثير الإنتاجية في العالم الحقيقي غامضًا. علاوة على ذلك، فإن تعقيد الشبكة العصبية، ومتطلبات بيانات التدريب، وقدرتها على التعميم على كاميرات أو بيئات مختلفة غير مستكشفة—وهي عقبات كبيرة للتقييس والتسويق.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، المسار واضح: ركز على الهياكل العصبية الخفيفة الوزن والقابلة للتكيف للمعادلة في الوقت الفعلي. يجب أن يشمل المعيار المرجعي الإنتاجية وزمن الوصول الفعليين. بالنسبة للصناعة (مثل مجموعة عمل IEEE P802.15.7r1 OCC)، يوفر هذا العمل دليلاً قويًا للنظر في المستقبلات القائمة على الشبكات العصبية في المعايير المستقبلية، ولكن يجب أن يقترن باختبارات صارمة للقدرة على التشغيل البيني. الخطوة التالية هي الانتقال من إعداد معمل ثابت إلى سيناريو ديناميكي، ربما باستخدام تقنيات مستوحاة من تكيف المجال على غرار CycleGAN [2] للسماح للشبكة العصبية بالتعويض عن ظروف الإضاءة المحيطة المتغيرة، وهو تحدٍ أصعب بكثير من التداخل الثابت.

5. التفاصيل التقنية والصياغة الرياضية

تتضمن معالجة الإشارة الأساسية تحويلين رئيسيين:

1. التحويل من RGB إلى CIE 1931: $\begin{pmatrix} x \\ y \end{pmatrix} = \mathbf{M} \cdot \begin{pmatrix} R \\ G \\ B \end{pmatrix}$ حيث $\mathbf{M}$ هي المصفوفة المحددة مسبقًا: $\mathbf{M} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix}$. هذا يعين قيم RGB المعتمدة على الجهاز إلى فضاء ألوان مطلق.

2. الشبكة العصبية كمعادل: تتعلم الشبكة العصبية الدالة $f_{\theta}$ التي تعين الإحداثيات المستلمة المشوهة $(x', y')$ إلى الاحتمال اللاحق $P(\text{symbol}_i | x', y')$ لجميع الرموز الـ 512. يتم تدريب المعلمات $\theta$ لتقليل فقدان الانتروبيا المتقاطع بين الاحتمالات المتوقعة والرموز المرسلة المعروفة. ثم يتم تقريب LLR للبت $k$-th على النحو: $LLR(b_k) \approx \log \frac{\sum_{i \in S_k^1} P(\text{symbol}_i | x', y')}{\sum_{i \in S_k^0} P(\text{symbol}_i | x', y')}$ حيث $S_k^1$ و $S_k^0$ هما مجموعتا الرموز حيث يكون البت $k$-th هو 1 و 0 على التوالي.

6. إطار التحليل ومثال تطبيقي

إطار لتقييم تقدم OCC: لتقييم أي ورقة جديدة في OCC بشكل نقدي، نقترح إطار تحليل رباعي الأبعاد:

  1. الكفاءة الطيفية المكانية (بت/مورد): ما هو معدل نقل البيانات المحقق (bps) وما هي الموارد التي يستخدمها (عرض النطاق الترددي، وحدات البكسل المكانية، الوقت)؟ تسجل هذه الورقة درجة عالية في الكفاءة الطيفية (بت/رمز) ولكنها تفتقر إلى رقم bps ملموس.
  2. المتانة والعملية: ما هي القيود التشغيلية (المسافة، المحاذاة، الضوء المحيط)؟ 4 أمتار جيدة، لكن الظروف الثابتة تمثل قيدًا.
  3. تعقيد النظام والتكلفة: ما هي تكلفة الحل؟ يضيف المعادل العصبي تكلفة حسابية ونفقات تدريب.
  4. إمكانية التقييس: ما مدى قابلية إعادة إنتاج التقنية وقابليتها للتشغيل البيني؟ الاعتماد على البيانات الخام وشبكة NN مدربة يخفض هذه النتيجة حاليًا.

مثال تطبيقي - تطبيق الإطار: قارن هذا العمل 512-CSK NN مع عمل كلاسيكي 8-CSK يستخدم المعادلة الخطية [3].

  • الكفاءة: 512-CSK متفوقة بشكل كبير في بت/رمز.
  • المتانة: قد تتعامل الشبكة العصبية مع اللاخطية بشكل أفضل، لكن أدائها في ظل ظروف غير مدربة (كاميرا جديدة، ضوء مختلف) غير معروف مقابل نموذج خطي أبسط.
  • التعقيد: الشبكة العصبية أكثر تعقيدًا بشكل كبير.
  • التقييس: المعادلة الخطية أسهل في التقييس.
المقايضة واضحة: معالجة الإشارات المتقدمة تشتري كفاءة أعلى على حساب التعقيد. مسار المجال يتجه نحو قبول هذا التعقيد للتغلب على الحدود الفيزيائية.

7. التطبيقات المستقبلية واتجاهات البحث

تتجاوز آثار هذا العمل حدود المختبر:

  • LiFi فائق السرعة لشبكات 6G: يمكن أن يوفر دمج OCC عالي الرتبة كهذا مع بنية تحتية لـ LiFi وصولاً إلى نقاط اتصال متعددة الجيجابت في الثانية في الملاعب أو المطارات أو المصانع الذكية، مكملاً للشبكات الراديوية.
  • إنترنت الأشياء المتمركز حول الهواتف الذكية: تمكين تبادل البيانات الآمن القائم على القرب (مثل المدفوعات، التذاكر، إقران الأجهزة) باستخدام كاميرات الهواتف الذكية كمستقبلات مع إضافة أجهزة دنيا.
  • اتصالات V2X للسيارات: استخدام مصابيح السيارة الأمامية/الخلفية والكاميرات للاتصال المباشر من مركبة إلى مركبة أو من مركبة إلى بنية تحتية، مما يعزز أنظمة السلامة.

اتجاهات البحث الحرجة:

  1. التعلم التكيفي والمتعاون للمعادلات: تطوير شبكات عصبية يمكنها التكيف عبر الإنترنت مع نماذج كاميرات أو إضاءة جديدة، ربما باستخدام التعلم المتعاون عبر الأجهزة لبناء نماذج قوية دون مشاركة البيانات الخام.
  2. ترميز المصدر والقناة المشترك مع الرؤية: استكشاف تقنيات التعلم العميق التي تحسن بشكل مشترك التعديل (كوكبة CSK) والمعادل لمستشعر كاميرا معين، على غرار أنظمة الاتصالات المتعلمة من طرف إلى طرف.
  3. التحسين عبر الطبقات: دمج المعادل العصبي في الطبقة المادية مع بروتوكولات الطبقات الأعلى لتحسين إنتاجية النظام وموثوقيته الإجمالية في البيئات الديناميكية.
إن تقارب الاتصالات، ورؤية الكمبيوتر، والتعلم الآلي، كما هو موضح في هذه الورقة، هو المكان الذي ستظهر فيه أكثر الابتكارات التخريبية في OCC.

8. المراجع

  1. O'Shea, T. J., & Hoydis, J. (2017). An Introduction to Deep Learning for the Physical Layer. IEEE Transactions on Cognitive Communications and Networking. (مثال على الشبكات العصبية في الاتصالات).
  2. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (CycleGAN لتكيف المجال).
  3. Chen, H.-W., et al. (2019). [1] في ملف PDF الأصلي. (مثال على عمل CSK سابق ذي رتبة أقل).
  4. IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018.
  5. MIT Media Lab, Computational Photography. (مصدر مفاهيمي لأهمية بيانات المستشعر الخام).