اختر اللغة

أول عرض توضيحي لفك تشكيل إشارة تحويل مفتاح اللون 512-لون باستخدام معادلة الشبكة العصبية للاتصال البصري بالكاميرا

عرض تجريبي لنقل OCC باستخدام CSK-512 باستخدام مستشعر صور CMOS ومعادل شبكة عصبية متعدد التسميات لفك تشفير خالٍ من الأخطاء.
rgbcw.org | PDF Size: 0.4 MB
التقييم: 4.5/5
تقييمك
لقد قيمت هذا المستند مسبقاً
غلاف مستند PDF - أول عرض توضيحي لفك تشكيل إشارة تحويل مفتاح اللون 512-لون باستخدام معادلة الشبكة العصبية للاتصال البصري بالكاميرا

جدول المحتويات

1. المقدمة

الاتصال البصري بالكاميرا (OCC) هو تقنية واعدة للجيل القادم من الاتصالات اللاسلكية البصرية، حيث تستخدم مستشعرات صور CMOS المنتشرة في الكاميرات كمستقبلات. فهي توفر قنوات مجانية وفعالة من حيث التكلفة. أحد التحديات الرئيسية هو تعزيز معدل نقل البيانات، المحدود بمعدل إطارات الكاميرا وأوقات التعريض، مع الحفاظ على تشغيل خالٍ من الوميض. تحويل مفتاح اللون (CSK)، وهو مخطط تشكيل من معيار IEEE 802.15.7، يقوم بتعيين البيانات إلى ألوان في فضاء اللونية CIE 1931 لزيادة معدلات البيانات. ومع ذلك، فإن التداخل الناتج عن حساسية الطيف للكاميرا يتطلب تعويضًا. حققت العروض التوضيحية السابقة ما يصل إلى CSK-32 على مسافات قصيرة. تقدم هذه الورقة البحثية أول عرض توضيحي تجريبي لنقل إشارة CSK-512 مع فك تشكيل خالٍ من الأخطاء على مسافة 4 أمتار، باستخدام معادل قائم على الشبكة العصبية للتعامل مع التداخل غير الخطي.

2. تكوين المستقبل

يعتمد نظام المستقبل على وحدة مستشعر صور CMOS من نوع Sony IMX530 مع عدسة 50 مم، قادرة على إخراج بيانات RGB أولية بدقة 12 بت دون معالجة لاحقة (إزالة فسيفساء البكسل، إزالة الضوضاء، موازنة اللون الأبيض).

2.1 نظام الكاميرا والبيانات الأولية

يخرج نظام كاميرا Sony بيانات صور أولية خالصة، مما يحافظ على قراءات المستشعر الأصلية الحاسمة للمعالجة الدقيقة للإشارة قبل أن تتسبب أي تصحيحات لونية في تشويه.

2.2 تحويل فضاء اللون

يتم تحويل قيم RGB الأولية إلى إحداثيات اللونية CIE 1931 (x, y) باستخدام مصفوفة تحويل قياسية: $$\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix}$$

2.3 معادل الشبكة العصبية

تعمل شبكة عصبية لتصنيف متعدد التسميات كمعادل لتعويض التداخل غير الخطي. تحتوي على وحدتي إدخال (x, y)، و $N_h$ طبقة مخفية تحتوي كل منها على $N_u$ وحدة، و $M=log_2(512)=9$ وحدة إخراج (بت لكل رمز). تخرج الشبكة توزيع احتمالي لاحق $p(1|x,y)$، يتم منه حساب نسب الاحتمال اللوغاريتمي (LLR) لإدخالها في وحدة فك تشفير LDPC. يتم ترتيب نقاط كوكبة CSK-512 بشكل مثلثي بدءًا من رأس اللون الأزرق (x=0.1805, y=0.0722).

3. نتائج التجربة

3.1 إعداد التجربة

استخدم النقل مصفوفة LED مستوية مقاس 8x8 (حجم اللوحة: 6.5 سم). تم تغيير عدد مصابيح LED النشطة من 1x1 إلى 8x8 لتقييم معدل الخطأ في البت (BER) بناءً على مساحة الصورة المشغولة (شدة الضوء). تم تثبيت مسافة النقل عند 4 أمتار.

3.2 أداء معدل الخطأ في البت

حقق النظام فك تشكيل خالٍ من الأخطاء لـ CSK-512. تم تقييم خصائص BER مقابل مساحة LED الفعالة في الصورة الملتقطة. نجح المعادل العصبي في التخفيف من التداخل، مما مكّن من فك تشكيل موثوق به عند هذا الترتيب العالي للتشكيل حيث تفشل الطرق الخطية التقليدية.

مقياس الأداء الرئيسي

ترتيب التشكيل: CSK-512 (9 بت/رمز)

مسافة النقل: 4 أمتار

النتيجة: تم تحقيق فك تشكيل خالٍ من الأخطاء

4. الرؤية الأساسية والتحليل

الرؤية الأساسية

لا يتعلق هذا العمل فقط بدفع CSK إلى 512 لونًا؛ بل هو تحول استراتيجي من تنظيف الإشارة القائم على الفيزياء إلى إعادة البناء القائم على البيانات. الاختراق الحقيقي هو معالجة التداخل الشديد بين القنوات ليس كمشكلة ضوضاء يجب تصفيتها، ولكن كخريطة تشويه غير خطية حتمية يجب تعلمها وعكسها بواسطة شبكة عصبية. هذا يعكس التحول النموذجي الذي شوهد في التصوير الحسابي، حيث تتعلم نماذج التعلم العميق مثل تلك التي نوقشت في ورقة CycleGAN (Zhu et al., 2017) الترجمة بين المجالات (مثل من الضوضاء إلى النظيفة) دون أمثلة مقترنة. هنا، تتعلم الشبكة العصبية عكس "بصمة" الطيف للكاميرا.

التسلسل المنطقي

المنطق مقنع: 1) CSK عالي الترتيب مقيد بالتداخل. 2) تداخل الكاميرا معقد وغير خطي. 3) لذلك، استخدم مقاربًا عالميًا للدوال (شبكة عصبية) مدربًا على البيانات المستقبلة لنمذجته وإلغائه. التسلسل من بيانات المستشعر الأولية -> تحويل CIE 1931 -> معادل الشبكة العصبية -> وحدة فك تشفير LDPC هو سلسلة معالجة إشارات هجينة حديثة. إنه يستخدم بذكاء فضاء CIE الموحد كتمثيل وسيط مستقر، لفصل علم الألوان عن نظرية الاتصالات.

نقاط القوة والضعف

نقاط القوة: العرض التوضيحي تجريبيًا قوي، حيث حقق رقمًا قياسيًا لـ CSK-512 على مسافة عملية 4 أمتار. استخدام بيانات المستشعر الأولية يتجاوز مسارات معالجة إشارة الكاميرا المدمرة - وهي تكتيكية حاسمة وغالبًا ما يتم تجاهلها. الطريقة مستقلة عن المستقبل؛ يمكن إعادة تدريب الشبكة العصبية لأي كاميرا. نقاط الضعف: النهج بطبيعته يحتاج إلى بيانات بكثافة ويتطلب معايرة لكل كاميرا. الورقة البحثية صامتة بشأن تعقيد الشبكة العصبية وزمن الوصول واستهلاك الطاقة - وهي تفاصيل حاسمة لـ OCC في الوقت الفعلي والمتنقل. مصفوفة LED مقاس 8x8 هي جهاز إرسال ضخم، مما يتعارض مع هدف OCC للاستفادة من مصادر الضوء المنتشرة. كما لوحظ في بحث IEEE ComSoc حول VLC، تظل قابلية التوسع والقدرة على التشغيل البيني عقبات كبيرة.

رؤى قابلة للتنفيذ

للباحثين: المستقبل يكمن في نماذج التعلم الخفيفة، وربما نماذج التعلم الموحد للمعايرة على الجهاز. استكشف البنى المعتمدة على المحولات التي قد تتعامل مع تشويه الرموز المتسلسلة بشكل أفضل من الشبكات العصبية التقدمية. للصناعة: هذه التقنية جاهزة لسيناريوهات متخصصة وتركيبات ثابتة (دلائل المتاحف، اتصال الروبوتات في المصانع) حيث تكون أجهزة الإرسال والمستقبلات مستقرة. شراكة مع مصنعي مستشعرات الكاميرا (مثل Sony، كما في هذه الورقة) لتضمين كتل معادلة مدربة مسبقًا أو قابلة للتدريب بسهولة مباشرة في الواجهة الخلفية الرقمية للمستشعر، مما يجعل الكاميرات "جاهزة لـ OCC" ميزة قابلة للبيع.

5. التفاصيل التقنية

التحدي التقني الأساسي هو عدم التطابق بين فضاء اللون المثالي CIE 1931 والحساسية الطيفية الفعلية للكاميرا، كما هو موضح في الشكل 1(ب) من ملف PDF. هذا يتسبب في أن تكون القيم المستقبلة (R, G, B) عبارة عن مخاليط خطية من شدة الإرسال. التحويل إلى (x, y) يساعد ولكنه لا يلغي اللاخطية. تتعلم الشبكة العصبية، بطبقاتها المخفية $N_h$، الدالة $f: (x, y) \rightarrow \mathbf{p}$، حيث $\mathbf{p}$ هو متجه 9-أبعاد لاحتمالات البت. يتم حساب LLR للبت $k$-th على النحو التالي: $$LLR(k) = \log \frac{p(b_k=1 | x, y)}{p(b_k=0 | x, y)}$$ توفر هذه القيم LLR مدخلات مرنة لوحدة فك تشفير LDPC القوية، مما يمكن من تصحيح الخطأ الأمامي لتحقيق النتيجة النهائية الخالية من الأخطاء.

6. مثال على إطار التحليل

الحالة: تقييم كاميرا جديدة لـ OCC. يوفر هذا البحث إطارًا لقياس مدى ملاءمة أي كاميرا لـ CSK عالي الترتيب.

  1. الحصول على البيانات: إرسال رموز CSK-512 معروفة باستخدام مصفوفة LED معايرة. التقاط بيانات المستشعر الأولية بالكاميرا قيد الاختبار.
  2. المعالجة المسبقة: تحويل بقع RGB الأولية إلى إحداثيات CIE 1931 (x, y) باستخدام المصفوفة القياسية.
  3. تدريب النموذج: تدريب شبكة عصبية متعددة التسميات (مثل MLP بثلاث طبقات بسيط) لتعيين المجموعات المستقبلة (x, y) مرة أخرى إلى تسميات الرموز الـ 512 المرسلة. مجموعة التدريب هي تعيين الرمز المعروف.
  4. مقياس الأداء: دقة التحقق النهائية أو BER بعد فك تشفير LDPC تشير مباشرة إلى قدرة الكاميرا. تشير الدقة العالية إلى تشويه جوهري منخفض أو خطية عالية، مما يجعلها مستقبل OCC جيد.
  5. المقارنة: كرر للكاميرات المختلفة. يصبح تعقيد الشبكة العصبية المطلوب (العمق $N_h$، العرض $N_u$) وكيلاً لشدة تداخل الكاميرا.
ينتقل هذا الإطار من تحليل ورقة المواصفات إلى تقييم وظيفي يركز على الاتصالات.

7. التطبيقات المستقبلية والاتجاهات

التطبيقات:

  • تحديد المواقع الداخلي الدقيق: يمكن لـ OCC عالي معدل البيانات نقل بصمات أو خرائط موقع معقدة جنبًا إلى جنب مع رموز التعريف.
  • ربط الواقع المعزز (AR): يمكن للأضواء الذكية بث بيانات وصفية عن الأشياء أو الأعمال الفنية مباشرة إلى كاميرات الهواتف الذكية، مما يمكن من AR سلس دون البحث في السحابة.
  • إنترنت الأشياء الصناعي في المناطق الحساسة للترددات الراديوية: الاتصال بين الروبوتات وأجهزة الاستشعار وأجهزة التحكم في المستشفيات أو الطائرات باستخدام إضاءة المنشأة الحالية.
  • الاتصال تحت الماء: يمكن لمصابيح LED الزرقاء والخضراء باستخدام CSK توفير معدلات بيانات أعلى للمركبات وأجهزة الاستشعار المغمورة.
اتجاهات البحث:
  • التعلم من البداية إلى النهاية: الانتقال من الكتل المنفصلة (فك التشكيل، المعادلة، فك التشفير) إلى شبكة عميقة واحدة مدربة مباشرة لتقليل BER.
  • تعويض القناة الديناميكي: تطوير شبكات عصبية يمكنها التكيف في الوقت الفعلي مع الظروف المتغيرة مثل التعريض التلقائي للكاميرا، ضبابية الحركة، أو تغيرات الضوء المحيط.
  • توحيد بنى الشبكات العصبية: اقتراح نماذج شبكات عصبية خفيفة وموحدة للمعادلة يمكن تنفيذها في أجهزة أو برامج ثابتة للكاميرا.
  • التكامل مع رؤية 6G: وضع OCC كتقنية تكميلية داخل البنية الشبكية غير المتجانسة لـ 6G، كما تم استكشافه في الأوراق البيضاء من تحالف الجيل التالي (Next G Alliance).

8. المراجع

  1. H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference, 2019.
  2. C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Journal, 2016.
  3. N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference, 2016.
  4. P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Journal, 2019.
  5. R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference, 2014.
  6. J.-Y. Zhu et al., "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks," IEEE International Conference on Computer Vision (ICCV), 2017. (مصدر خارجي لمفهوم الترجمة بين المجالات القائم على التعلم)
  7. IEEE Communications Society, "Visible Light Communication: A Roadmap for Standardization," Technical Report, 2022. (مصدر خارجي لتحديات الصناعة)
  8. Next G Alliance, "6G Vision and Framework," White Paper, 2023. (مصدر خارجي للتكامل الشبكي المستقبلي)
  9. "Commission Internationale de l'Eclairage (CIE) 1931 color space," Standard.
  10. Sony Semiconductor Solutions Corporation, "IMX530 Sensor Datasheet," Technical Specification.