أول عرض توضيحي لفك تشكيل إشارة تحويل تموضع اللون 512-لون باستخدام معادلة عصبية للاتصالات البصرية بالكاميرا

جدول المحتويات

1. المقدمة والنظرة العامة

تقدم هذه الورقة البحثية أول عرض توضيحي تجريبي لنقل إشارة تحويل تموضع اللون 512-لون (512-CSK) للاتصالات البصرية بالكاميرا (OCC). الإنجاز الأساسي هو فك تشكيل خالٍ من الأخطاء على مسافة 4 أمتار باستخدام وحدة مستشعر صور CMOS تجارية من سوني IMX530 مقترنة بعدسة 50 ملم وشبكة عصبية تصنيف متعددة التسميات مخصصة تعمل كمعادل غير خطي. يدفع هذا العمل حدود كثافة بيانات OCC بشكل كبير، منتقلاً من مخططات 8 أو 16 أو 32-CSK التي تم عرضها سابقاً إلى عالم التشكيل عالي الرتبة المتمثل في 512 لون (9 بت/رمز).

يتناول البحث تحدياً أساسياً في OCC: التداخل بين الألوان الناتج عن الحساسية الطيفية غير المثالية لمرشحات RGB في الكاميرا، مما يشوه كوكبة CSK المرسلة المستندة إلى فضاء اللون CIE 1931. يعوض المعادل العصبي المقترح هذا التشويه غير الخطي مباشرة من بيانات المستشعر الأولية، متجاوزاً الحاجة إلى نماذج معالجة إشارات خطية معقدة.

512 لون

رتبة التشكيل (9 بت/رمز)

4 أمتار

مسافة النقل

خالٍ من الأخطاء

فك التشكيل المُحقق

مصفوفة 8x8

لوحة إرسال LED

2. الإطار التقني

2.1 تكوين المستقبل والإعداد

يُبنى نظام المستقبل حول نظام كاميرا من سوني سيميكونداكتور سوليوشنز قادر على إخراج بيانات RGB أولية 12-بت دون أي معالجة لاحقة (إزالة الفسيفساء، إزالة الضوضاء، موازنة البياض). هذه البيانات الأولية حاسمة لاستعادة اللون بدقة. يتم التقاط الإشارة عبر عدسة بصرية 50 ملم من مرسل مصفوفة LED مستوية 8x8 (لوحة 6.5 سم). يتم أولاً تحويل قيم RGB المستقبلة إلى إحداثيات اللونية CIE 1931 (x, y) باستخدام مصفوفة تحويل فضاء لوني قياسي قبل تغذيتها إلى المعادل العصبي.

2.2 بنية معادل الشبكة العصبية

جوهر نظام فك التشكيل هو شبكة عصبية متعددة التصنيفات. هدفها هو إجراء معادلة غير خطية، تعيين الإحداثيات المستقبلة المشوهة (x, y) مرة أخرى إلى الرمز المرسل الأكثر احتمالاً ذي الـ 9 بت (لـ 512-CSK).

طبقة الإدخال: وحدتان (إحداثيات اللونية x, y).
الطبقات المخفية: N_h طبقات تحتوي كل منها على N_u وحدة (تفاصيل البنية المحددة مُستنتجة ولكن غير مُفصلة بالكامل في المقتطف).
طبقة الإخراج: M = 9 وحدات، تتوافق مع الـ 9 بت لرمز 512-CSK. يتم تدريب الشبكة على التصنيف متعدد التسميات.

تُخرج الشبكة توزيع احتمالي لاحق $p(1|x, y)$ لكل بت. يتم حساب نسبة الاحتمال اللوغاريتمي (LLR) من هذه الاحتمالات ثم فك تشفيرها بواسطة مفكك تشفير LDPC لتصحيح الخطأ النهائي.

2.3 تعيين كوكبة 512-CSK

يتم وضع الرموز الـ 512 بشكل استراتيجي داخل نطاق ألوان CIE 1931 لمرسل RGB-LED. يبدأ التعيين من الرأس المقابل للون الأساسي الأزرق $(x=0.1805, y=0.0722)$ ويملأ المساحة المتاحة بطريقة "مثلثية". يشير هذا إلى خوارزمية تعبئة فعالة لتعظيم المسافة الإقليدية بين نقاط الكوكبة داخل نطاق الألوان الفيزيائي، وهو أمر بالغ الأهمية لتقليل معدل خطأ الرمز.

3. النتائج التجريبية والتحليل

3.1 أداء معدل الخطأ في البت مقابل حجم مصفوفة LED

تغيرت التجربة في عدد وحدات LED النشطة في مصفوفة المرسل من 1x1 إلى 8x8. يغير هذا بشكل فعال شدة الضوء والمساحة التي تشغلها الإشارة على مستشعر الصور. تم تقييم خصائص معدل الخطأ في البت (BER) مقابل هذا المتغير. يُظهر التشغيل الناجح الخالي من الأخطاء متانة المعادل العصبي عبر نقاط قوة الإشارة المستقبلة المختلفة والملامح المكانية. من المرجح أن يوفر استخدام مصفوفة كاملة 8x8 أفضل أداء عن طريق حساب المتوسط عبر وحدات بكسل متعددة وتقليل تأثير الضوضاء.

3.2 المقارنة مع الأعمال السابقة

تتضمن الورقة البحثية شكلًا ملخصًا (الشكل 1(ج)) يقارن هذا العمل بعروض OCC-CSK السابقة. أبرز نقاط التمايز هي:

رتبة التشكيل: 512-CSK تتجاوز بكثير 8-CSK [1]، و16-CSK [2,3]، و32-CSK [4,5] المبلغ عنها في الأعمال التجريبية السابقة.
المسافة: تشغيل 4 أمتار تنافسي، خاصةً بالنظر إلى رتبة التشكيل العالية. يقع بين العروض التوضيحية عالية الرتبة قصيرة المدى جداً (3-4 سم) والعروض التوضيحية منخفضة الرتبة طويلة المدى (80-100 سم).
التقنية: استخدام شبكة عصبية للمعادلة غير الخطية المباشرة من بيانات المستشعر الأولية هو نهج جديد وربما أكثر قابلية للتعميم مقارنة بتقنيات التعويض الخطي القائمة على النماذج.

4. التحليل الأساسي والتفسير الخبير

الرؤية الأساسية: هذه الورقة البحثية ليست مجرد تحقيق لعدد أكبر من الألوان؛ بل هي تحول استراتيجي من النمذجة القائمة على الفيزياء أولاً إلى التعلم القائم على البيانات أولاً في استعادة الإشارات البصرية. يعترف المؤلفون ضمنياً بأن خط التشويه المعقد غير الخطي في الكاميرا (التداخل بين المرشحات، عدم خطية المستشعر، تشوهات العدسة) يتم التعامل معه بشكل أفضل بواسطة مقارب دالة عالمي (شبكة عصبية) بدلاً من نموذج تحليلي مشتق بدقة ولكنه حتماً غير مكتمل. يعكس هذا التحول الذي شوهد في مجالات أخرى مثل الاتصالات اللاسلكية، حيث يُستخدم التعلم العميق بشكل متزايد لمعادلة القناة وكشف الرموز في قنوات معقدة وغير خطية.

التدفق المنطقي: المنطق مقنع: 1) CSK عالي الرتبة مطلوب للإنتاجية. 2) CSK عالي الرتبة حساس للغاية لتشويه اللون. 3) تشويه لون الكاميرا معقد وغير خطي. 4) لذلك، استخدم معوض غير خطي (شبكة عصبية) مدرب من البداية إلى النهاية على بيانات حقيقية. استخدام بيانات المستشعر الأولية هو ضربة بارعة—فهو يوفر للشبكة العصبية الحد الأقصى من المعلومات غير المعدلة قبل أن يقدم معالج إشارة الصور (ISP) الخاص بالكاميرا تحويلاته الخاصة، التي غالباً ما تكون خاصة وغير قابلة للعكس. يشبه هذا النهج الفلسفة في التصوير الحسابي الحديث، حيث تعمل الخوارزميات على بيانات المستشعر الأولية لتحقيق أقصى مرونة.

نقاط القوة والضعف: القوة الأساسية هي القفزة الهائلة في الكفاءة الطيفية، والتحقق تجريبياً مما كان سابقاً مجالاً للمحاكاة فقط. المعادل العصبي أنيق وقوي. ومع ذلك، العيب—المشترك في العديد من أوراق الاتصالات القائمة على التعلم الآلي—هو طبيعة "الصندوق الأسود". لا تتناول الورقة البحثية بالتفصيل بحث بنية الشبكة العصبية، أو حجم بيانات التدريب، أو قدرة التعميم على كاميرات أو عدسات أو ظروف إضاءة محيطة مختلفة. هل ستحتاج الشبكة إلى إعادة التدريب لكل نموذج مستقبل جديد؟ كما لوحظ في مراجعة أساسية حول التعلم الآلي للاتصالات بقلم أوشي وهويديس، فإن الجدوى العملية للمستقبلات القائمة على التعلم العميق تعتمد على متانتها وقدرتها على التكيف مع الظروف المتغيرة. علاوة على ذلك، فإن مسافة 4 أمتار، رغم كونها جيدة، لا تزال تشير إلى قيد في الطاقة/نسبة الإشارة إلى الضوضاء. الاعتماد على مفكك تشفير LDPC للأداء النهائي الخالي من الأخطاء يشير إلى أن معدل خطأ الرمز الأولي عند إخراج الشبكة العصبية ليس صفراً، مما يثير تساؤلات حول أداء المعادل المنفرد تحت نسبة إشارة إلى ضوضاء أقل.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، الخطوة التالية الواضحة هي فتح الصندوق الأسود. التحقيق في بنى الشبكات العصبية (قد تعالج الشبكات العصبية التلافيفية الاختلافات المكانية عبر المستشعر بشكل أفضل)، واستكشاف التعلم القليل العينة أو نقل التعلم للتكيف مع أجهزة جديدة، ودمج المعادل مع تصحيح الخطأ الأمامي في هيكل أكثر شمولية، يشبه التوربو. بالنسبة للصناعة، تشير هذه الأعمال إلى أن الاتصالات الضوئية المرئية عالية معدل البيانات والخالية من الوميض باستخدام كاميرات تجارية تقترب من الواقع. الشراكة مع سوني للحصول على المستشعر ملحوظة؛ سيعتمد التسويق على تضمين مثل هذه المعالجة العصبية بكفاءة في دوائر ASICs للكاميرا أو الاستفادة من مسرعات الذكاء الاصطناعي الموجودة بالفعل في الهواتف الذكية. المعيار الذي يجب مراقبته هو IEEE 802.15.7r1 (OCC)، ويمكن للمساهمات مثل هذه أن تؤثر مباشرة في تطوره.

5. التفاصيل التقنية والصياغة الرياضية

تحويل فضاء اللون: يتم إجراء التحويل من قيم RGB المستقبلة (من المستشعر الأولي) إلى إحداثيات CIE 1931 xy باستخدام مصفوفة قياسية مشتقة من الخصائص الطيفية للمستشعر بالنسبة للمراقب القياسي CIE. تقدم الورقة البحثية المصفوفة المحددة المستخدمة: $$ \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 0.4124 & 0.3576 & 0.1805 \\ 0.2126 & 0.7152 & 0.0722 \end{pmatrix} \begin{pmatrix} R \\ G \\ B \end{pmatrix} $$ هذا تحويل خطي مبسط. في الممارسة العملية، قد يتطلب نموذج أكثر دقة تعييناً غير خطي أو مصفوفة مصممة خصيصاً لمرشحات الألوان لمستشعر معين.

إخراج الشبكة العصبية إلى LLR: تُخرج الشبكة العصبية متعددة التصنيفات الاحتمال $p_i(1|x, y)$ أن يكون البت $i$-th (من أصل 9) هو '1'. يتم حساب نسبة الاحتمال اللوغاريتمي (LLR) $L_i$ لذلك البت، التي تُغذى إلى مفكك تشفير LDPC، على النحو التالي: $$ L_i = \log \left( \frac{p_i(1|x, y)}{1 - p_i(1|x, y)} \right) $$ تشير قيمة LLR موجبة كبيرة إلى ثقة عالية بأن البت هو 1، وتشير قيمة سالبة كبيرة إلى ثقة عالية بأنه 0.

6. إطار التحليل ومثال حالة

الإطار: خط أنابيب "المستقبل المتعلم" لـ OCC

يجسد هذا البحث نمط تصميم "مستقبل متعلم" حديث قابل للتطبيق خارج OCC. يمكن تقسيم الإطار إلى كتل متسلسلة وقابلة للتحسين:

اكتساب البيانات الواعي بالأجهزة: التقاط الإشارات في أقدم نقطة وأكثرها أولية في سلسلة المعالجة (مثل بيانات RAW للمستشعر، عينات I/Q للترددات الراديوية).
المعالجة المسبقة القابلة للاشتقاق: تطبيق الحد الأدنى من المعالجة المسبقة الضرورية (مثل تحويل فضاء اللون، المزامنة) بطريقة قابلة للاشتقاق للسماح بتدفق التدرج إذا كان التدريب من البداية إلى النهاية.
النواة العصبية: استخدام شبكة عصبية (MLP, CNN, Transformer) لأداء مهمة فك التشكيل/المعادلة الأساسية. يتم تدريب الشبكة بدالة خسارة تقلل مباشرة من معدل خطأ الرمز أو البت، وغالباً ما تستخدم خسارة الانتروبيا المتقاطعة لمهام التصنيف.
فك التشفير الهجين: توصيل المخرجات الناعمة للشبكة العصبية (الاحتمالات، قيم LLR) مع مفكك تشفير تصحيح خطأ غير عصبي حديث (مثل مفكك تشفير LDPC أو Polar). يجمع هذا بين مرونة التعلم والأمثلية المثبتة لنظرية الترميز الكلاسيكية.

مثال حالة غير برمجي: تطبيق الإطار على الاتصالات الضوئية المرئية تحت الماء

فكر في تطبيق هذا الإطار نفسه على الاتصالات الضوئية المرئية تحت الماء (UVLC)، التي تعاني من ضعف شديد في القناة مثل التشتت والتلاشي الناجم عن الاضطراب. يمكن بناء "مستقبل متعلم" لـ UVLC على النحو التالي:

الخطوة 1: استخدام كاشف ضوئي عالي السرعة أو كاميرا تلتقط تسلسلات شدة أولية.
الخطوة 2: المعالجة المسبقة لعزل منطقة الإشارة محل الاهتمام وإجراء مزامنة تقريبية.
الخطوة 3: تدريب شبكة عصبية تلافيفية أحادية البعد (CNN) أو شبكة عصبية متكررة (RNN) مثل LSTM على بيانات التسلسل الأولية هذه. مهمة الشبكة هي معادلة تأثيرات القناة المتغيرة مع الزمن وفك تعيين الرموز. سيتم جمع بيانات التدريب تحت ظروف عكورة واضطراب مائية مختلفة.
الخطوة 4: تُخرج الشبكة قرارات ناعمة لمفكك تشفير FEC، مما يتيح اتصالاً قوياً في قناة ديناميكية للغاية حيث تفشل تقديرات القناة التقليدية.

7. التطبيقات المستقبلية واتجاهات البحث

Li-Fi القائم على الهواتف الذكية: الهدف النهائي هو دمج هذه التكنولوجيا في الهواتف الذكية لنقل بيانات نظير إلى نظير آمن وعالي السرعة أو تحديد المواقع الداخلي بدقة سنتيمترية، والاستفادة من أجهزة الكاميرا الحالية.
اتصالات V2X للسيارات: استخدام مصابيح السيارة الأمامية/الخلفية والكاميرات للاتصال من مركبة إلى كل شيء (V2X)، وتوفير رابط بيانات إضافي قوي مكمل لـ DSRC/C-V2X القائم على الترددات الراديوية.
واجهات الواقع المعزز/الافتراضي والميتافيرس: تمكين روابط بيانات منخفضة الكمون وعالية النطاق الترددي بين نظارات الواقع المعزز والبنية التحتية أو بين الأجهزة لتجارب مشتركة متزامنة.
اتجاهات البحث:
1. الأنظمة المتعلمة من البداية إلى النهاية: استكشاف التحسين المشترك لشكل كوكبة المرسل (عبر شبكة عصبية) ومعادل المستقبل، على غرار مفهوم اتصالات "المشفر التلقائي".
2. المتانة والتقييس: تطوير نماذج مستقبل عصبية قوية ضد نماذج الكاميرات المختلفة، والإضاءة المحيطة، والانسداد الجزئي. هذا أمر بالغ الأهمية لجهود التقييس مثل IEEE 802.15.7.
3. OCC فائق السرعة: الجمع بين CSK عالي الرتبة وتقنيات التشكيل المكاني أو باستخدام كاميرات ذات معدل إطار عالي أو قائمة على الأحداث لكسر حاجز Gbps.
4. الاتصال الدلالي: التجاوز إلى ما هو أبعد من استعادة البتات، واستخدام رابط OCC لنقل معلومات دلالية (مثل معرفات الكائنات، بيانات الخرائط) مباشرة، والتحسين لنجاح المهمة بدلاً من معدل خطأ البت.

8. المراجع

H.-W. Chen et al., "8-CSK data transmission over 4 cm," Relevant Conference/Journal, 2019.
C. Zhu et al., "16-CSK over 80 cm using a quadrichromatic LED," Relevant Conference/Journal, 2016.
N. Murata et al., "16-digital CSK over 100 cm based on IEEE 802.15.7," Relevant Conference/Journal, 2016.
P. Hu et al., "Tri-LEDs based 32-CSK over 3 cm," Relevant Conference/Journal, 2019.
R. Singh et al., "Tri-LEDs based 32-CSK," Relevant Conference/Journal, 2014.
O'Shea, T., & Hoydis, J. (2017). "An Introduction to Deep Learning for the Physical Layer." IEEE Transactions on Cognitive Communications and Networking. (مصدر خارجي موثوق حول التعلم الآلي للاتصالات)
IEEE Standard for Local and Metropolitan Area Networks--Part 15.7: Short-Range Optical Wireless Communications. IEEE Std 802.15.7-2018. (معيار خارجي موثوق)
Commission Internationale de l'Eclairage (CIE). (1931). Commission internationale de l'éclairage proceedings, 1931. Cambridge: Cambridge University Press. (مصدر خارجي موثوق لعلوم اللون)
Sony Semiconductor Solutions Corporation. IMX530 Sensor Datasheet. (مصدر خارجي موثوق للأجهزة)
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (مصدر خارجي موثوق حول الشبكات العصبية)