تحليل الكلام وتركيبه

تحليل الكلام وتركيبه

يهدف التواصل بين البشر إلى تبادل الأفكار، الذي يمكن أن يكون بالكلام أو بالكتابة أو بالإشارة. وبازدياد تطور علوم الإلكترونيات والحاسوب تقوم الحواسيب بدور أساسي في عملية تخزين المعلومات ومعالجتها. وتزداد الحاجة إلى تطوير تقانات لتبادل المعلومات بين البشر والحواسيب. وبما أن الكلام هو الطريقة الأكثر استعمالاً للتواصل بين البشر، فمن الطبيعي استعماله أيضاً للتواصل بين الإنسان والآلة (الحاسوب).

تسمح واجهات التخاطب الصوتية بين الإنسان والآلة، بالتواصل مع الحواسيب والحصول على معلومات من دون أن يكون المستخدمون معلوماتيين. وتتطلب هذه الواجهات تقنيات إنتاج الكلام من الحواسيب (تركيب الكلام)، وتعرف الكلام من قبل الآلة.

إنتاج الكلام البشري وتقانات نمذجته

ينتج الكلام من تحريض صوتي acoustical excitation لحجرة متغيرة مع الزمن هي الجهاز أو السبيل الصوتي vocal tract، الذي يمتد من الحبال الصوتية vocal cords إلى الشفاه مروراً بالتجويف الفموي. وتنتج مختلف الأصوات الكلامية بتغيير نوع التحريض وشكل الجهاز الصوتي. ويمكن تمييز الأصناف التالية من الأصوات:

ـ الصوائت voiced: تنشأ من تحريض السبيل الصوتي بموجة هوائية شبه دورية، ناتجة عن اهتزاز الحبال الصوتية، يعدِّل هذا الاهتزاز الدفق الهوائي الآتي من الرئتين بتردد يراوح بين 60 مرة في الثانية للذكور، و400 أو 500 هرتز للأطفال. ومن هذه الأصوات أحرف المد الثلاث الألف والواو والياء، إضافة إلى الحركات الثلاث (الفتحة والضمة والكسرة) في اللغة العربية.

ـ الأنفيات nasal: مثل الصوتين /م/ و/ن/ حيث ينحرف جزءٌ من الدفق الهوائي إلى التجويف الأنفي عند فتح الشراع velum بين التجويفين الأنفي والفموي، وهي من الصوائت.

ـ الأصوات الانفجارية plosive: تنتج من تحرر مفاجئ للضغط الهوائي في السبيل الصوتي، بعد انسداد لحظي في إحدى نقاطه. وهي إما صائتة، حين تهتز الحبال قبل تحرر الضغط مثل الأصوات /ب/ و/د/ أو صامتة (غير صائتة) voicelss مثل /ت/ و/ك/، إذا لم تهتز هذه الحبال.

ـ الأصوات الاحتكاكية fricative : تنتج من نشوء دوامة هوائية بفعل تضيّق في إحدى نقاط السبيل الصوتي. فإذا رافق ذلك اهتزاز الحبال الصوتية تحصل أصوات صائتة مثل /ز/ و/ج/. وإلا فتحصل أصوات حروف صامتة مثل /س/ و/ش/.

ـ وتتضمن اللغة العربية أصواتاً مفخمة emphatic مثل /ض/ و/ظ/ و/ص/.

نظام النطق عند الإنسان هو نظام ميكانيكي تحكمه مجموعة عضلات (اللسان، والحنك، والحبال الصوتية وغيرها)، ونتيجة لعطالة هذا النظام وحركته البطيئة نسبياً يمكن عدّه ساكناً في مدة تراوح بين 10 و20 ميلي ثانية، مما يسمح بنمذجته بعدة موسطات في هذه المدة. تسمح هذه النمذجة عملياً من تقليد إنتاج مختلف الأصوات. يمكن تمييز عدة أنواع من مركبات الكلام التي تختلف باختلاف طريقة نمذجة نظام النطق المذكور، ومن بين هذه المركبات هناك: المركبات المفصلية الموجية articulators modulation، ومركبات البواني أو المشكِّلات formant synthesizers والمركبات التي تعتمد تقانة التنبؤ الخطي linear predictive coders.

ـ المركِّبات المفصلية الموجية: وهي تعتمد على محاكاة ميكانيكية للسبيل الصوتي وحركة العضلات المشاركة في عملية إنتاج الكلام. يُقَرَّب شكل السبيل الصوتي بسلسَلَة نحو عشرين مقطعاً أسطوانياً منتظماً، ويمكن الحصول على مساحة كل من هذه المقاطع بالاستعانة بالتصوير الشعاعي، أو حسابها من مواقع المفاصل (العضلات) المعنية وهي اللسان والشفاه والحنك. أو من تحليل الإشارة الكلامية الناتجة باستعمال خوارزميات متطورة. أما التحريض فينمذج باهتزاز ميكانيكي و/أو بضجيج. إلا أن هذه النمذجة لا تعطي كلاماً مركباً جيداً.

ـ مركِّبات البواني: وهي طريقة كهربائية تعتمد على نمذجة السبيل الصوتي بمجموعة مرشحات تمرير حزمة بسيطة من الدرجة الثانية. في الحقيقة، تتميز الاستجابة الترددية للسبيل الصوتي بوجود ترددات تتمركز عندها الطاقة نسمي هذه الترددات بالبواني. توافق ترددات الطنين لمرشحات تمرير الحزمة ترددات هذه البواني. يمكن وضع هذه المرشحات على التوازي؛ أو على التسلسل أو بتشكيلة هجينة. يجري تحريض هذه المرشحات بمنبع شبه دوري (قطار نبضات) له تردد اهتزاز الأوتار الصوتية و/أو منبع ضجيج حين تتطلب الأصوات ذلك. أشهر هذه المركبات klatt synthesizer ومتغيراته. ومع أن هذه الطريقة طبيعية لأنها ترتبط مباشرة بموسطات طبيعية هي ترددات الطنين للجهاز الصوتي إلا أن عمليات تحليل الأصوات لاستنتاج هذه الموسطات شاقة وطويلة وتتطلب الكثير من الوقت والخبرة.

ـ مركِّبات التنبؤ الخطي: وهي أيضاً كهربائية تعتمد نمذجة السبيل الصوتي بمرشح وحيد له عدة أقطاب. يجري حساب ثوابت هذا المرشح باستعمال تقانة التنبؤ الخطي والتي تعتمد على إمكان التنبؤ بقيمة كل عينة من إشارة الكلام كتركيب خطي لعدة عينات سابقة (بدقة مقبولة). تتميز هذه الطريقة بكونها قابلة للأتمتة في مرحلتَي التحليل والتركيب، ويمكن تحسين جودة الكلام المركب بنمذجة إشارة التحريض بعدة نبضات في دور اهتزاز واحد للحبال الصوتية، فتسمى تقانة التنبؤ الخطي المتعدد النبضات multi-pulse linera prediction coders أو MPLPC أو بإشارة أكثر تعقيداً كما في عملية التنبؤ الخطي المحرض برماز code excited linear predicton أو CELP وغيرها.

تحليل الأصوات وتركيبها إحدى الطرق لتركيب الكلام

ينتج عن عملية الكلام أمواجٌ صوتية يمكن تحويلها إلى إشارة كهربائية باستعمال محول طاقة مناسب (مكرفون). يمكن التعامل مع هذه الإشارة كأي إشارة كهربائية، ومحاكاة تغيراتها الزمنية بغض النظر عن الآلية التي جرى فيها إنتاج الصوت البشري. تعتمد هذه الطرق، في مرحلة التحليل، على أخذ عينات من الإشارة الكلامية وتكمية quantization كل عينة بعدد من البتات يكوّن رمازها. نستعيد، عند التركيب، قيم العينات من الرمازات الموافقة: وكمثال على هذا، تقانة التعديل النبضي المرمز [ر. تعديل الإشا رة] المستَعمَلة في المقاسم الهاتفية الرقمية، وتقانات تعديل دلتا بتشكيلاتها المختلفة. ويمكن الحصول بهذه الطرق على نوعيات جيدة جداً؛ إلا أنه لايمكن إلا إعادة إنتاج الكلام الذي سُجل قبلاً وتحليله ولا يمكن إنتاج أي كلام آخر. لذلك، تستعمَل هذه الطرق في نظم تركيب كلام تنتج كلمات أو جمل محددة معروفة من قبل مثل الساعة الناطقة، مواعيد رحلات الطيران وغيرها. ولا يمكن استعمال هذه التقانات في نظم تركيب الكلام التي عليها إنتاج الكلام من دون أن يجري تسجيله.

نظم تحليل الكلام وتركيبه: تركيب الكلام من نص مكتوب

يُعمد في نظم تحليل الكلام وتركيبه لإنتاج كلام غير محدد، أو غير مسجل من قبل، إلى اختيار مجموعة وحدات صوتية تمكّن من تركيب أي جملة كلامية، وبذلك يجب فقط لتخزين هذه الوحدات أو موسطات مناسبة لإنتاجها. لا يمكن أن تكون هذه الوحدات كلمات، لأن عدد كلمات اللغة هائل ويمكن أن يزداد مع مرور الزمن بإضافة كلمات جديدة لا تكون معروفة من قبل. إن أصغر الوحدات الصوتية هي المقاطع الصوتية أو الصوتيمات phonemes، وهي محدودة العدد في كل لغة، ويراوح عددها من 35 إلى 60 في اللغات الأوروبية والسامية. يمكن التفكير إذاً بتخزين هذه الصوتيمات وإنتاج (تركيب) أي كلمة منها. ولكن استعمال هذه الوحدات وحدها لا يحل مشكلة التمفصل بين صوتيمين، فالنقلة بين صوتيمين أهم بكثير من الصوتيمات نفسها؛ على سبيل المثال، إذا اقتطعنا الصوتيم /ب/ من كلمة والصوتيم /أ/ من كلمة أخرى وجمعناهما معاً فلن نسمع بالضرورة المقطع /با/. وهذا ما قاد إلى اعتماد الثنائيات الصوتية diphones كأصغر وحدات صوتية، إذ تتضمن كل ثنائية النقلة بين الجزء المستقر من الصوتيم الأول والجزء المستقر بين الصوتيم الثاني. عدد هذه الثنائيات للغات السابقة من رتبة 1500 -2000 ثنائية ويمكن تشكيل أي كلمة منها. وهناك مركبات كلامية كثيرة تعتمد هذا المبدأ. توجد أيضاً مركبات تعتمد المقاطع syllables أو أنصاف المقاطع كوحدات صوتية وهي تعطي نتائج أجود ولكن على حساب ازدياد عدد هذه الواحدات، الذي يفوق 30000.

بعد اختيار الوحدات الصوتية، تأتي عملية بناء القاموس الصوتي وتتضمن عدة مراحل: أولاً، إنشاء مدونة corpus لكلمات ليس لها معنى بالضرورة تتضمن كل منها إحدى هذه الوحدات، ثانياً، تسجيل هذه المدونة بصوت شخص أو أكثر، بلفظ صحيح، ثالثاً إدخال الأصوات المسجلة إلى الحاسوب للقيام بعمليات التحليل المناسبة من اقتطاع الوحدات الصوتية من المدونة ثم اعتماد إحدى طرق نمذجة الكلام الآنفة الذكر (البواني، التنبؤ الخطي،...) لاستخراج الموسطات المناسبة للتركيب وتخزينها. ويمكن اختزال عدد الوحدات الصوتية إلى أصغر تشكيلة (الصوتيمات) إذا أمكن استنتاج قواعد تضبط مسارات موسطات التركيب عند الانتقال من صوتيم إلى آخر، ويُعرَف هذا بتقانة التركيب بالقواعد rule based synthesis.

أما تركيب الكلام من نص، فهو يتطلب مرحلة تحليل هذا النص قبل تركيبه، وتتضمن هذه المرحلة تحويل الكتابة إلى رموز قراءة صوتية phonemes، وإضافة معلومات تطريزية prosody بالاستعانة بأدوات الترقيم والتحليل الصرفي والنحوي والدلالي للنص (طريقة النطق: مدة النطق، شدة الكلام، النبرة... وهي تتعلق بكون الجمل إخبارية أو استفهامية أو تعجبية أو أمرية...). ونظراً لتعدد طرق لفظ الكلمات غير المشكلة في اللغة العربية، يتطلب الأمر إضافة مرحلة تشكيل النص لإزالة اللبس، وهذه المرحلة تستفيد من عمليات التحليل الصرفي والنحوي والدلالي أيضاً.

وبعد استنتاج الكتابة الصوتية تُولد الأصوات اللازمة للنطق من القاموس الصوتي الذي يتيح مرة واحدة في حين تجري عملية تحليل النص لكل نص على حدة.

الحالة الراهنة والتوجهات المستقبلية

ثمة مركبات كلام من نصوص للغات عالمية كثيرة، منذ أكثر من عشرين عاماً. وتختلف المولدات للغة الواحدة بجودة الكلام الناتج وطبيعيته. ولأن تطريز الكلام prosody يؤدي إلى جعل الكلام المركب يبدو طبيعياً، مازال العمل جارياً على استنتاج أفضل مولدات تطريز الكلام آلياً.

في مجال اللغة العربية مازالت التجارب متواضعة ومازال المطلوب فعله كثيراً. هناك أعمال رائدة تمت في مجال التحليل الصرفي للغة العربية، أما التحليل النحوي والدلالي فمازال في بداياته. أعلنت شركة صخر للحواسيب عن مركب كلام باللغة العربية ولكن، في مجال الكتابة الصوتية لنصوص مشكّلة باللغة العربية، تمت الاستفادة من نواة نظام خبير TOPH لكتابة قواعد الانتقال من المكتوب إلى المنطوق وهو يعمل على نحو جيد كما تمت الاستفادة من مشروع MBROLA لعرض نموذج أولي لمركب كلام من نصوص عربية مشكلة، الكلام الناتج مفهوم ولكنه آلي إذ لا يتضمن أي تطريز كلام، كما أنه يفتقر إلى بعض الأصوات كالواو والياء الممالتين /O/ و/E/، ويجري العمل حالياً على بناء قاموس صوتي يتضمن هذه الأصوات.

تطبيقات تحليل الكلام وتركيبه

لتركيب الكلام تطبيقات مهمة منها، إعطاء أوامر صوتية في أماكن تصعب فيها قراءة أوامر التحكم من شاشة؛ مثل حجرات قيادة الطائرات. ومن هذه التطبيقات أيضاً آلات القراءة لذوي الحاجات الخاصة مثل قراءة نصوص للمكفوفين أو مساعدة من لديهم إعاقات نطقية، وهنا يمكن أن يكتب المعوق ما يود قوله على لوحة مفاتيح ويقوم الحاسوب بالنطق، أو يمكن أن يتعلم الشخص النطق من مقارنة الكلام الذي ينطقه مثلاً مع الكلام نفسه منطوقاً نطقاً صحيحاً (من مركب كلام) إذ يُستعان برسم بياني لشكل السبيل الصوتي في الحالتين، وتوضيح مواضع النطق غير السليمة، كما توجد تطبيقات أكثر رفاهية مثل قراءة الفاكسات والبريد الإلكتروني عن بعد، وخدمات عبر الهاتف مثل الحجز في الفنادق، والاستفسار عن معلومات مصرفية، وغيرها الكثير.

أميمة الحكواتي الدكاك

الموضوعات ذات الصلة:

الترميز ـ تعديل الإشارة ـ تعرف الكلام ـ الكلام.

مراجع للاستزادة:

- J.N.HOLMES, Speech Synthesis and Recognition (Van Nostrand Reinhold (UK) Co. Ltd 1988).

- R.BOITE and M. KUNT, Traitement de la parole (Presses Polytchniques Romandes 1987).

- N.S.JAYANT & P.NOLL, Digital Coding of Waveforms (Prentice Hall, New Jersey 1984).