استاندار های صوتی در دوربین های مدار بسته

در حالی که امروزه ممکن است استفاده از صدا در سیستم‌های نظارت تصویری همچنان گسترده نباشند، وجود صدا می‌تواند توانایی سیستم را برای شناسایی و تشخیص رویدادها افزایش دهد و همچنین ارتباطات صوتی را از طریق شبکه IP فعال کند. موضوعات مورد نیاز و متداول در سیستم های دوربین شامل سناریوهای کاربردی، تجهیزات صوتی، حالت های صوتی، زنگ تشخیص صدا، فشرده سازی صدا و همگام سازی صدا/تصویر است.

بسیاری از دوربین‌های نظارت تصویری از میکروفن (درون‌ساز یا با قابلیت اتصال واحد خارجی) و اسپیکرهای خارجی پشتیبانی می‌کنند. صدا ارزش افزوده‌ای به محتوایی که مورد نظارت است،اضافه می کند.

استانداردهای صوتی استفاده شده در نظارت تصویری

صدا به طور معمول با استفاده از یک استاندارد فشرده‌سازی صدا کدگذاری می‌شود. برای انواع مختلفی از کاربردها (صحبت، ضبط صدا، موسیقی، پیوند استودیو-فرستنده و غیره) چندین استاندارد صوتی وجود دارد. این استانداردها به عنوان استانداردهای پر اتلاف (که در آن کیفیت صدا به دلیل الگوریتم فشرده‌سازی کاهش می‌یابد) و بدون اتلاف شناخته می‌شوند.

در مورد دستگاه‌های نظارت تصویری، با توجه به هدف بهینه‌سازی پهنای باند، از استانداردهای پرتلف استفاده می‌شود. برخی از استانداردهای محبوب فشرده‌سازی صدا که در محصولات نظارت تصویری پیاده‌سازی شده‌اند، در زیر خلاصه شده است: توجه کنید که استاندارد MP3 تنها به عنوان یک مرجع درج شده است، زیرا استاندارد فشرده‌سازی صدای بیشترین شناخته شده است، به خاطر استفاده آن در فایل‌های موسیقی.

برنامه های صوتی

داشتن صدا به عنوان بخشی یکپارچه از یک سیستم نظارت تصویری می تواند دستاورد بسیار ارزشمندی به توانایی سیستم در تشخیص و تفسیر رویدادها و موقعیت های اضطراری اضافه کند. توانایی صدا برای پوشش دادن منطقه 360 درجه، به سیستم نظارت تصویری کمک می کند تا پوشش خود را حتی در میدان دید دوربین گسترش دهد. این قابلیت می تواند به یک دوربین PTZ یا یک دوربین گنبدی PTZ (یا به اپراتور هشدار دهد) تا زنگ صوتی را به صورت بصری تأیید کند.

همچنین می‌توان از این صدا برای ارائه این قابلیت به کاربران استفاده کرد که نه تنها به رویدادهایی که در یک بخش اتفاق می افتند، گوش دهد، بلکه دستورات یا اعلانات مقتضی را به افراد حاضر در مکان یا مزاحمان ارسال کنند. به عنوان مثال، اگر فردی در میدان دید دوربین رفتار مشکوکی از خود نشان دهد، مانند پرسه زدن در نزدیکی دستگاه بانک، یا ورود به منطقه ممنوعه، نگهبان امنیتی از راه دور می تواند یک هشدار به صورت صوتی یا تصویری به فرد مورد نظر ارسال کند. در شرایطی اضطراری که ممکن است فردی مجروح شده باشد، امکان برقراری ارتباط از راه دور یا درخواست کمک در این موراد می تواند مفید واقع شود.

پشتیبانی و تجهیزات صوتی

پشتیبانی صوتی در سیستم های ویدئویی تحت شبکه نسبت به سیستم دوربین مداربسته آنالوگ، راحت تر می توان پیاده سازی کرد. در یک سیستم آنالوگ، کابل های صوتی و تصویری جداگانه باید از یک end point به end point  دیگر نصب شود. یعنی از محل دوربین و میکروفون تا محل مشاهده یا ضبط ویدیویی، اگر فاصله بین میکروفون و ایستگاه بیش از حد طولانی باشد، باید از تجهیزات صوتی به تناسب فاصله استفاده شود که هزینه نصب و سختی  پیاده سازی آن را افزایش دهد. در سیستم ویدئویی تحت شبکه، دوربین شبکه با پشتیبانی صوتی، صدا را پردازش می کند و صدا و تصویر را از طریق کابل شبکه یکسان برای نظارت یا ضبط ارسال می کند. این کار نیاز به کابل کشی اضافی را از بین می برد و همگام سازی صدا و تصویر را بسیار آسان تر از قبل می کند.

بسیاری از محصولات ویدئویی شبکه کفیل دارای بلندگوی داخلی نیستند. یک بلندگوی فعال – بلندگو با تقویت‌کننده داخلی – می‌تواند مستقیماً با پشتیبانی صوتی به دوربین مدار بسته ویدیویی تحت شبکه متصل شود. اگر بلندگوی تقویت‌کننده داخلی نداشته باشد، ابتدا باید به یک تقویت‌کننده متصل شود، که سپس به رمزگذار دوربین یا ویدیویی شبکه متصل می‌شود.

برای به حداقل رساندن  نویز در حین انتقال صوتی، همواره باید از کابل صوتی محافظ استفاده کرد. کابل های صوتی هم باید تا حد امکان کوتاه باشند. اگر در پروژه ای نیاز به کابل صوتی طولانی باشد، باید از تجهیزات صوتی متعادل – یعنی کابل، تقویت کننده و میکروفون که همه متعادل هستند – برای کاهش نویز استفاده شود.

حالت های مختلف صوتی

بسته به نوع استفاده، ممکن است نیاز به ارسال صدا تنها در یک جهت یا هر دو جهت وجود داشته باشد که می تواند همزمان یا در یک جهت در یک زمان انجام شود. سه حالت اصلی ارتباط صوتی وجود دارد: سیمپلکس، نیمه دورو و کامل دوبلکس.

سیمپلکس

در حالت سیمپلکس، صدا تنها در یک جهت ارسال می شود. در این حالت صدا توسط دوربین برای اپراتور ارسال می شود. ازین صدا در برنامه های کاربردی شامل نظارت از راه دور و نظارت تصویری استقاده می شود.در حالت سیمپلکس، صدا فقط در یک جهت ارسال می شود. در این حالت صدا توسط دوربین برای اپراتور ارسال می شود. برنامه های کاربردی اغلب شامل نظارت از راه دور و نظارت تصویری است.

در این مثال از حالت سیمپلکس، صدا توسط اپراتور به دوربین ارسال می شود. به عنوان مثال، می توان از آن برای ارائه دستورالعمل های گفتاری به فردی که در دوربین دیده می شود یا ترساندن یک دزد احتمالی خودرو از پارکینگ استفاده کرد.

نیم دوبلکس

در حالت نیمه دوبلکس، صدا در هر دو جهت ارسال می شود، اما تنها یک طرف در هر زمان می تواند ارسال کند. این مدل از انتقال شبیه به واکی تاکی است.

در حالت نیمه دوبلکس، صدا در هر دو جهت ارسال می شود، اما تنها یک طرف در هر زمان می تواند ارسال کند. این شبیه به واکی تاکی است.

فول دوبلکس

در حالت تمام دوبلکس، صدا به طور همزمان از اپراتور ارسال می شود. این حالت ارتباطی شبیه مکالمه تلفنی است. فول دوبلکس مستلزم آن است که کامپیوتر مشتری یک کارت صدا با پشتیبانی از صدای دوبلکس کامل داشته باشد. در حالت تمام دوبلکس، صدا به طور همزمان از اپراتور ارسال می شود. این حالت ارتباطی شبیه مکالمه تلفنی است. استفاده از فول دوبلکس مستلزم آن است که کامپیوتر مشتری یک کارت صدا با پشتیبانی از صدای دوبلکس کامل داشته باشد.

زنگ تشخیص صوتی

هشدار تشخیص صوتی می تواند به عنوان ابزاری مکمل برای تشخیص حرکت ویدیویی استفاده شود زیرا می تواند به رویدادهای مناطق بسیار تاریک برای عملکرد صحیح تشخیص حرکت ویدیویی واکنش نشان دهد. همچنین می توان از آن برای تشخیص فعالیت در مناطق خارج از دید دوربین استفاده کرد.

وقتی صداهایی مانند شکستن پنجره یا صداهایی در اتاق شناسایی می‌شوند، می‌توانند دوربین شبکه را برای ارسال و ضبط ویدیو و صدا، ارسال ایمیل یا سایر هشدارها و فعال کردن دستگاه‌های خارجی مانند زنگ هشدار فعال کنند. به طور مشابه، ورودی‌های آلارم مانند تشخیص حرکت و کنتاکت‌های درب می‌توانند برای فعال کردن ضبط‌های ویدئویی و صوتی استفاده شوند. در یک دوربین PTZ یا یک دوربین گنبدی PTZ، تشخیص زنگ صوتی می تواند باعث شود دوربین به طور خودکار به یک مکان از پیش تعیین شده مانند یک پنجره خاص تبدیل شود.

فشرده سازی صدا

سیگنال های صوتی آنالوگ باید از طریق یک فرآیند نمونه برداری به صدای دیجیتال تبدیل شوند و سپس فشرده شوند تا اندازه فایل های انتقال و ذخیره سازی کارآمد کاهش یابد. تبدیل و فشرده سازی با استفاده از یک کدک صوتی انجام می شود، این کار معمولا در دوربین های مدار بسته به کمک الگوریتمی که داده های صوتی را کدگذاری و رمزگشایی می کند، می تواند صورت پذیرد.

فرکانس نمونه برداری

بسیاری از کدک های صوتی مختلف وجود دارند که از فرکانس های نمونه برداری و سطوح فشرده سازی متفاوتی پشتیبانی می کنند. فرکانس نمونه برداری تعداد دفعاتی که در هر ثانیه یک نمونه از سیگنال صوتی آنالوگ گرفته می شود، اشاره می کند. بر حسب هرتز (Hz) تعریف می شود. به طور کلی، هر چه فرکانس نمونه برداری بیشتر باشد، کیفیت صدا بهتر است و نیاز به پهنای باند و ذخیره سازی بیشتر است.

نرخ بیت

نرخ بیت یک تنظیم مهم در صدا است زیرا سطح فشرده سازی و در نتیجه کیفیت صدا را تعیین می کند. به طور کلی، هر چه سطح فشرده سازی بالاتر باشد (نرخ بیت کمتر باشد)، کیفیت صدا پایین تر است. تفاوت در کیفیت صوتی کدک ها ممکن است به ویژه در سطوح فشرده سازی بالا (نرخ بیت پایین) قابل توجه باشد، اما نه در سطوح فشرده سازی پایین (نرخ بیت بالا). سطوح فشرده‌سازی بالاتر ممکن است تأخیر یا تأخیر بیشتری را ایجاد کند، اما باعث صرفه‌جویی بیشتر در پهنای باند و ذخیره‌سازی می‌شود.

نرخ بیت که اغلب با کدک های صوتی انتخاب می شود بین 32 کیلوبیت بر ثانیه و 64 کیلوبیت بر ثانیه است. نرخ بیت صوتی، مانند نرخ بیت ویدئو، یکی از نکات مهمی است که هنگام محاسبه پهنای باند کل و نیازهای ذخیره سازی باید در نظر بگیرید.

کدک‌های صوتی

محصولات ویدئوی شبکه ایکسیس از سه کدک صوتی پشتیبانی می‌کنند. نخستین آن‌ها AAC-LC (کدگذاری صوتی پیشرفته – پیچیدگی کم)، همچنین به عنوان MPEG-4 AAC شناخته می‌شود که نیاز به لایسنس دارد. AAC-LC، به ویژه در نرخ نمونه‌برداری 16 کیلوهرتز یا بیشتر و با نرخ بیت 64 کیلوبیت در ثانیه بهترین کیفیت صوتی است. دو کدک دیگر G.711U نیز فناوری‌های بدون لایسنس هستند.

هماهنگی صوت و تصویر

هماهنگی داده‌های صوتی و تصویری توسط یک پخش‌کننده رسانه (یک برنامه نرم‌افزاری کامپیوتری برای پخش فایل‌های چندرسانه‌ای) یا یک چارچوب چندرسانه‌ای مانند Microsoft DirectX که یک مجموعه از رابط‌های برنامه‌نویسی برای کنترل فایل‌های چندرسانه‌ای است، انجام می‌شود.

صدا و تصویر به عنوان دو جریان بسته جداگانه از طریق شبکه ارسال می‌شوند. برای اینکه مشتری یا پخش‌کننده بتواند صدا و تصویر را به‌طور کامل هماهنگ کند، بسته‌های صوتی و تصویری باید با استفاده از برچسب زمانی مشخص شوند. ممکن است در دوربین شبکه، برچسب‌گذاری زمانی بسته‌های تصویر با استفاده از فشرده‌سازی Motion JPEG همیشه پشتیبانی نشود. در صورتی که این موضوع صادق باشد و اگر داشتن تصویر و صدای هماهنگ مهم است، فرمت تصویر باید MPEG-4 یا H.264 باشد چرا که این جریان‌های تصویری همراه با جریان صدا با استفاده از پروتکل RTP (پروتکل انتقال بلادرنگ) ارسال می‌شوند که پکت های تصویر و صدا را با برچسب زمانی مشخص می‌کند. با این حال، در موارد زیادی صدای هماهنگ کمتر مهم است یا حتی ناخواسته است؛ به عنوان مثال، اگر صدا قرار است مورد نظارت قرار گیرد اما ضبط نشود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *