در حالی که امروزه ممکن است استفاده از صدا در سیستمهای نظارت تصویری همچنان گسترده نباشند، وجود صدا میتواند توانایی سیستم را برای شناسایی و تشخیص رویدادها افزایش دهد و همچنین ارتباطات صوتی را از طریق شبکه IP فعال کند. موضوعات مورد نیاز و متداول در سیستم های دوربین شامل سناریوهای کاربردی، تجهیزات صوتی، حالت های صوتی، زنگ تشخیص صدا، فشرده سازی صدا و همگام سازی صدا/تصویر است.
بسیاری از دوربینهای نظارت تصویری از میکروفن (درونساز یا با قابلیت اتصال واحد خارجی) و اسپیکرهای خارجی پشتیبانی میکنند. صدا ارزش افزودهای به محتوایی که مورد نظارت است،اضافه می کند.
استانداردهای صوتی استفاده شده در نظارت تصویری
صدا به طور معمول با استفاده از یک استاندارد فشردهسازی صدا کدگذاری میشود. برای انواع مختلفی از کاربردها (صحبت، ضبط صدا، موسیقی، پیوند استودیو-فرستنده و غیره) چندین استاندارد صوتی وجود دارد. این استانداردها به عنوان استانداردهای پر اتلاف (که در آن کیفیت صدا به دلیل الگوریتم فشردهسازی کاهش مییابد) و بدون اتلاف شناخته میشوند.
در مورد دستگاههای نظارت تصویری، با توجه به هدف بهینهسازی پهنای باند، از استانداردهای پرتلف استفاده میشود. برخی از استانداردهای محبوب فشردهسازی صدا که در محصولات نظارت تصویری پیادهسازی شدهاند، در زیر خلاصه شده است: توجه کنید که استاندارد MP3 تنها به عنوان یک مرجع درج شده است، زیرا استاندارد فشردهسازی صدای بیشترین شناخته شده است، به خاطر استفاده آن در فایلهای موسیقی.
برنامه های صوتی
داشتن صدا به عنوان بخشی یکپارچه از یک سیستم نظارت تصویری می تواند دستاورد بسیار ارزشمندی به توانایی سیستم در تشخیص و تفسیر رویدادها و موقعیت های اضطراری اضافه کند. توانایی صدا برای پوشش دادن منطقه 360 درجه، به سیستم نظارت تصویری کمک می کند تا پوشش خود را حتی در میدان دید دوربین گسترش دهد. این قابلیت می تواند به یک دوربین PTZ یا یک دوربین گنبدی PTZ (یا به اپراتور هشدار دهد) تا زنگ صوتی را به صورت بصری تأیید کند.
همچنین میتوان از این صدا برای ارائه این قابلیت به کاربران استفاده کرد که نه تنها به رویدادهایی که در یک بخش اتفاق می افتند، گوش دهد، بلکه دستورات یا اعلانات مقتضی را به افراد حاضر در مکان یا مزاحمان ارسال کنند. به عنوان مثال، اگر فردی در میدان دید دوربین رفتار مشکوکی از خود نشان دهد، مانند پرسه زدن در نزدیکی دستگاه بانک، یا ورود به منطقه ممنوعه، نگهبان امنیتی از راه دور می تواند یک هشدار به صورت صوتی یا تصویری به فرد مورد نظر ارسال کند. در شرایطی اضطراری که ممکن است فردی مجروح شده باشد، امکان برقراری ارتباط از راه دور یا درخواست کمک در این موراد می تواند مفید واقع شود.
پشتیبانی و تجهیزات صوتی
پشتیبانی صوتی در سیستم های ویدئویی تحت شبکه نسبت به سیستم دوربین مداربسته آنالوگ، راحت تر می توان پیاده سازی کرد. در یک سیستم آنالوگ، کابل های صوتی و تصویری جداگانه باید از یک end point به end point دیگر نصب شود. یعنی از محل دوربین و میکروفون تا محل مشاهده یا ضبط ویدیویی، اگر فاصله بین میکروفون و ایستگاه بیش از حد طولانی باشد، باید از تجهیزات صوتی به تناسب فاصله استفاده شود که هزینه نصب و سختی پیاده سازی آن را افزایش دهد. در سیستم ویدئویی تحت شبکه، دوربین شبکه با پشتیبانی صوتی، صدا را پردازش می کند و صدا و تصویر را از طریق کابل شبکه یکسان برای نظارت یا ضبط ارسال می کند. این کار نیاز به کابل کشی اضافی را از بین می برد و همگام سازی صدا و تصویر را بسیار آسان تر از قبل می کند.
بسیاری از محصولات ویدئویی شبکه کفیل دارای بلندگوی داخلی نیستند. یک بلندگوی فعال – بلندگو با تقویتکننده داخلی – میتواند مستقیماً با پشتیبانی صوتی به دوربین مدار بسته ویدیویی تحت شبکه متصل شود. اگر بلندگوی تقویتکننده داخلی نداشته باشد، ابتدا باید به یک تقویتکننده متصل شود، که سپس به رمزگذار دوربین یا ویدیویی شبکه متصل میشود.
برای به حداقل رساندن نویز در حین انتقال صوتی، همواره باید از کابل صوتی محافظ استفاده کرد. کابل های صوتی هم باید تا حد امکان کوتاه باشند. اگر در پروژه ای نیاز به کابل صوتی طولانی باشد، باید از تجهیزات صوتی متعادل – یعنی کابل، تقویت کننده و میکروفون که همه متعادل هستند – برای کاهش نویز استفاده شود.
حالت های مختلف صوتی
بسته به نوع استفاده، ممکن است نیاز به ارسال صدا تنها در یک جهت یا هر دو جهت وجود داشته باشد که می تواند همزمان یا در یک جهت در یک زمان انجام شود. سه حالت اصلی ارتباط صوتی وجود دارد: سیمپلکس، نیمه دورو و کامل دوبلکس.
سیمپلکس
در حالت سیمپلکس، صدا تنها در یک جهت ارسال می شود. در این حالت صدا توسط دوربین برای اپراتور ارسال می شود. ازین صدا در برنامه های کاربردی شامل نظارت از راه دور و نظارت تصویری استقاده می شود.در حالت سیمپلکس، صدا فقط در یک جهت ارسال می شود. در این حالت صدا توسط دوربین برای اپراتور ارسال می شود. برنامه های کاربردی اغلب شامل نظارت از راه دور و نظارت تصویری است.
در این مثال از حالت سیمپلکس، صدا توسط اپراتور به دوربین ارسال می شود. به عنوان مثال، می توان از آن برای ارائه دستورالعمل های گفتاری به فردی که در دوربین دیده می شود یا ترساندن یک دزد احتمالی خودرو از پارکینگ استفاده کرد.
نیم دوبلکس
در حالت نیمه دوبلکس، صدا در هر دو جهت ارسال می شود، اما تنها یک طرف در هر زمان می تواند ارسال کند. این مدل از انتقال شبیه به واکی تاکی است.
در حالت نیمه دوبلکس، صدا در هر دو جهت ارسال می شود، اما تنها یک طرف در هر زمان می تواند ارسال کند. این شبیه به واکی تاکی است.
فول دوبلکس
در حالت تمام دوبلکس، صدا به طور همزمان از اپراتور ارسال می شود. این حالت ارتباطی شبیه مکالمه تلفنی است. فول دوبلکس مستلزم آن است که کامپیوتر مشتری یک کارت صدا با پشتیبانی از صدای دوبلکس کامل داشته باشد. در حالت تمام دوبلکس، صدا به طور همزمان از اپراتور ارسال می شود. این حالت ارتباطی شبیه مکالمه تلفنی است. استفاده از فول دوبلکس مستلزم آن است که کامپیوتر مشتری یک کارت صدا با پشتیبانی از صدای دوبلکس کامل داشته باشد.
زنگ تشخیص صوتی
هشدار تشخیص صوتی می تواند به عنوان ابزاری مکمل برای تشخیص حرکت ویدیویی استفاده شود زیرا می تواند به رویدادهای مناطق بسیار تاریک برای عملکرد صحیح تشخیص حرکت ویدیویی واکنش نشان دهد. همچنین می توان از آن برای تشخیص فعالیت در مناطق خارج از دید دوربین استفاده کرد.
وقتی صداهایی مانند شکستن پنجره یا صداهایی در اتاق شناسایی میشوند، میتوانند دوربین شبکه را برای ارسال و ضبط ویدیو و صدا، ارسال ایمیل یا سایر هشدارها و فعال کردن دستگاههای خارجی مانند زنگ هشدار فعال کنند. به طور مشابه، ورودیهای آلارم مانند تشخیص حرکت و کنتاکتهای درب میتوانند برای فعال کردن ضبطهای ویدئویی و صوتی استفاده شوند. در یک دوربین PTZ یا یک دوربین گنبدی PTZ، تشخیص زنگ صوتی می تواند باعث شود دوربین به طور خودکار به یک مکان از پیش تعیین شده مانند یک پنجره خاص تبدیل شود.
فشرده سازی صدا
سیگنال های صوتی آنالوگ باید از طریق یک فرآیند نمونه برداری به صدای دیجیتال تبدیل شوند و سپس فشرده شوند تا اندازه فایل های انتقال و ذخیره سازی کارآمد کاهش یابد. تبدیل و فشرده سازی با استفاده از یک کدک صوتی انجام می شود، این کار معمولا در دوربین های مدار بسته به کمک الگوریتمی که داده های صوتی را کدگذاری و رمزگشایی می کند، می تواند صورت پذیرد.
فرکانس نمونه برداری
بسیاری از کدک های صوتی مختلف وجود دارند که از فرکانس های نمونه برداری و سطوح فشرده سازی متفاوتی پشتیبانی می کنند. فرکانس نمونه برداری تعداد دفعاتی که در هر ثانیه یک نمونه از سیگنال صوتی آنالوگ گرفته می شود، اشاره می کند. بر حسب هرتز (Hz) تعریف می شود. به طور کلی، هر چه فرکانس نمونه برداری بیشتر باشد، کیفیت صدا بهتر است و نیاز به پهنای باند و ذخیره سازی بیشتر است.
نرخ بیت
نرخ بیت یک تنظیم مهم در صدا است زیرا سطح فشرده سازی و در نتیجه کیفیت صدا را تعیین می کند. به طور کلی، هر چه سطح فشرده سازی بالاتر باشد (نرخ بیت کمتر باشد)، کیفیت صدا پایین تر است. تفاوت در کیفیت صوتی کدک ها ممکن است به ویژه در سطوح فشرده سازی بالا (نرخ بیت پایین) قابل توجه باشد، اما نه در سطوح فشرده سازی پایین (نرخ بیت بالا). سطوح فشردهسازی بالاتر ممکن است تأخیر یا تأخیر بیشتری را ایجاد کند، اما باعث صرفهجویی بیشتر در پهنای باند و ذخیرهسازی میشود.
نرخ بیت که اغلب با کدک های صوتی انتخاب می شود بین 32 کیلوبیت بر ثانیه و 64 کیلوبیت بر ثانیه است. نرخ بیت صوتی، مانند نرخ بیت ویدئو، یکی از نکات مهمی است که هنگام محاسبه پهنای باند کل و نیازهای ذخیره سازی باید در نظر بگیرید.
کدکهای صوتی
محصولات ویدئوی شبکه ایکسیس از سه کدک صوتی پشتیبانی میکنند. نخستین آنها AAC-LC (کدگذاری صوتی پیشرفته – پیچیدگی کم)، همچنین به عنوان MPEG-4 AAC شناخته میشود که نیاز به لایسنس دارد. AAC-LC، به ویژه در نرخ نمونهبرداری 16 کیلوهرتز یا بیشتر و با نرخ بیت 64 کیلوبیت در ثانیه بهترین کیفیت صوتی است. دو کدک دیگر G.711U نیز فناوریهای بدون لایسنس هستند.
هماهنگی صوت و تصویر
هماهنگی دادههای صوتی و تصویری توسط یک پخشکننده رسانه (یک برنامه نرمافزاری کامپیوتری برای پخش فایلهای چندرسانهای) یا یک چارچوب چندرسانهای مانند Microsoft DirectX که یک مجموعه از رابطهای برنامهنویسی برای کنترل فایلهای چندرسانهای است، انجام میشود.
صدا و تصویر به عنوان دو جریان بسته جداگانه از طریق شبکه ارسال میشوند. برای اینکه مشتری یا پخشکننده بتواند صدا و تصویر را بهطور کامل هماهنگ کند، بستههای صوتی و تصویری باید با استفاده از برچسب زمانی مشخص شوند. ممکن است در دوربین شبکه، برچسبگذاری زمانی بستههای تصویر با استفاده از فشردهسازی Motion JPEG همیشه پشتیبانی نشود. در صورتی که این موضوع صادق باشد و اگر داشتن تصویر و صدای هماهنگ مهم است، فرمت تصویر باید MPEG-4 یا H.264 باشد چرا که این جریانهای تصویری همراه با جریان صدا با استفاده از پروتکل RTP (پروتکل انتقال بلادرنگ) ارسال میشوند که پکت های تصویر و صدا را با برچسب زمانی مشخص میکند. با این حال، در موارد زیادی صدای هماهنگ کمتر مهم است یا حتی ناخواسته است؛ به عنوان مثال، اگر صدا قرار است مورد نظارت قرار گیرد اما ضبط نشود.