Kecerdasan Buatan Google Mampu Mengasingkan Audio Berbeza Apabila Dua Individu Bercakap Serentak

Saturday, April 14, 2018

Menjelang pilihanraya ini terdapat banyak video perdebatan dapat dilihat di media sosial. Wakil parti berbeza membincangkan polisi parti mereka bagi membolehkan pengundi menilai sendiri parti mana yang layak menerima undi mereka. Kerap kali bila berlaku perdebatan, dua ahli panel akan bercakap serentak sehingga kita tidak dapat mendengar apa yang dibincangkan dengan mudah.

Di Google mereka telah melatih rangkaian neural kecerdasan buatan mereka untuk mengasingkan dua sumber audio berbeza di dalam sesebuah video secara serentak. Dengan ini penonton boleh memilih suara siapa ingin didengari melalui proses yang dilakukan sepenuhnya oleh kecerdasan buatan.

Sistem yang digunakan untuk mengasingkan dua sumber audio berbeza ini amat menarik kerana memadankan audio dengan visual pergerakan mulut di dalam video. Rangkaian neural dilatih dengan menonton 100,00 video syarahan dan ceramah di Youtube yang memaparkan hanya satu individu dan satu sumber suara.

Selepas dilatih ia “melihat” pergerakan mulut di dalam video dan membandingkannya dengan graf audio yang berpadanan . Audio yang tidak berpadanan dengan apa yang dilihat kemudian diasingkan dan boleh dibisukan oleh kecerdasan buatan ini. Pada tahun 2016, Google memperlihatkan kecerdasan buatan yang mampu membaca gerak bibir yang lebih hebat berbanding manusia. Sistem pengasingan sumber audio ini adalah lanjutan kepada semula sistem kecerdasan buatan yang sama.

Membaca Gerak Bibir Aplikasi dunia nyata sistem ini ialah apabila menggunakan aplikasi panggilan video di tempat awam. Perisian boleh dihasilkan untuk menapis bunyi latar belakang dari audio mikrofon insan yang dihubungi sekaligus memudahkan mereka didengari tanpa gangguan bunyi bising.

Bagi pengguna pekak pula, sistem closed captioning automatik Youtube yang digunakan sekarang akan memaparkan sari kata yang lebih tepat. Mereka tidak akan lagi terpinggir kerana tidak sistem sedia ada tidak mampu memaparkan sari kata yang tepat apabila dua insan berbicara serentak.

Banyak lagi menarik FB kami

https://ift.tt/14Mtwjx
via Sembang Maniac