Speech Enhancement Opt

Unduh sebagai pdf atau txt
Unduh sebagai pdf atau txt
Anda di halaman 1dari 24

SPEECH ENHANCEMENT

Spectral Subtraction
Filter Wiener
Permasalahan dalam meningkatkan performansi sistem komunikasi
pada lingkungan berderau masih merupakan suatu tantangan
meskipun telah diteliti selama lebih dari tiga dekade.
Peningkatan kualitas dan kejelasan ucapan pada sinyal berderau
akan dapat meningkatkan performansi sistem aplikasi ucapan
seperti pengkodean ucapan, pengenalan ucapan, dan lain-lain.
Peningkatan kualitas dan kejelasan ucapan pada sinyal yang rusak
akibat derau lingkungan dapat dilakukan dengan menggunakan
sistem perbaikan sinyal (speech enhancement).
Salah satu cara dalam melakukan perbaikan sinyal adalah dengan
menggunakan estimasi amplitudo spektral. Cara ini merupakan
dasar dari teknik perbaikan sinyal yang umum digunakan, karena
mengestimasi amplitudo spektral sinyal ucapan tanpa derau lebih
mudah dan lebih penting dibandingkan dengan mengestimasi
fasanya [14].
Salah satu metoda yang berdasarkan pada prinsip ini adalah
spectral subtraction.
Jenis Derau diantaranya :
Ketika suatu sistem digunakan pada lingkungan berderau, maka
performansi sistem akan menurun secara signifikan.
Derau dapat berasal dari lingkungan akustik tempat dimana sistem
beroperasi.
Derau lingkungan diantaranya adalah convolutional noise dan
background noise.
Convolutional noise berkaitan dengan perbedaan kanal antara
pelatihan dan pengujian, contohnya perbedaan microphone seperti
hand hold atau hands free, posisi mulut.
Background noise adalah derau yang berasal dari lingkungan disekitar
pembicara. Derau ini bersifat aditif atau ditambahkan kepada sinyal
ucapan asli.Derau ini ada yang berkorelasi dan yang tidak berkorelasi
dengan sinyal ucapan.
Derau yang tidak berkorelasi dengan sinyal ucapan contohnya
suara mobil, membanting pintu, suara kipas angin, dan lain-lain.
Derau yang berkorelasi dengan sinyal ucapan disebabkan oleh
refleksi dan gema.
Berdasarkan sifat statistiknya, background noise dapat dibedakan
atas bersifat stasioner seperti AWGN dan bersifat tidak stasioner
seperti derau dijalan, derau mobil dan lain-lain.
Derau juga mampu mempengaruhi karakter suara pembicara yang
dikenal dengan istilah Lombard Speech. Lombard Speech
merupakan kecendrungan orang untuk berbicara lebih keras dalam
lingkungan yang berderau..
Pembentukan Sinyal ucapan yang berderau
SNR?
+
+
Sinyal ucapan
tanpa derau
Derau yang ditambahkan :
AWGN
Suara deru Mobil
Suara Pengering Rambut
Sinyal ucapan yang
mengandung derau
Bentuk sinyal ucapan SEMBILAN (a) Tanpa Derau, (b) Dengan Derau
AWGN 20 dB, (c) Dengan Derau AWGN 15 dB, (d) Dengan Derau
AWGN 10 dB, (e) Dengan Derau AWGN 5 dB, (f) Dengan
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(a)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(b)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(c)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(d)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(e)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(f)
Rata-rata Daya Setiap Frame Pada Ucapan SEMBILAN Yang
Mendapat Tambahan derau
0 10 20 30 40 50 60 70
-30
-25
-20
-15
-10
-5
0
5
10
15
20
frame ke- ( t )
d
B

(
1
0
*
l
o
g
1
0

|
r
a
t
a
-
r
a
t
a

|
Y
(
t
,
k
)
| 2
|
)


tanpa derau
dengan AWGN 20 dB
dengan AWGN 15 dB
dengan AWGN 10 dB
dengan AWGN 5 dB
dengan AWGN 0 dB
Spectral Subtraction
Spectral subtraction adalah metoda untuk memperbaiki spektrum
daya atau magnitude dari sinyal yang mendapat tambahan derau.
Pada metoda ini spektrum sinyal berderau dikurang dengan
estimasi spektrum derau sehingga menghasilkan estimasi sinyal
tanpa derau.
Sistem ini bekerja dalam domain frekuensi.
Spektrum derau diestimasi dari suatu perioda jeda ucapan yaitu
perioda tidak ada sinyal ucapan dan hanya ada derau.
Asumsi yang digunakan adalah derau bersifat stasioner dan tidak
berkorelasi dengan sinyal ucapan.
Untuk mendapatkan sinyal hasil perbaikan dalam domain waktu,
maka spektrum sinyal hasil perbaikan digabung dengan fasa sinyal
berderau, kemudian diubah dengan menggunakan Inverse
Transformasi Fourier Diskrit.
Blok Diagram Spectral subtraction
Ucapan yang
berderau
Windowing
FFT
Estimasi Derau
IFFT
Ucapan yang
telah
diperbaiki
| |
2
Informasi Fasa
Pengurangan
Estimasi Derau
| |
2
Add and
Overlap
Deteksi
Derau/Ucapan
Y(n)= S
x
(n) + S
N
(n)
Windowing
FFT
Estimasi Daya Derau
(rata-rata derau atau
Minimum statistics)
Perhitungan
Gain
( dan )
X
IFFT
Add+Overlapp
y
|
( ) k Y ,
( )
2
,

k D
N

( ) k G ,
( ) k S
X
,


) (

i S
X
Langkah 1 : Melakukan framing dan windowing pada sinyal y(n)
Ukuran frame pada sistem perbaikan ucapan sebaiknya berada dalam
rentang 25 ms sampai 35 ms dan overlap antar frame sebaiknya berkisar
antara orde 2 sampai 2,5.
Oleh karena itu jika digunakan ukuran frame 32 ms dengan faktor overlap
orde 2 sehingga interval antar frame adalah sebesar 16 ms dan frekuensi
pencuplikan yang digunakan adalah 8 Khz, maka dalam satu frame
terdapat 256 cuplikan, frame overlap sebesar 128 cuplikan, secara
matematis dapat dinyatakan sebagai berikut:
(III.3)
Dimana Lf = Jumlah frame yang terbentuk
Mf = jumlah cuplikan pada interval antar frame (128 cuplikan)
Nf = jumlah cuplikan pada frame (256 cuplikan)
Setiap frame dilakukan fungsi windowing dengan menggunakan hamming
window.
Hamming window digunakan karena window ini mampu membuat sinyal
pada awal dan akhir frame mendekati nol sehingga dapat mengurangi efek
ketidak kontinuan akibat framing pada sinyal.
( )
f f f f f f l
L l N n n l M y n y ,..., 1 ; ,..., 1 ); 1 ( ) ( = = + =
Langkah 2. Melakukan Transformasi Fourier
Transformasi fourier dilakukan untuk mengubah sinyal input yang
direpresentasikan dalam domain waktu menjadi representasi sinyal
dalam domain frekuensi.
Proses Transformasi fourier ini dilakukan karena pada proses-proses
selanjutnya yang akan digunakan adalah spektral sinyal.
Transformasi fourier dilakukan pada semua frame. Transformasi
fourier menghasilkan magnitude sinyal berderau { } dan fasa
sinyal berderau { }.
Langkah 3. Melakukan Estimasi Derau
Estimator derau merupakan komponen yang sangat penting dari
keseluruhan sistem perbaikan sinyal, terutama jika sistem tersebut
ditujukan untuk mengatasi derau yang tidak stasioner.
Jika estimasi derau terlalu rendah, maka akan terdengar derau sisa
yang tidak natural. Jika estimasi terlalu tinggi, bunyi ucapan akan
teredam dan kejelasan ucapan akan hilang
( )
2
, k t Y
y
|
ESTIMASI DERAU
Jika y(n) adalah sinyal input yang merupakan penjumlahan sinyal
ucapan yang bersih yaitu s(n) dan sinyal derau yang bersifat aditif
dan tidak berkolerasi yaitu d(n). Secara matematis dapat dinyatakan
seperti persamaan :
y(n) = s(n) + d(n)
Dalam hal ini s(n) diasumsikan stasioner, tetapi faktanya ucapan
bukanlah sinyal yang stasioner.
Oleh karena itu, proses ini dilakukan pada rentang waktu yang
sangat pendek yaitu frame.
Durasi frame dibuat cukup singkat sehingga sinyal dapat dianggap
stasioner dan cukup lebar untuk dapat merepresentasikan sinyal.
Oleh karena itu, window w(n) dengan durasi tertentu dikalikan
dengan sinyal yang berderau, ucapan asli, dan sinyal derau, seperti
persamaan :
y
w(n)
= s
w(n)
+ d
w(n)
Oleh karena pengurangan spektral dilakukan dalam domain frekuensi maka
untuk mendapatkan spektrum daya sinyal yang berderau digunakan
Transformasi Fourier, seperti persamaan :

Dimana adalah magnitude spektrum daya sinyal berderau


adalah magnitude spektrum daya sinyal tanpa derau pada window w,
adalah magnitude spektrum daya sinyal derau pada window w,
menyatakan conjugate dari
menyatakan conjugate dari .
Transformasi fourier untuk adalah :

( ) ( ) ( ) ( ) ( ) ( ) ( ) e e e e e e e
w w w w w w w
D S D S D S Y + + + =
* *
2 2 2
( )
2
e
w
Y
( )
2
e
w
S
( )
2
e
w
D
( ) e
*
w
D
( ) e
w
S ( ) e
*
w
S
( ) e
w
Y
( ) ( )
( ) e |
te
e e
j
w
N
n
N
n
j
w
e Y e n y Y = =

1
0
2
) (
( ) e
w
D
Magnitude spektrum daya sinyal ucapan {| |
2
}
diestimasi dengan menggunakan persamaan II.44.
Spektrum derau {| |
2
}, dan tidak dapat
diperoleh secara langsung dan diaproksimasi sebagai
E[| |
2
], E[ ], E[ ], dimana E[ ] adalah
operator ekspektasi.
E[| |
2
] diestimasi selama perioda tanpa ucapan
(silence) dan dilambangkan dengan .
Nilai ini dapat dihitung dengan merata-ratakan sejumlah
M frame pada perioda jeda ucapan yang diasumsikan
hanya mengandung derau.
Jika diasumsikan bahwa d(n) adalah sinyal dengan rata-
rata nol dan tidak berkorelasi dengan sinyal ucapan
maka bagian ekspektasi E[ ], dan E[ ],
menjadi nol.
( ) e
w
S
( ) e
w
D
( ) ( ) e e
*
w w
D S
( ) ( ) e e
w w
D S
*
( ) e
w
D
( ) ( ) e e
*
w w
D S
( ) e
w
D
( )
2

e D
( ) ( ) e e
*
w w
D S
( ) ( ) e e
w w
D S
*
( ) ( ) e e
w w
D S
*
Langkah 4. Menghitung Pembobotan Spectral
(Spectral Gain)
Masalah utama dalam metoda spectral subtraction adalah munculnya
musical noise.
Salah satu cara untuk mengatasi derau ini adalah dengan menggunakan
faktor oversubtraction {
OS
} dan spectral floor {
SF
}.
Faktor
OS
memiliki nilai yang lebih besar dari satu dan digunakan untuk
membuat reduksi derau lebih besar dari hasil estimasi daya derau. Hal ini
bertujuan untuk mengurangi puncak spektral sinyal berderau.
Meskipun puncak spektral telah dikurangi tetapi masih perlu untuk
mengurangi kedalaman spektral agar penyimpangan spektral tidak terlalu
besar.
Hal ini dilakukan dengan menggunakan spectral floor sehingga spektrum
sinyal tidak berada dibawah batasan spectral floor.
Pada spectral subtraction domain daya, rentang faktor oversubtraction yang
optimal adalah antara 3 dan 6.
Rentang spectral floor berada pada 0.005 sampai 0.1.Untuk level derau
yang tinggi, SF harus dalam rentang 0.1 sampai 0.01 sedangkan untuk
level derau yang rendah, SF dapat dipilih lebih kecil dari 0.01 [14].
Jika menggunakan faktor oversubtraction yang besar maka dapat
mengurangi derau dan mencegah musical noise.
Jika faktor oversubtraction terlalu besar maka terjadi pengurangan yang
terlalu berlebihan pada komponen sinyal sehingga kejelasan ucapan
berkurang dan menyebabkan distorsi yang cukup besar pada sinyal hasil
estimasi.
Oleh karena itu, faktor oversubtraction harus dipilih secara hati-hati
sehingga mampu mencegah musical noise tetapi tidak menyebabkan
distorsi yang terlalu besar pada sinyal ucapan.
Hubungan level SNR dengan nilai faktor oversubtraction dapat dijelaskan
seperti gambar II.15
5
1
10 15 20 25
-5 -10
2
3
4
5
6

os
0
SNR (dB)

>
s s
<
=

20 1
20 5 ;
20
3
5 5
0
SNR
dB SNR dB SNR
SNR
OS OS
o o
Untuk mengurangi distorsi ucapan yang disebabkan oleh nilai
OS
yang
besar, maka
OS
dibuat bervariasi dari frame ke frame dalam ucapan. Hal ini
dilakukan karena SNR bervariasi dari frame ke frame.
SNR diestimasi pada setiap frame berdasarkan pengetahuan estimasi
spektral derau dan energi pada input ucapan seperti persamaan III.4.
Setelah mendapatkan nilai fakor oversubtraction dan spectral floor maka
dapat ditentukan gain (pembobotan) yang akan diberikan terhadap sinyal
berderau. Perhitungan gain pada sistem spectral subtraction yang
menggunakan faktor oversubtraction dan spectral floor dapat dinyatakan
seperti persamaan III.6 [14]
( )
( )
( )
(
(
(
(

=
1
0
2
1
0
2
10
,

,
log 10
N
k
N
k
k t D
k t Y
t SNR
( )
( )
( )
( )
( )
( )
( )

|
|
|
.
|

\
|
(
(
(

+
<
(
(
(

|
|
|
.
|

\
|
(
(
(


=
else
k t Y
k t D
k t Y
k t D
jika
k t Y
k t D
k t G
SF
SF OS
OS
;
,
,

1
,
,

;
,
,

1
,
2
1
2
2
2
2 2
1
2
2
|
| o
o
Langkah 5. Estimasi sinyal suara asli
Setelah mendapatkan gain sistem spectral subtraction, maka sinyal
ucapan asli (tanpa derau) dapat diestimasi dengan menggunakan
persamaan III.7. Estimasi sinyal ucapan asli yang diperoleh dari
persamaan III.7 masih dalam domain spektral, maka untuk
merepresentasikannya dalam domain waktu digunakan Inverse
Transformasi Fourier seperti pada persamaan II.47. Dalam hal ini
digunakan phasa sinyal berderau. Selain itu, proses perubahan
kedalan domain waktu menggunakan sistem overlap karena pada
proses penguraian sinyal kedalam betuk frame-frame juga
menggunakan sistem overlap.

( ) ( ) ( ) k t Y k t G k t S , , ,

=
(a) Bentuk sinyal ucapan SEMBILAN tanpa derau. Bentuk sinyal ucapan
SEMBILAN yang telah diperbaiki dari pengaruh derau AWGN dengan level
SNR (b) 20 dB, (c) 15 dB, (d) 10 dB, (e) 5 dB, (f) 0 dB
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(a)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(b)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(c)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(d)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(e)
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
-1
0
1
n
s
(
n
)
(f)
Rata-rata Daya Setiap Frame Pada Sinyal Ucapan SEMBILAN Hasil Perbaikan
Dengan Metoda Spectral Subtraction
0 10 20 30 40 50 60 70
-30
-25
-20
-15
-10
-5
0
5
10
15
20
frame ke- ( t )
d
B

(
1
0
*
l
o
g
1
0

|
r
a
t
a
-
r
a
t
a

|
Y
(
t
,
k
)
|
2
|
)


tanpa derau
SS pada AWGN 20 dB
SS pada AWGN 15 dB
SS pada AWGN 10 dB
SS pada AWGN 5 dB
SS pada AWGN 0 dB
Kinerja Sistem Pengenalan dengan Menggunakan Lima
Modul Spectral Subtraction pada derau AWGN
0
10
20
30
40
50
60
70
80
90
100
0 dB 5 dB 10 dB 15 dB 20 dB Tanpa
Derau SNR
%

A
k
u
r
a
s
i
Sinyal Berderau
Sepctral Subtraction
Iterasi 1
Sepctral Subtraction
Iterasi 2
Sepctral Subtraction
Iterasi 3
Sepctral Subtraction
Iterasi 4
Sepctral Subtraction
Iterasi 5
SS
1
SS
2
SS
5
SS
3
SS
4
y(n)
( ) n s
1

( ) n s
2

( ) n s
3
( ) n s
4

( ) n s
5

Rata-rata daya pada setiap frame sinyal ucapan SEMBILAN dengan


penambahan Modul spectral subtraction
0 10 20 30 40 50 60 70
-30
-25
-20
-15
-10
-5
0
5
10
15
20
frame ke- ( t )
d
B

(
1
0
*
l
o
g
1
0

|
m
e
a
n

|
Y
(
t
,
k
)
|
2
)
|


tanpa derau
Berderau AWGN, SNR 0dB
SS pertama
SS ke dua
SS ke tiga
SS ke empat
SS ke lima
Blok diagram Spectral subtraction Menggunakan
Minimum Statistic
D
F
T
Window
rect
polar
Estimasi
Daya Derau
(Minimum
Statistik)
Perhitungan
Pembobotan
Spectral
X
rect
polar
I
D
F
T
overlap
( )
2
,

k S
N

( ) k Y ,
y
|
( ) k S
X
,


( ) k G ,
) (

i S
X
Y(i)= S
x
(i) + S
N
(i)

Anda mungkin juga menyukai