Tóm tắt— Găng tay phiên dịch ngôn ngữ ký hiệu cho
người câm điếc là một nghiên cứu về nhận dạng và phiên
dịch ngôn ngữ ký hiệu của người câm điếc thành văn bản
và tiếng nói. Nghiên cứu này hướng đến chế tạo ra sản
phẩm hỗ trợ người câm điếc chuyển tải những thông điệp
bằng chính ngôn ngữ của họ tới mọi người. Hệ thống được
đề xuất trong nghiên cứu này gồm hai găng tay gắn các
cảm biến gia tốc góc MMA7361, một MCU và RF Module
truyền về điểm thu thập dữ liệu gắn trên máy tính thông
qua một mạng lưới cảm biến không dây gồm 2 Node tương
ứng với 2 găng tay. Các thông điệp được hiển thị dưới
dạng văn bản trong phần mềm nhận dạng chạy trên máy
tính và phát ra tiếng nói, đồng thời có thể thực hiện các
thao tác “thêm” và “xóa” cử chỉ mới cho hệ thống. Vì vậy
hệ thống có vốn từ vựng ký hiệu mở, có thể tùy biến theo
người sử dụng. Kết quả đánh giá được thu thập từ các
thành viên khác nhau trong cộng đồng người sử dụng
ngôn ngữ ký hiệu phân vùng Đà Nẵng cho thấy hiệu suất
nhận dạng cử chỉ tĩnh trung bình là 85% và cử chỉ động là
80%, nhưng nhìn chung là khả quan.
8 trang |
Chia sẻ: thanhle95 | Lượt xem: 110 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Găng tay phiên dịch ngôn ngữ ký hiệu cho người câm điếc, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Găng tay phiên dịch ngôn ngữ ký hiệu
cho người câm điếc
Nguyễn Xuân Tâm
Khoa Điện tử Viễn thông - Trường Đại Học Bách
Khoa - Đại Học Đà Nẵng
Đà Nẵng, Việt Nam
Email: xuantambk@gmail.com
Đỗ Nguyên Nghĩa, Bùi Văn, Phạm Văn Tuấn
Trung tâm Xuất sắc - Trường Đại Học Bách Khoa -
Đại Học Đà Nẵng
Đà Nẵng, Việt Nam
Email: nguyennghia4192@gmail.com,
buivanbmt@gmail.com, pvtuan@dut.udn.vn
Tóm tắt— Găng tay phiên dịch ngôn ngữ ký hiệu cho
người câm điếc là một nghiên cứu về nhận dạng và phiên
dịch ngôn ngữ ký hiệu của người câm điếc thành văn bản
và tiếng nói. Nghiên cứu này hướng đến chế tạo ra sản
phẩm hỗ trợ người câm điếc chuyển tải những thông điệp
bằng chính ngôn ngữ của họ tới mọi người. Hệ thống được
đề xuất trong nghiên cứu này gồm hai găng tay gắn các
cảm biến gia tốc góc MMA7361, một MCU và RF Module
truyền về điểm thu thập dữ liệu gắn trên máy tính thông
qua một mạng lưới cảm biến không dây gồm 2 Node tương
ứng với 2 găng tay. Các thông điệp được hiển thị dưới
dạng văn bản trong phần mềm nhận dạng chạy trên máy
tính và phát ra tiếng nói, đồng thời có thể thực hiện các
thao tác “thêm” và “xóa” cử chỉ mới cho hệ thống. Vì vậy
hệ thống có vốn từ vựng ký hiệu mở, có thể tùy biến theo
người sử dụng. Kết quả đánh giá được thu thập từ các
thành viên khác nhau trong cộng đồng người sử dụng
ngôn ngữ ký hiệu phân vùng Đà Nẵng cho thấy hiệu suất
nhận dạng cử chỉ tĩnh trung bình là 85% và cử chỉ động là
80%, nhưng nhìn chung là khả quan.
Từ khóa— cảm biến; câm điếc; ký hiệu; ngôn ngữ;
nhận dạng; nhận dạng ngôn ngữ ký hiệu.
I. GIỚI THIỆU
Theo cuộc tổng điều tra dân số Việt Nam năm 2012
ở nước ta có khoảng 3 triệu người câm điếc và suy giảm
khả năng nghe nói. Vì vậy, lĩnh vực nghiên cứu Nhận
dạng và phiên dịch ngôn ngữ ký hiệu (Sign Language
Recognition) được ra đời và phát triển nhằm giúp người
khiếm thính vượt qua rào cản về giao tiếp.
Có thể phân ra hai hướng nghiên cứu chính, đó là:
Xử lý ảnh và Găng tay cảm biến.
Xử lý ảnh: Hướng nghiên cứu này chủ yếu tập
trung phân tích tín hiệu video nhận được từ
camera. Camera giám sát tất cả các hành động cử
chỉ từ bàn tay, nét mặt và cử động khác của người
nói, sau đó gửi tín hiệu đến máy tính, sau đó máy
tính xử lý và xuất lại kết quả dưới dạng văn bản
hoặc tiếng nói cho người bình thường đọc hoặc
nghe. Ưu điểm chính của hướng nghiên cứu này
là tạo nên một không gian giao tiếp rất thoải mái
cho người dùng. Người khiếm thính chỉ cần nói
bình thường trước camera một cách tự nhiên
bằng chính những cử chỉ của mình. Tuy nhiên,
hạn chế của phương pháp này là phải đảm bảo rất
nhiều điều kiện như: độ sáng của môi trường,
màu trang phục của người nói, vị trí góc của
người nói so với camera. Những yếu tố trên cộng
với việc phát triển phần mềm nhận dạng sẽ đẩy
giá thành của hệ thống này lên rất cao trong
tương lai nếu nó có thể thực sự được đưa ra ứng
dụng trong cuộc sống. Gần đây, cùng với sự ra
đời và phát triển của những camera có độ phân
giải lớn, các nghiên cứu theo hướng Xử lý ảnh
cũng có những thành công nhất định. Năm 2013,
dự án Kinect Translator (Sử dụng bộ Kinect
Camera của Microsoft) do Đại Học Bắc Kinh
Trung Quốc nghiên cứu đã xây dựng được hệ
thống thông dịch hai chiều giữa người bình
thường và người câm điếc thông qua một mô
hình 3D trên máy tính. Kết quả còn hạn chế ở
một số câu nói, câu hỏi đơn giản và chỉ phát triển
riêng cho tiếng Trung và một số câu tiếng Anh
thông dụng [1]. Trong cùng thời gian này, các
nhà khoa học Đại học Aberdeen cũng đã thực
hiện một nghiên cứu - sử dụng camera ghi hình
bàn tay của người ra ký hiệu và dùng một chương
trình phần mềm chuyển thành chữ cái hiển thị lên
màn hình [2].
Găng tay cảm biến: Hướng nghiên cứu này sử
dụng những chiếc găng tay thu thập dữ liệu và
gửi về máy tính để xử lý. Người dùng sẽ bắt buộc
phải mang những chiếc găng tay này khi giao
tiếp. Thông qua các cảm biến được gắn trên găng
tay nó sẽ phát hiện tất cả các chuyển động của
bàn tay cùng các ngón tay và gửi những dữ liệu
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 329
này về máy tính. Ưu điểm của phương pháp này
là loại bỏ được những sự ảnh hưởng của môi
trường bên ngoài. Tuy nhiên nhược điểm lớn nhất
của phương pháp này lại chính là sự phản ảnh
hạn chế của dữ liệu thu được do Ngôn ngữ ký
hiệu sử dụng nhiều cử chỉ nét mặt, đầu và thân
thể để biểu thị. Trong những trường hợp đó, găng
tay cảm biến tỏ ra không hiệu quả. Vào năm 1994
hai tác giả David J.Sturman và David Zeltzer ở
Medialab, học viện công nghệ MIT đã đưa ra một
phương pháp thu thập dữ liệu đầu vào sử dụng
các găng tay trong công trình “A Survey of Glove
Data Input” [3] để ứng dụng trong Nhận dạng
ngôn ngữ ký hiệu. Cùng trong hướng nghiên cứu
này, nổi bật nhất là dự án Enable Talk [4] của
nhóm QuadSquad đến từ Ukraine năm 2012.
Găng tay đã có thể nhận dạng ra các chữ cái đơn
lẻ và họ dùng chúng để viết thành các chữ cái
hoặc tạo nên câu. Sau này sản phẩm còn được
phát triển cao hơn để nhận dạng được một số câu
đơn giản và chuyển thành tiếng nói.
Bài báo này trình bày các kết quả của một nghiên
cứu về nhận dạng ngôn ngữ ký hiệu Tiếng Việt theo
hướng Găng tay cảm biến. Mục tiêu của nghiên cứu này
là tạo ra hệ thống có thể nhận dạng và phiên dịch ngôn
ngữ ký hiệu khu vực Đà Nẵng thành tiếng nói và mở
rộng cơ sở dữ liệu ra toàn quốc. Cơ sở của việc mở rộng
này là vì hệ thống cho phép tùy biến vốn từ vựng tùy
theo người dùng bằng thao tác huấn luyện sản phẩm ghi
nhớ hành động của mình. Ngoài ra, hệ thống có thể xóa
những hành động khác trong cơ sở dữ liệu khi cảm thấy
không cần thiết hoặc gây nhầm lẫn so với những cử chỉ
khác. Ứng dụng đầu tiên và thiết thực nhất của hệ thống
này là việc nó có thể giúp người câm điếc thuyết trình
trước mọi người. Hệ thống hỗ trợ 3 gói giọng nói: Tiếng
Việt giọng nam, Tiếng Việt giọng nữ và Tiếng Anh
giọng nữ.
Bài báo sẽ trình bày tổng quan về ngôn ngữ ký hiệu
ở phần II. Phần này gồm có những đặc tính cơ bản của
ngôn ngữ ký hiệu nói chung và ngôn ngữ ký hiệu Việt
Nam nói riêng. Tiếp theo bài báo trình bày sơ đồ khối hệ
thống, thiết kế phần cứng và các thiết kế về phần mềm,
bao gồm xây dựng cơ sở dữ liệu cùng với giải thuật nhận
dạng, được trình bày ở phần III. Cuối cùng, những kết
quả thử nghiệm được đánh gíá phân tích ở phần IV và
kết luận cũng như hướng phát triển sẽ được trình bày ở
phần V.
II. TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU
A. Khái niệm ngôn ngữ
Ngôn ngữ ký hiệu (thủ ngữ) được cộng đồng người
câm điếc sử dụng nhằm truyển tải thông tin qua cử chỉ,
điệu bộ của cơ thể và nét mặt thay cho lời nói [5].
Dưới đây là bảng chữ cái ký hiệu chung nhất cho
Việt Nam và hầu hết các quốc gia sử dụng bảng chữ cái
La-Tin làm chữ viết. Hầu hết các ký hiệu biểu hiện chữ
cái đều là các ký hiệu “tĩnh” ngoại trừ 2 ký hiệu “J” và
“Z” như Hình 1 [6].
Hình 1: Bảng chữ cái ngôn ngữ ký hiệu
B. Các đặc tính của một ký hiệu
1) Tính giản lược và có điểm nhấn
Ngôn ngữ ký hiệu tập trung vào việc truyền tải ý
nghĩa của hành động chứ không chú trọng ngữ pháp,
miễn là vẫn truyền tải được nội dung của thông điệp. Đặt
trong một ngữ cảnh giao tiếp nhất định thì ngôn ngữ ký
hiệu vẫn có thể truyền đạt được nội dung của câu nói.
Tuy nhiên nếu tách biệt ra khỏi môi trường giao tiếp sẽ
khó khăn hơn cho việc nhận dạng những trường hợp
tương tự, vì người nghe không biết chủ thể đang được
nói đến là ai [7].
2) Khác biệt vùng miền
Cũng như ngôn ngữ nói, ngôn ngữ ký hiệu của từng
quốc gia, thậm chí là từng khu vực trong một quốc gia
rất khác nhau. Điều đó là do mỗi quốc gia, khu vực có
lịch sử, văn hóa, tập quán khác nhau nên ký hiệu để biểu
thị sự vật, hiện tượng cũng khác nhau. Do đó dẫn tới sự
khác biệt của hệ thống từ vựng và ngữ pháp ngôn ngữ ký
hiệu giữa các nước.
3) Phân loại ký hiệu
Trên cơ sở nghiên cứu về các cử chỉ và ký hiệu được
sử dụng trong cộng đồng người câm điếc. Ngôn ngữ cử
chỉ sử dụng trong nghiên cứu này được chia ra làm 2 loại
đó là “ký hiệu tĩnh” và “ký hiệu động”.
a) Ký hiệu tĩnh
Là những ký hiệu chỉ cần sử dụng một trạng thái của
tay cố định mà không di chuyển. Trong phần lớn trường
hợp của ngôn ngữ ký hiệu, các cử chỉ tĩnh thường chỉ
được dùng để diễn tả bảng chữ cái (trừ chữ “J”, “Z” và
chữ cái có dấu) hoặc những ký hiệu hết sức đơn giản.
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 330
b) Ký hiệu động
Là một chuỗi các ký hiệu nối tiếp nhau nhằm biểu
diễn một câu hoặc một ý nào đấy. Cũng có thể hiểu nó là
một chuỗi các ký hiệu tĩnh thay đổi liên tục. Hầu hết các
câu đàm thoại trong ngôn ngữ ký hiệu đều là các ký hiệu
động. Mục tiêu chính của đề tài này là nhận dạng các ký
hiệu động này với mẫu ký hiệu được lấy từ ngôn ngữ ký
hiệu khu vực Đà Nẵng.
III. THIẾT KẾ HỆ THỐNG
A. Sơ đồ khối của hệ thống
Hình 2. Tổng quan hệ thống
Sơ đồ khối của hệ thống được trình bày như Hình 2,
bao gồm:
Hai găng tay được gắn các cảm biến gia tốc góc,
MCU và RF module để thu thập dữ liệu của bàn
tay thông qua các bộ chuyển đổi ADC. Các dữ
liệu này sẽ được chuẩn hóa và gửi về điểm thu
thập dữ liệu.
Tại điểm thu thập dữ liệu, máy tính sẽ tiến hành
thu thập dữ liệu và phát hiện trạng thái ngưng của
chuyển động. Khi một cử chỉ ngưng lại nó sẽ
kích hoạt quá trình nhận dạng, nếu kết quả thành
công sẽ xuất ra kết quả đầu ra dạng Text. Sau đó
mã Text tiếp tục được đưa vào bộ chuyển đổi
Text-to-Speech và phát ra tiếng nói tương ứng.
B. Thiết kế phần cứng:
1) Găng tay cảm biến
Hình 3 mô tả thiết kế tổng quan về găng tay sử dụng
cảm biến gia tốc gắn trên đầu ngón tay. Bộ xử lý trung
tâm là MCU sẽ được đặt trên sống bàn tay cùng với
Module RF. Ngoài ra thiết kế găng tay cũng đảm bảo
được tính uyển chuyển, không gây cản trở khi chuyển
động và loại bỏ các xung tĩnh điện nhờ vải chống tĩnh
điện.
Hình 3. Thiết kế găng tay
2) Sơ đồ khối chức năng
Hình 4. Sơ đồ khối chức năng
Tín hiệu ở các cảm biến gia tốc được MCU thực hiện
quá trình ADC với 5 kênh chuyển đổi, tương ứng với 5
cảm biến gắn trên các đầu ngón tay. Sau đó tín hiệu
được chuẩn hóa đầu vào, nhằm loại bỏ những xung vượt
ngưỡng cho phép đồng thời giảm sổ lượng các mẫu
giống nhau quá nhiều (Hình 4).
3) Cảm biến vi cơ gia tốc góc
a) Tổng quan về cảm biến gia tốc
Cảm biến gia tốc là một thiết bị dùng để đo gia tốc.
Cảm biến vi cơ là một loại cảm biến được chế tạo theo
công nghệ vi cơ. Nó chính là một trong những sản phẩm
phong phú và đa dạng nhất của công nghệ MEMS
(Microelectromechanical Systems) [8] [9].
Cảm biến vi cơ ngày càng nhanh hơn, nhạy hơn, nhẹ
hơn, rẻ hơn và có độ tin cậy cao so với các cảm biến chế
tạo theo công nghệ điện tử trước đây. Cảm biến gia tốc
chế tạo theo công nghệ vi cơ điện tử có hai loại là cảm
biến kiểu tụ và cảm biến kiểu áp trở. Cảm biến kiểu áp
Tín
hiệu
cảm
biến
ADC
(5x2
channel)
Chuẩn
hóa tín
hiệu đầu
vào
Điểm
thu
thập dữ
liệu
Găng
tay
PC
Điểm thu thập dữ liệu
Găng tay 1 Găng tay 2
Module MCU
RF
Cảm biến gia
tốc
Cảm biến gia
tốc
Module MCU
RF
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 331
trở có ưu điểm là công nghệ cấu tạo rất đơn giản. Tuy
nhiên nhược điểm của nó là hoạt động phụ thuộc nhiều
vào sự thay đổi nhiệt độ và có độ nhạy kém hơn cảm
biến kiểu tụ.
Các cảm biến kiểu tụ có độ nhạy cao hơn, ít bị phụ
thuộc vào nhiệt độ, ít bị nhiễu và mất mát năng lượng.
Tuy nhiên chúng có nhược điểm là mạch điện tử phức
tạp hơn. Hiện nay cảm biến gia tốc kiểu tụ được ứng
dụng rộng rãi. Nghiên cứu này sử dụng cảm biến vi cơ
gia tốc góc kiểu tụ MMA7361.
b) Cảm biến gia tốc góc MMA7361
MMA7361 là gia tốc cho phép phát hiện chuyển
động theo cả 3 phương X-Y-Z. Trong đề tài này cảm
biến gia tốc MMA7361 được lựa chọn do độ nhạy cao
(1.5g hoặc 6g) và đặc tính tiết kiệm năng lượng của nó
(hoạt động được với dòng rất nhỏ, ở chế độ Active tiêu
thụ dòng chỉ 500µA và Sleep Mode là 40µÁ. Điện áp
cung cấp từ 2.2 đến 3.3V.
c) Khảo sát chuyển động của các ngón tay với
MMA7361
Xét về mặt chuyển động trong không gian của các
ngón tay thì hành động cong ngón tay và cử động xoay
là những cử động cơ bản nhất trong ngôn ngữ ký hiệu.
Bởi vì khi thực hiện bất cứ một cử chỉ nào đều cần sự co,
nghiêng, xoay của ngón tay cũng như bàn tay. Tất nhiên
những cử động của bàn tay sẽ kéo theo các chuyển động
của các ngón tay. Sau đây là kết quả kiểm tra sự thay đổi
góc quay theo 3 trục với các hành động tương ứng [10].
Quá trình thử nghiệm thực hiện gắn cảm biến lên
một thanh trục và quay 1800 cho kết quả như sau:
Khảo sát hành động cong ngón tay
Hình 5. Khảo sát hành động cong ngón tay
Hình 6. Giá trị điện áp theo góc quay hành động cong ngón tay
Hình 6 biểu diễn giá trị điện áp khi cong ngón tay.
Giá trị gia tốc góc đo được trên ngõ ra trục Y thay đổi
gần như tuyến tính. Đây cũng là cơ sở để chọn những
ngõ ra tương ứng cho mỗi cảm biến trên mỗi ngón tay.
Vì đối với những hành động cong ngón tay thì sự phản
ánh của dữ liệu trên trục Y của cảm biến sẽ là tốt nhất
[11].
Khảo sát hành động xoay của ngón tay
Hình 6. Khảo sát hành động xoay của ngón tay
Hình 7. Giá trị điện áp theo góc quay hành động xoay ngón tay
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 332
Hình 7 là kết quả khi khảo sát hành động xoay
ngón. Gia tốc góc trên trục X sẽ thay đổi nhiều nhất,
giảm liên tục với góc quay từ 0- 1800.
d) Chọn các ngõ ra trên các cảm biến
Trên cơ sở khảo sát chuyển động của các ngón tay và
bàn tay đó, các ngõ ra của cảm biến và cũng là đầu vào
cho các kênh ADC của MCU được lựa chọn như Bảng 1.
BẢNG 1. NGÕ RA CỦA CẢM BIẾN TRÊN CÁC NGÓN TAY
Ngõ ra Ngón tay
Yout Ngón cái
Yout Ngón trỏ
Xout Ngón giữa
Zout Ngón áp út
Yout Ngón út
C. Thiết kế phần mềm
1) Các trạng thái của một ký hiệu
Một ký hiệu được xem xét dựa trên 3 trạng thái
chính là: “Bắt đầu”, “Chuyển động” và “Tạm dừng”
(Hình 8).
Hình 8. Các trạng thái của một ký hiệu
Trạng thái bắt đầu: Đây là trạng thái bắt đầu của
một chuyển động. Quy định trạng thái bắt đầu là
duy nhất, nghĩa là khi bắt đầu bất cứ một ký hiệu
nào, phải đưa tay về trạng thái bắt đầu để hệ
thống có thể biết sắp bắt đầu một câu mới. Hiện
tại hệ thống cài đặt trạng thái bắt đầu một câu
mới là khi người dùng đặt 2 tay úp vào nhau tay
trái ngửa, tay phải úp để ngang bụng. Trạng thái
này có thể tùy biến theo cài đặt sau này.
Trạng thái chuyển động: Khi có sự chuyển động
của các ngón tay hoặc bàn tay trong khoảng thời
gian tối thiểu 1s, thì sẽ kích hoạt trạng thái
chuyển động. Lúc này dữ liệu đang được ghi lại
vào bộ đệm để chuẩn bị nhận dạng.
Trạng thái tạm dừng: Trạng thái này được xác
lập khi không xảy ra chuyển động nào trong ít
nhất 2.5s. Đây cũng là lúc hệ thống bắt đầu đi
nhận dạng ký hiệu vừa được tạo ra.
Kết thúc quá trình nhận dạng dù có thành công
hay không thì quá trình xử lý cũng quay trở về
trạng thái khởi động để chờ ký hiệu mới.
2) Xây dựng cơ sở dữ liệu
Với mỗi dòng dữ liệu nhận được từ 10 cảm biến gia
tốc góc ta có một vector 10 chiều.
1 2 3 4 5 6 7 8 9 10{ , , , , , , , , , }d u u u u u u u u u u
Ta có: { ,1 10}id u i với (1 5)iu i cho tay
phải và (6 10)iu i cho tay trái. Như vậy một ký hiệu
được biểu diễn bởi mG là một tập vector d với Imax là số
dòng dữ liệu tối đa cho một ký tự:
ax{ | , }im mG d i I i N (1)
Qua khảo sát cho thấy rằng thời gian thực để thực
hiện một cử chỉ trung bình kéo dài trong khoảng từ 2-5s.
Để đảm bảo việc cập nhật dữ liệu là đủ nhanh để lưu lại
tất cả các trạng thái của chuyển động, hơn nữa nó cũng
phải đảm bảo đáp ứng của hệ thống. Với tốc độ chuyển
động của bàn tay bình thường không quá nhanh, thời
gian lấy mẫu Timescale cho bộ ADC được chọn như
sau:
0.01( )TimeScale s (2)
Thời gian tối đa cho một ký hiệu:
AX(ar _ ) 5( )M verage time s (3)
Có thể suy ra số dòng dữ liệu tối đa cho một ký tự:
ax
AX(ar _ )
500m
M verage time
I
TimeScale
(4)
Ta có Database được xây dựng trên tập các ký hiệu:
kD G | k 0,1,2,..N 500 (5)
Bây giờ nhiệm vụ là:
Cho một tập: { , }iR v i N là dữ liệu đầu vào đại
diện cho một ký hiệu nào đấy. Tìm kG D sao
cho ( , )kR G là “phù hợp nhất”. Chúng ta sẽ nói rõ hơn
thế nào là “phù hợp nhất” trong phần D.
3) Giải thuật nhận dạng
Với mỗi cặp vector iv R và i kd G
Bắt đầu
Chuyển động
Tạm dừng
(nhận dạng)
Bắt đầu
chuyển động
Kết thúc một
chuyển động
Nhận dạng
hoàn tất
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 333
{v ,1 10, )i kv k k N
{d ,1 10, )i kd k k N
Ta có khoảng cách Eclid được tính giữa 2 vector như
sau:
10
2
1
( )i k k
k
D v d
(6)
Áp dụng phương pháp tính điểm như sau:
Vì độ dài đầu vào của các ký hiệu là khác nhau và độ
dài của các mẫu ký hiệu đã huấn luyện trong cơ sở dữ
liệu cũng khác nhau cho nên độ dài của R và Gk có thể
khác nhau. Mặt khác, xét về độ quan trọng trong các cử
chỉ thì cử chỉ cuối cùng luôn quan trọng hơn những hành
động đầu tiên nên việc tính điểm được tiến hành từ điểm
cuối của hành động như sau:
Điểm số 1iM nếu iD với 0.85 ngược
lại 0iM .
Có thể chọn α nhỏ hơn nhưng bù lại nó sẽ siết chặt
quá trình nhận dạng và làm giảm hiệu suất nhận dạng
với những cử chỉ gần giống với cử chỉ đã lưu trong
database.
Ta có một thông số tính điểm đại diện cho sự tương
đồng của ( , )kR G
ax[ ; ]
| |
ar ( , )
k
k
M nR nG
k k i
i nR nG
M k R G M
(7)
Trong đó nR là số vector chứa trong R và nGk là số
vector chứa trong Gk hay nói cách khác là độ dài tính
theo số dòng dữ liệu thu được.
Bây giờ chúng ta xét tỉ số điểm có được tương ứng
với cử chỉ đầu vào và độ dài của ký tự đó. Sở dĩ phải xét
đến độ dài (số vector chứa trong một ký hiệu đầu vào) vì
những cử chỉ có thể giống nhau ở một số đoạn chuyển
động dù độ dài nó khác nhau.
Xét về tổng thể một cử chỉ có độ dài càng lớn thì xác
suất nó chứa các thành phần của những cử chỉ khác
trong đó là lớn. Ta có một cử chỉ đầu vào R có độ dài là
nR. Và giá trị điểm số mà nó thu được khi quét toàn cơ
sở dữ liệu là:
ar ( , )k k
k
M k R G
nR
(8)
( , )kR G được xem là một cặp “phù hợp nhất” khi k
tương ứng là lớn nhất xét khi quét toàn cơ sở dữ liệu.
Trong tất cả các trường hợp nếu số điểm
ar ( , ) 2k kM k R G thì trường hợp này được xem là
“Không nhận dạng được”. Nghĩa là trong quá trình
chuyển động của cử chỉ đó nó không tạo ra được quá 2
thành phần iv .
Kết quả quá trình nhận dạng sẽ trả về giá trị k là chỉ
số của mã TEXT tương ứng được lưu trong cơ sở dữ liệu
hoặc -1 nếu không xác định được. Quá trình nhận dạng
sẽ được mô tả chi tiết hơn trong Hình 9.
Hình 9. Mô tả quá trình nhận dạng một cử chỉ
Việc so sánh và tính điểm được bắt đầu từ điểm cuối
của mỗi cặp ( , )kR G bám sát theo trình tự thời gian mà
các dòng dữ liệu đó được tạo ra. Theo đó ở trục thời gian
chúng ta có 3 trạng thái tương ứng đó là “Bắt đầu” ,
“Chuyển động” và “Tạm dừng”. Như đã trình bày ở trên
độ dài của R và kG là có thể khác nhau nên việc tính
điểm chỉ được tính đến chỉ số | |knR nG , ở đây ta có
chiều dài của R là nR và chiều dài của kG là n với
n nR . Nếu quá trình nhận dạng thành công sẽ trả về
giá trị chỉ số k tương ứng với mã ex kT t .
IV. KẾT QUẢ VÀ ĐÁNH GIÁ
Hiệu suất nhận dạng đánh giá đối với hai loại: nhận
dạng cử chỉ tĩnh và nhận dạng cử chỉ động. Dữ liệu đánh
g