Nhiều dự án phần mềm có từ lâu đã sử dụng các tệp tài nguyên và cấu hình flat-file (thuật ngữ 
thường dùng để chỉ các ứng dụng lưu trữ dữ liệu lên các tập tin dạng văn bản) trong nhiều năm 
mà không gặp các vấn đề lớn. Khi các dự án phát triển và trở nên phức tạp hơn, nhu cầu tăng 
thêm về sự chặt chẽ và tính tương thích càng lớn hơn. Với XML và ứng dụng của XML khi sử 
dụng các tiêu chuẩn cụ thể, có khả năng là bạn có thể được hưởng lợi từ: tính tương thích, tính 
chắc chắn và tính mở rộng giữa dự án và giữa nền tảng trong các lĩnh vực chẳng hạn như 
Unicode.
                
              
                                            
                                
            
                       
            
                 12 trang
12 trang | 
Chia sẻ: lylyngoc | Lượt xem: 1840 | Lượt tải: 1 
              
            Bạn đang xem nội dung tài liệu Tiến tới những chuẩn mở trong việc xử lý giọng nói, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Tiến tới những chuẩn mở trong việc xử lý giọng nói 
Giới thiệu 
Nhiều dự án phần mềm có từ lâu đã sử dụng các tệp tài nguyên và cấu hình flat-file (thuật ngữ 
thường dùng để chỉ các ứng dụng lưu trữ dữ liệu lên các tập tin dạng văn bản) trong nhiều năm 
mà không gặp các vấn đề lớn. Khi các dự án phát triển và trở nên phức tạp hơn, nhu cầu tăng 
thêm về sự chặt chẽ và tính tương thích càng lớn hơn. Với XML và ứng dụng của XML khi sử 
dụng các tiêu chuẩn cụ thể, có khả năng là bạn có thể được hưởng lợi từ: tính tương thích, tính 
chắc chắn và tính mở rộng giữa dự án và giữa nền tảng trong các lĩnh vực chẳng hạn như 
Unicode. 
Các từ viết tắt thông dụng 
 HTK: Hidden Markov Model Toolkit (Bộ công cụ mô hình Markov ẩn) 
 PLS: Pronunciation Lexicon Specification (Đặc tả từ vựng phát âm) 
 XML: eXtensilble Markup Language (Ngôn ngữ đánh dấu mở rộng) 
Bằng việc chuyển đổi các tệp flat-file sang tiêu chuẩn nguồn mở thích hợp, bạn cũng có thể làm 
tăng tính linh hoạt và độ tin cậy. Từ ngữ trong việc nhận dạng giọng nói là một ví dụ hay được 
sử dụng trong bài này. Dù các dự án mã nguồn mở của bạn có di chuyển sang XML với các tệp 
tài nguyên hay không, bạn có thể sử dụng các tiêu chuẩn XML trong công việc của mình mà 
không bị mất đi các đặc tính. 
Trong bài này, hãy tìm hiểu cách dễ dàng di chuyển giữa các định dạng phẳng và PLS. Các ví dụ 
cho thấy cách lưu trữ các từ ngữ tùy chỉnh theo định dạng PLS và trích xuất dữ liệu vào flat-file 
cần thiết. 
Về đầu trang 
Ví dụ: Từ ngữ 
Các từ ngữ là các danh sách của các từ mà bạn sử dụng trong các công cụ nhận dạng giọng nói. 
Chúng chứa thông tin về cách từ đó phải được in ra hoặc được biểu diễn bằng đồ họa như thế 
nào và nó phát ra như thế nào khi sử dụng các âm vị. Từ vựng thường dùng với HTK được sử 
dụng rộng rãi trong các dự án điều khiển bằng giọng nói (xem phần Tài nguyên). Liệt kê 1 là một 
đoạn trích của một từ vựng HTK của VoxForge. 
Liệt kê 1. Đoạn trích của một từ vựng HTK của VoxForge 
AGENCY [AGENCY] ey jh ih n s iy 
AGENDA [AGENDA] ax jh eh n d ax 
AGENT [AGENT] ey jh ih n t 
AGENTS [AGENTS] ey jh ih n t s 
AGER [AGER] ey g er 
AGES [AGES] ey jh ih z 
Thêm một khoảng tab nếu bạn muốn sao chép và dán mã 
trong bài 
Điều quan trọng là bạn lấy các từ vựng trực tiếp từ nguồn. Bài này sẽ hiển thị bằng HTML, thay 
thế các sự phân cách bằng khoảng trống. Nếu bạn sao chép và dán từ bài này, bạn cần phải thay 
thế nhiều khoảng trống ở giữa bằng một dấu phân cách thẻ đơn (\t) nếu không thì đoạn script sẽ 
không chạy. 
Tệp trong Liệt kê 1 có ba trường được phân cách bằng tab: 
 Nhãn mô tả chung về từ đó. 
 Các dấu ngoặc vuông bao quanh từ khi bạn muốn nó được in hoặc được hiển thị trên màn 
hình (grapheme - chữ cái đặc trưng cho một âm vị). 
 Một chuỗi các âm vị có phân cách bằng một khoảng trống từ bộ Arpabet (xem phần Tài 
nguyên) mô tả từ này phát âm như thế nào. 
Trong ví dụ trên, các phát âm từ tiếng Anh, rõ ràng được trình bày bởi các ký tự ASCII (Mã tiêu 
chuẩn Hoa kỳ dùng để trao đổi thông tin).. 
Dự án Sphinx của CMU (xem phần Tài nguyên) lưu từ vựng (hoặc từ điển trong bối cảnh Sphinx 
của CMU) theo cách tương tự. Liệt kê 2 trình bày một đoạn trích dẫn. 
Liệt kê 2. Đoạn trích từ vựng Sphinx của CMU 
agency EY JH AH N S IY 
agenda AH JH EH N D AH 
agendas AH JH EH N D AH Z 
agent EY JH AH N T 
agents EY JH AH N T S 
ager EY JH ER 
Trong Liệt kê 2 chỉ có hai trường: word/grapheme và biểu diễn âm vị của nó. Hai ví dụ trên có 
một số sự khác biệt khó nhận thấy: 
 Các từ và các âm vị trong các trường hợp khác nhau. 
 Các âm vị có một số khác biệt không đáng kể. 
 Dấu chấm câu (dấu phẩy, dấu chấm than và v.v) được xử lý hơi khác nhau một chút. 
Bạn có thể xem toàn bộ từ điển trong tệp cmu07a.dic trong phần tải về hiện tại của PocketSphinx 
(xem phần Tài nguyên). 
Do từ vựng mô tả các cách phát âm cụ thể của các từ, nên bạn có thể cần chỉnh sửa tệp đó cho 
phù hợp với mọi người hoặc các phương ngữ cụ thể. Theo thời gian, bạn xây dựng vốn kiến thức 
trong từ vựng tùy chỉnh riêng của mình. Bạn có thể dễ dàng chỉnh sửa flat-file bằng một trình 
soạn thảo văn bản, nhưng bạn nên cẩn thận vì điều này cũng dễ gây ra lỗi, chẳng hạn như: việc 
sử dụng một dấu phân cách khác hơn so với tiêu chuẩn dùng cho tệp, việc chèn các ký tự không 
phải là ASCII, đặt các trường theo thứ tự sai, việc phân loại các bản ghi không chính xác, thiếu 
các dấu ngoặc vuông cần thiết và v.v. 
Có một bất lợi khó thấy khác của các flat-file là khi bạn xây dựng tệp tùy chỉnh của mình, bạn 
vẫn không tương thích với các dự án nhận dạng văn bản khác. Một từ vựng theo một định dạng 
XML tiêu chuẩn như PLS, nếu được cả hai dự án công nhận, thì ngay lập tức đều tương thích 
trong cả hai. 
Về đầu trang 
Đặc tả từ vựng phát âm 
PLSA có một định dạng cơ bản, đơn giản như trong Liệt kê 3. 
Liệt kê 3. Định dạng PLS cơ bản 
<lexicon version="1.0" 
 xmlns="" 
 xmlns:xsi="" 
 xsi:schemaLocation=" 
 " 
 alphabet="ipa" xml:lang="en-US"> 
 ... 
 ... 
XML mô tả phần tử gốc lexicon (từ vựng) có thể chứa nhiều phần tử con lexeme (từ vị). Mỗi 
phần tử con lexeme có thể chứa nhiều phần tử grapheme và nhiều phần tử phoneme (âm vị). Đặc 
tả này cho phép bạn ghi đè lên thuộc tính alphabet (bảng chữ cái) nhưng không cho phép bạn 
ghi đè lên thuộc tính ngôn ngữ xml:lang. Để lưu các từ vị cho các ngôn ngữ khác nhau, chắc 
chắn bạn cần tách riêng các tệp từ vựng PLS. Bảng chữ cái mặc định trong từ vựng này là ipa, 
nói đến hệ thống IPA (International Phonetic Alphabet – Bảng chữ cái phiên âm quốc tế) để biểu 
diễn các âm thanh (xem phần Tài nguyên). Biểu diễn IPA về các âm vị là các ký tự Unicode 
nhiều byte. Cả hai HTK và Sphinx đều sử dụng các mã ASCII thuần. Nhận xét quan trọng này 
được giải quyết ở phần sau trong bài này. 
Lợi thế của việc sử dụng đặc tả PLS là ở chỗ nó thêm cấu trúc chặt chẽ hơn và cho phép bạn lưu 
trữ thêm thông tin, chẳng hạn như thành phần của tiếng nói và các bảng chữ cái cụ thể. Chi tiết 
về thành phần của tiếng nói là quan trọng trong tiếng Anh vì một số từ có thể được viết theo 
chính tả giống nhau (các từ cùng chữ) lại được phát âm khác nhau tùy thuộc vào vai trò ngữ pháp 
của chúng. Ví dụ, đối với từ perfect, nếu nó là một tính từ thì sẽ phát âm khác với khi nó là một 
động từ vì trọng âm được đặt ở một vị trí khác nhau. Thông tin bổ sung được lưu trữ trong các 
thuộc tính cho phép bạn trích ra các bản ghi cụ thể từ toàn bộ tệp, tùy theo yêu cầu. Khi sử dụng 
phương pháp này, bạn có thể tìm kiếm một bảng chữ cái cụ thể trong số nhiều phần tử phoneme. 
Hãy xem từ vựng PLS như là một cơ sở dữ liệu về thông tin từ vựng mà từ đó bạn có thể trích ra 
thông tin chi tiết liên quan đến công cụ giọng nói mà bạn sử dụng. Liệt kê 4 là một ví dụ về định 
dạng PLS. 
Liệt kê 4. Một từ theo định dạng PLS 
<lexicon version="1.0" 
 xmlns="" 
 xmlns:xsi="" 
 xsi:schemaLocation=" 
 " 
 alphabet="ipa" xml:lang="en"> 
 agency 
 ey jh ih n s iy 
 EY JH AH N S IY 
Ví dụ trong Liệt kê 4 chỉ lưu trữ một từ có hai biểu diễn âm vị có thể. Bạn có thể lọc ra một trong 
số các chuỗi phoneme bằng cách sử dụng thuộc tính alphabet. Phần tử lexeme cho thấy thuộc 
tính role của noun (danh từ). Trong khi việc này cung cấp nhiều thông tin, thì trong trường hợp 
này nó lại quá dư thừa vì từ đó chỉ được sử dụng như một danh từ, không có các kịch bản phát 
âm phức tạp nào. 
Bằng cách các biểu diễn phoneme từ hai nguồn khác nhau ở cạnh nhau, bạn có thể thấy rõ sự 
khác biệt tinh tế. Thông tin này có thể có ích trong việc giải quyết các vấn đề nhận dạng tiếng 
nói. 
Không phải Sphinx của CMU hay HTK có thể sử dụng trực tiếp một từ vựng PLS, mà phần đầu 
của simon (xem phần Tài nguyên) với bộ công cụ HTK mới có thể làm được điều đó. Nếu bạn 
đang sử dụng trực tiếp HTK hoặc Sphinx, bạn cần chắc chắn rằng có thể dễ dàng chuyển từ văn 
bản thuần sang PLS và ngược lại mà không mất thông tin. 
Các phần sau đây cho thấy cách sử dụng Python để chuyển từ một flat-file sang PLS và ngược 
lại. Giả sử bạn đã tùy chỉnh thông tin trong một từ vựng flat-file. 
Về đầu trang 
Chuyển đổi sang PLS 
Mã trong Liệt kê 5 sử dụng Python, nhưng bạn có thể thực hiện điều tương tự theo nhiều cách 
khác. (hãy xem hướng dẫn trên developerWorks về XSLT (Extensible Stylesheet Language 
Transformations - Các chuyển đổi ngôn ngữ bản định kiểu mở rộng) trong phần Tài nguyên). 
Một số người muốn sử dụng các thư viện để kiểm tra tính chắc chắn của XML ở mỗi bước nhỏ 
để biết thêm thông tin phản hồi trực tiếp chỉ ra nơi có vấn đề, đặc biệt là đối với các tệp nguồn 
lớn và có thể chứa các lỗi và các xung đột. Ví dụ dưới đây để lại việc kiểm tra vào bước cuối 
cùng, hàm ý một quy ước là các flat-file đều đúng định dạng. 
Liệt kê 5. Chuyển đổi sang PLS 
from elementtree.ElementTree import parse 
import string as str 
import sys 
import cgi 
# 
# call with 
# python flat2pls.py vox 
# or 
# python flat2pls.py spx 
# 
if len(sys.argv) == 2: 
 src = sys.argv[1] 
else: 
 exit("wrong args") 
# 
outfile = "mylex"+src+".pls" 
print "out is "+outfile 
out = open(outfile,"w") 
out.write('\n\ 
<lexicon version="1.0"\n \ 
 xmlns=""\n\ 
 xmlns:xsi=""\n \ 
 xsi:schemaLocation=" \ 
20071212/pls.xsd"\n\ 
 alphabet="ipa" xml:lang="en">') 
# now the lexemes 
if src == "vox": 
 f = open("vf.lex","r") 
 for line in f: 
 line = str.strip(line) 
 word = str.split(line,"\t") 
 #gr = str.strip(word[1],"[]") 
 gr = cgi.escape(word[0]) 
 out.write('\n\ 
 \n\ 
 '+gr+'\n\ 
 '+word[2]+'\n\ 
 ') 
else: # src is sphinx 
 f = open("cmu.dic","r") 
 for line in f: 
 line = str.strip(line) 
 word = str.split(line,"\t") 
 gr = cgi.escape(word[0]) 
 out.write('\n\ 
 \n\ 
 '+gr+'\n\ 
 '+word[1]+'\n\ 
 ') 
# ended lexemes 
out.write('\n\n') 
out.close() 
# now check the output is ok 
tree = parse(outfile) 
lexicon = tree.getroot() 
mylexcount = 0 
for lexeme in lexicon: 
 mylexcount += 1 
print 'Found %(number)d lexemes' % {"number":mylexcount} 
Liệt kê 5 bắt đầu bằng cách nhập khẩu các mô đun từ thư viện phân tích cú pháp XML 
elementtree (xem phần Tài nguyên) và một số thư viện hỗ trợ. Việc nhập khẩu ElementTree 
trên các bản phân phối khác nhau có thể liên quan đến cú pháp hơi khác nhau một chút, tùy thuộc 
vào cách bạn cài đặt mô đun. Đoạn mã ví dụ đến từ openSUSE với mô đun cài đặt từ nguồn, 
nhưng Ubuntu cũng có thể yêu cầu from xml.etree.ElementTree import parse. Mô đun 
str cho phép một số thao tác chuỗi, sys cho bạn quyền truy cập vào các tệp và cgi cung cấp 
một thường trình đặt dấu gạch chéo ngược rất cần thiết trong việc xử lý dữ liệu cho XML. Mã 
này hy vọng sẽ nhận được một đối số giao diện dòng lệnh (CLI) để nói cho nó biết liệu có 
chuyển dịch từ định dạng Sphinx của CMU hoặc HTK/VoxForge không. Sau đó, đoạn mã ví dụ 
mở tệp để xuất ra và viết đoạn mở đầu XML thích hợp cho PLS. Vì bạn không lưu trữ bất kỳ các 
ký tự Unicode nào ở giai đoạn này, nên việc mở tệp chỉ để truy cập ASCII thuần là đủ. 
Lúc này, mã trong Liệt kê 5: 
 Xử lý từng dòng của tệp nguồn, chia tách các trường thành các chuỗi riêng biệt và viết 
các thành phần lexeme, grapheme và phoneme. 
 Xác định phoneme bằng thuộc tính alphabet="x-htk-voxforge" nếu dữ liệu gửi đến từ 
từ vựng VoxForge và bằng alphabet="x-cmusphinx" nếu dữ liệu là từ Sphinx. 
 Giữ nguyên trường hợp của các âm vị. 
Khi trường đầu tiên được nhập khẩu, nó có thể chứa các ký tự, chẳng hạn như dấu "và" (&), gây 
ra các vấn đề trong XML, trừ khi được đặt dấu gạch chéo ngược với cgi.escape(). 
Cuối cùng, đoạn mã: 
 Viết các thẻ đóng. 
 Đóng tệp PLS và sau đó nạp lại nó như là một tệp XML. 
 Đọc hết tệp đếm các phần tử lexeme. 
 Báo cáo tổng số đếm các từ vị. 
Nếu tổng số đếm được báo cáo, thì XML xuất hiện là chắc chắn và có định dạng đúng. 
Liệt kê 6 là một đoạn trích kết quả của từ vựng HTK của VoxForge. 
Liệt kê 6. Đoạn trích kết quả của từ vựng HTK của VoxForge 
... 
 AGENDA 
 ax jh eh n d ax 
 AGENT 
 ey jh ih n t 
... 
Về đầu trang 
Chuyển đổi từ PLS 
Điều quan trọng là bạn có thể dễ dàng chuyển ngược lại từ định dạng PLS sang một flat-file. Mã 
trong Liệt kê 7 giả định rằng bạn có từ vựng của mình được lưu trong một tệp có định dạng PLS 
và dự án nhận dạng tiếng nói của bạn chỉ có thể sử dụng một flat-file hoặc theo định dạng HTK 
hoặc theo định dạng Sphinx của CMU. 
Liệt kê 7. Chuyển đổi từ PLS 
from elementtree.ElementTree import parse 
import string as str 
import sys 
# 
# call with 
# python pls2flat.py x-htk-voxforge > mylexicon 
# or 
# python pls2flat.py x-cmusphinx > mylexicon.dic 
# 
if len(sys.argv) > 1: 
 alpha = sys.argv[1] 
# 
if alpha == "x-htk-voxforge": 
 tree = parse("mylexvox.pls") 
else: 
 tree = parse("mylexspx.pls") 
lexicon = tree.getroot() 
for lexeme in lexicon: 
 for child in lexeme: 
 #print child.tag 
 if child.tag[-8:] == 'grapheme': 
 if alpha == 'x-htk-voxforge': 
 gr = str.upper(child.text) 
 print gr,"\t","["+gr+"]","\t", 
 else: 
 gr = child.text 
 print gr,"\t", 
 if child.tag[-7:] == 'phoneme': 
 if child.get('alphabet') == alpha: 
 print child.text 
Kịch bản lệnh ngắn này sử dụng thư viện elementtree để phân tích cú pháp tệp XML của PLS. 
Nó thiết lập phần tử gốc và sau đó lặp lại qua các phần tử con lexeme, tìm kiếm grapheme và 
phoneme và ghi các giá trị vào một tệp văn bản theo định dạng thích hợp. Kịch bản lệnh yêu cầu 
8 ký tự cuối cùng trong thẻ dùng cho grapheme do sẽ có một tiền tố vùng tên được trả về với thẻ. 
Nó tạo lại định dạng ba trường cho HTK và hai trường cho Sphinx của CMU. 
Về đầu trang 
Việc hợp nhất và xử lý Unicode 
Kịch bản lệnh trong Liệt kê 8 sử dụng hai tệp PLS để tạo ra một tệp PLS chung có chứa thông tin 
cho cả hai tệp ban đầu. Nó cũng chuyển dịch chuỗi phoneme của VoxForge sang Unicode và lưu 
trữ phiên bản Unicode trong một phần tử phoneme riêng biệt được xác định bằng thuộc tính 
alphabet="ipa". 
Liệt kê 8. Việc hợp nhất và Unicode 
#! /usr/bin/python -u 
# -*- coding: utf-8 -*- 
# 
# challenge is to merge two pls files 
# given two pls files, merge them into one 
# 
import elementtree.ElementTree as ET 
from elementtree.ElementTree import parse 
import string as str 
import codecs 
import cgi 
# 
treevox = ET.parse("mylexvox.pls") 
treespx = ET.parse("mylexspx.pls") 
# 
lexvox = treevox.getroot() 
lexspx = treespx.getroot() 
# 
phons = { 'aa':u'ɑ','ae':u'æ','ah':u'ʌ','ao':u'ɔ','ar':u'ɛr','aw':u'aʊ', 
'ax':u'ə','ay':u'aɪ','b':u'b','ch':u'tʃ','d':u'd','dh':u'ð','eh':u'ɛ', 
'el':u'ɔl','en':u'ɑn','er':u'ər','ey':u'eɪ','f':u'f', 
'g':u'ɡ','hh':u'h','ih':u'ɪ','ir':u'ɪr','iy':u'i','jh':u'dʒ','k':u'k','l':u'l
', 
'm':u'm','n':u'n','ng':u'ŋ','ow':u'oʊ','oy':u'ɔɪ','p':u'p','r':u'r','s':u's', 
'sh':u'ʃ','t':u't','th':u'θ','uh':u'ʊ','ur':u'ʊr','uw':u'u','v':u'v', 
'w':u'w','y':u'j','z':u'z','zh':u'ʒ','sil':'' } 
# 
def to_utf(s): 
 myp = str.split(s) 
 myipa = [] 
 for p in myp: 
 myipa.append(phons[p]) 
 return str.join(myipa,'') 
# 
outfile = "my2lexmrg.pls" 
out = codecs.open(outfile, encoding='utf-8', mode='w') 
# 
out.write('\n\ 
<lexicon version="1.0"\n \ 
 xmlns=""\n\ 
 xmlns:xsi=""\n \ 
 xsi:schemaLocation=" \ 
20071212/pls.xsd"\n\ 
 alphabet="ipa" xml:lang="en">') 
# 
# scan the two pls, create dictionary 
voxdict = {} 
for lexeme in lexvox: 
 gr = str.lower(lexeme[0].text) 
 ph = lexeme[1].text 
 voxdict[gr] = {ph,} 
# 
for lexeme in lexspx: 
 gr = lexeme[0].text 
 ph = lexeme[1].text 
 if gr in voxdict: 
 voxdict[gr].add(ph) 
 else: 
 voxdict[gr] = {ph,} 
# 
for gr in sorted(voxdict.iterkeys()): 
 out.write('\n\ 
 \n\ 
 '+cgi.escape(gr)+'') 
 #print "%s: %s" % (key, voxdict[key]) 
 for ph in sorted(voxdict[gr]): 
 alph = 'x-htk-voxforge' if ph.islower() else 'x-cmusphinx' 
 out.write('\n\ 
 '+ph+'') 
 if ph.islower(): 
 phipa = to_utf(ph) 
 out.write(u'\n\ 
 '+phipa+'') 
 out.write('\n\ 
 ') 
# done, close files 
out.write('\n') 
out.close() 
# now check the output is ok 
tree = parse(outfile) 
lexicon = tree.getroot() 
mylexcount = 0 
for lexeme in lexicon: 
 mylexcount += 1 
print 'Found %(number)d lexemes' % {"number":mylexcount} 
Bạn bắt đầu bằng một biểu thức không chính thức (hashban) (#!) tiếp theo là một bộ chỉ số đặc 
biệt cho trình thông dịch Python, trên dòng thứ hai, mã này chứa các ký tự Unicode. Sau đó kịch 
bản lệnh nhập khẩu một số mô đun, gồm có elementtree, codecs và cgi, rất có ích khi xử lý 
Unicode. Bạn nói cho trình thông dịch biết hai tệp PLS nằm ở đâu và trỏ tới các phần tử gốc của 
chúng. 
Biến phons lưu một từ điển đặc biệt có chứa một ánh xạ từ các mã Arpabet của CMU đến một tổ 
hợp Unicode tương đương. Từ điển này dịch các chuỗi phoneme hiện có sang một phiên bản 
Unicode. Xin cứ tự nhiên sửa đổi ánh xạ cho các mục đích riêng của bạn—ví dụ, bạn có thể cảm 
thấy rằng chữ tương đương với 'aa' trong Unicode là u'ɑ:', có một âm a kéo dài. 
Chỉ có một hàm được định nghĩa là to_utf(), hàm này dịch một chuỗi Arpabet ASCII sang 
Unicode. Phần cuối cùng của nền tảng sẽ mở một tệp để lưu kết quả đầu ra, bảo đảm rằng tệp 
này biết rằng nó phải sẵn sàng chấp nhận Unicode và viết đoạn mở đầu PLS vào nó. 
Bây giờ bạn đã sẵn sàng để xử lý các tệp bằng cách tạo ra hai từ điển Python đặc biệt bên trong, 
một từ điển từ một trong các tệp PLS, bằng cách quét chúng với thư viện elementtree. Người ta 
giả định rằng grapheme sẽ là phần tử con đầu tiên và phoneme là phần tử con thứ hai của từ vị. 
Kịch bản lệnh thêm tất cả các bản ghi từ tệp đầu tiên vào một từ điển hợp nhất mới. Khi quét tệp 
thứ hai, nếu khóa đã tồn tại trong từ điển hợp nhất mới thì bạn thêm vào tập hợp các âm vị của 
nó. Nếu không, bạn tạo một mục khóa mới trong từ điển hợp nhất. Ở cuối vòng lặp, từ điển hợp 
nhất mới có chứa các khóa từ cả hai các tệp ban đầu và một tập hợp kèm theo của một hoặc hai 
chuỗi phoneme. 
Ghi tệp PLS mới từ việc hợp nhất mà bạn vừa tạo ra. Khi bạn quét qua từ điển, bạn thêm thuộc 
tính alphabet để phân biệt một phoneme này với phoneme khác. Khi đã ghi lại các âm vị hiện 
có, bạn tạo ra một chuỗi phoneme mới, là tương đương Unicode của chuỗi Arpabet của CMU, mà 
bạn có thể nhận được nó từ phiên bản HTK hoặc phiên bản Sphinx (hoặc cả hai) theo nhu cầu 
của bạn. 
Cuối cùng, đóng phần tử gốc, đóng tệp và phân tích lại cú pháp nó như bạn đã làm trước đây để 
kiểm tra xem nó có đúng định dạng không. 
Kết quả sẽ tương tự như Liệt kê 9. 
Liệt kê 9. Các kết quả hợp nhất 
... 
 agenda 
 AH JH EH N D AH 
 ax jh eh n d ax 
 ədʒɛndə 
 agendas 
 AH JH EH N D AH Z 
 agent 
 EY JH AH N T 
 ey jh ih n t 
 eɪdʒɪnt 
 agent's 
 EY JH AH N T S 
... 
Với từ điển PLS hợp nhất, bạn có thể áp dụng XSL (Extensible Stylesheet Language - Ngôn ngữ 
bản định kiểu mở rộng) hoặc bất kỳ thủ tục khác nào để tạo ra các kết quả mà bạn cần, cho dù là 
flat-file hay một tệp PLS đặc trưng mới. Về lý thuyết, bạn cũng có thể lưu các chuỗi phoneme 
khác trong tệp này, thậm chí từ các ngôn ngữ khác. Tuy nhiên, đó là một cách sử dụng đặc tả 
PLS không chuẩn. 
Kai Schott đã làm rất nhiều việc với PLS và có một số tệp đã được chuẩn bị để tải về dưới dạng 
các ngôn ngữ khác nhau, đặc biệt là tiếng Đức (xem phần Tài nguyên). 
Về đầu trang 
Các vấn đề chưa được giải quyết 
Mặc dù bạn có thể nhận được rất nhiều thông tin từ các flat-file, các vấn đề sau đây vẫn chưa 
được giải quyết. 
Lựa chọn từ nhiều chữ cái đặc trưng cho một âm vị 
Thỉnh thoảng, bạn cần xử lý nhiều cách viết chính tả cho một từ trong cùng một ngôn 
ngữ. Vai trò và âm vị giống hệt nhau cho cả hai phép chính tả, vì vậy bạn có nhiều chữ 
cái đặc trưng cho một âm vị trong cùng một từ vị. Tuy nhiên, không có gì trong PLS cho 
phép bạn thêm một thuộc tính cho phần tử grapheme như có với các thuộc tính alphabet 
của phần tử phoneme. 
Các từ viết tắt 
Các từ vựng thường chứa các từ viết tắt. PLS xử lý các từ vi