Sắp xếp được xem là một trong những lĩnh vực nghiên cứu cổ điển của khoa học
máy tính. Trước khi đi vào các thuật toán chi tiết chúng ta cần nắm vững một số khái niệm
cơ bản sau:
· Một trường (field) là một đơn vị dữ liệu nào đó chẳng hạn như tên, tuổi,số điện
thoại củamột người .
· Một bản ghi (record) làmột tập hợp các trường
· Một file làmột tậphợp các bản ghi
63 trang |
Chia sẻ: lylyngoc | Lượt xem: 2026 | Lượt tải: 2
Bạn đang xem trước 20 trang tài liệu Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 19 -
Chương 3: Sắp xếp (Sorting)
1. Bài toán sắp xếp
Sắp xếp được xem là một trong những lĩnh vực nghiên cứu cổ điển của khoa học
máy tính. Trước khi đi vào các thuật toán chi tiết chúng ta cần nắm vững một số khái niệm
cơ bản sau:
· Một trường (field) là một đơn vị dữ liệu nào đó chẳng hạn như tên, tuổi, số điện
thoại của một người ...
· Một bản ghi (record) là một tập hợp các trường
· Một file là một tập hợp các bản ghi
Sắp xếp (sorting) là một quá trình xếp đặt các bản ghi của một file theo một thứ tự
nào đó. Việc xếp đặt này được thực hiện dựa trên một hay nhiều trường nào đó, và các
thông tin này được gọi là khóa xắp xếp (key). Thứ tự của các bản ghi được xác định dựa
trên các khóa khác nhau và việc sắp xếp đối được thực hiện đối với mỗi khóa theo các thứ
tự khác nhau. Chúng ta sẽ tập trung vào các thuật toán xắp xếp và giả sử khóa chỉ gồm 1
trường duy nhất. Hầu hết các thuật toán xắp xếp được gọi là các thuật toán xắp xếp so
sánh: chúng sử dụng hai thao tác cơ bản là so sánh và đổi chỗ (swap) các phần tử cần sắp
xếp.
Các bài toán sắp xếp đơn giản được chia làm hai dạng.
Sắp xếp trong (internal sorting): Dữ liệu cần sắp xếp được lưu đầy đủ trong bộ nhớ
trong để thực hiện thuật toán sắp xếp.
Sắp xếp ngoài (external sorting): Dữ liệu cần sắp xếp có kích thước quá lớn và
không thể lưu vào bộ nhớ trong để sắp xếp, các thao tác truy cập dữ liệu cũng mất nhiều
thời gian hơn.
Trong phạm vi của môn học này chúng ta chỉ xem xét các thuật toán sắp xếp trong.
Cụ thể dữ liệu sắp xếp sẽ là một mảng các bản ghi (gồm hai trường chính là trường dữ liệu
và trường khóa), và để tập trung vào các thuật toán chúng ta chỉ xem xét các trường khóa
của các bản ghi này, các ví dụ minh họa và cài đặt đều được thực hiện trên các mảng số
nguyên, coi như là trường khóa của các bản ghi.
2. Sắp xếp gián tiếp
Khi các bản ghi có kích thước lớn việc hoán đổi các bản ghi là rất tốn kém, khi đó để
giảm chi phí người ta có thể sử dụng các phương pháp sắp xếp gián tiếp. Việc này có thể
được thực hiện theo nhiều cách khác nhau và môt trong những phương pháp đó là tạo ra
một file mới chứa các trường khóa của file ban đầu, hoặc con trỏ tới hoặc là chỉ số của các
bản ghi ban đầu. Chúng ta sẽ sắp xếp trên file mới này với các bản ghi có kích thước nhỏ và
sau đó truy cập vào các bản ghi trong file ban đầu thông qua các con trỏ hoặc chỉ số (đây là
cách làm thường thấy đối với các hệ quản trị cơ sở dữ liệu).
Ví dụ: chúng ta muốn sắp xếp các bản ghi của file sau đây:
Index Dept Last First Age ID number
1 123 Smith Jon 3 234-45-4586
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 20 -
2 23 Wilson Pete 4 345-65-0697
3 2 Charles Philip 9 508-45-6859
4 45 Shilst Greg 8 234-45-5784
Sau khi sắp xếp xong để truy cập vào các bản ghi theo thứ tự đã sắp xếp chúng ta
sử dụng thứ tự được cung cấp bởi cột index (chỉ số). Trong trường hợp này là 3, 2, 4, 1.
(chúng ta không nhất thiết phải hoán đổi các bản ghi ban đầu).
3. Các tiêu chuẩn đánh giá một thuật toán sắp xếp
Các thuật toán sắp xếp có thể được so sánh với nhau dựa trên các yếu tố sau đây:
· Thời gian thực hiện (run-time): số các thao tác thực hiện (thường là số các phép
so sánh và hoán đổi các bản ghi).
· Bộ nhớ sử dụng (Memory): là dung lượng bộ nhớ cần thiết để thực hiện thuật
toán ngoài dung lượng bộ nhớ sử dụng để chứa dữ liệu cần sắp xếp.
o Một vài thuật toán thuộc loại “in place” và không cần (hoặc cần một số cố
định) thêm bộ nhớ cho việc thực hiện thuật toán.
o Các thuật toán khác thường sử dụng thêm bộ nhớ tỉ lệ thuận theo hàm
tuyến tính hoặc hàm mũ với kích thước file sắp xếp.
o Tất nhiên là bộ nhớ sử dụng càng nhỏ càng tốt mặc dù việc cân đối giữa
thời gian và bộ nhớ cần thiết có thể là có lợi.
· Sự ổn định (Stability):Một thuật toán được gọi là ổn định nếu như nó có thể giữ
được quan hệ thứ tự của các khóa bằng nhau (không làm thay đổi thứ tự của các
khóa bằng nhau).
Chúng ta thường lo lắng nhiều nhất là về thời gian thực hiện của thuật toán vì các
thuật toán mà chúng ta bàn về thường sử dụng kích thước bộ nhớ tương đương nhau.
Ví dụ về sắp xếp ổn định: Chúng ta muốn sắp xếp file sau đây dự trên ký tự đầu của
các bản ghi và dưới đây là kết quả sắp xếp của các thuật toán ổn định và không ổn định:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 21 -
Chúng ta sẽ xem xét tại sao tính ổn định trong các thuật toán sắp xếp lại được đánh
giá quan trọng như vậy.
4. Các phương pháp sắp xếp cơ bản
4.1. Sắp xếp chọn (Selection sort)
Mô tả thuật toán:
Tìm phần tử có khóa lớn nhất (nhỏ nhất), đặt nó vào đúng vị trí và sau đó sắp xếp
phần còn lại của mảng.
Sơ đồ thuật toán:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 22 -
Đoạn mã sau minh họa cho thuật toán:
void selection_sort(int a[], int n)
{
int i, j, vtmin;
for(i=0; i<n-1;i++)
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 23 -
{
vtmin = i; //biến vtmin lưu vị trí phần tử nhỏ nhất a[i..n-1]
for(j=i+1;j<n;j++)
if(a[j] < a[vtmin])
vtmin = j;
swap(a[vtmin], a[i]); // hàm đổi chỗ a[vtmin], a[i]
}
}
Ví dụ:
Với mỗi giá trị của i thuật toán thực hiện (n – i – 1) phép so sánh và vì i chạy từ 0 cho
tới (n–2), thuật toán sẽ cần (n-1) + (n-2) + … + 1 = n(n-1)/2 tức là O(n2) phép so sánh.
Trong mọi trường hợp số lần so sánh của thuật toán là không đổi. Mỗi lần chạy của vòng lặp
đối với biến i, có thể có nhiều nhất một lần đổi chỗ hai phần tử nên số lần đổi chỗ nhiều nhất
của thuật toán là n. Như vậy trong trường hợp tốt nhất, thuật toán cần 0 lần đổi chỗ, trung
bình cần n/2 lần đổi chỗ và tồi nhất cần n lần đổi chỗ.
4.2. Sắp xếp đổi chỗ trực tiếp (Exchange sort)
Tương tự như thuật toán sắp xếp bằng chọn và rất dễ cài đặt (thường bị nhầm với
thuật toán sắp xếp chèn) là thuật toán sắp xếp bằng đổi chỗ trực tiếp (một số tài liệu còn gọi
là thuật toán Interchange sort hay Straight Selection Sort).
Mô tả: Bắt đầu xét từ phần tử đầu tiên a[i] với i = 0, ta xét tất cả các phần tử đứng
sau a[i], gọi là a[j] với j chạy từ i+1 tới n-1 (vị trí cuối cùng). Với mỗi cặp a[i], a[j] đó, để ý là
a[j] là phần tử đứng sau a[i], nếu a[j] < a[i], tức là xảy ra sai khác về vị trí thì ta sẽ đổi chỗ
a[i], a[j].
Ví dụ minh họa: Giả sử mảng ban đầu là int a[] = {2, 6, 1, 19, 3, 12}. Các bước của
thuật toán sẽ được thực hiện như sau:
i=0, j=2: 1, 6, 2, 19, 3, 12
i=1, j=2: 1, 2, 6, 19, 3, 12
i=2, j=4: 1, 2, 3, 19, 6, 12
i=3, j=4: 1, 2, 3, 6, 19, 12
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 24 -
i=4, j=5: 1, 2, 3, 6, 12, 19
Kết quả cuối cùng: 1, 2, 3, 6, 12, 19.
Sơ đồ thuật toán:
Cài đặt của thuật toán:
void exchange_sort(int a[], int n)
{
int i, j;
int tam;
for(i=0; i<n-1;i++)
for(j=i+1;j<n;j++)
if(a[j] < a[i])
{
// đổi chỗ a[i], a[j]
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 25 -
tam = a[i];
a[i] = a[j];
a[j] = tam;
}
}
Độ phức tạp của thuật toán: Có thể thấy rằng so với thuật toán sắp xếp chọn, thuật
toán sắp xếp bằng đổi chỗ trực tiếp cần số bước so sánh tương đương: tức là n*(n-1)/2 lần
so sánh. Nhưng số bước đổi chỗ hai phần tử cũng bằng với số lần so sánh: n*(n-1)/2. Trong
trường hợp xấu nhất số bước đổi chỗ của thuật toán bằng với số lần so sánh, trong trường
hợp trung bình số bước đổi chỗ là n*(n-1)/4. Còn trong trường hợp tốt nhất, số bước đổi chỗ
bằng 0. Như vậy thuật toán sắp xếp đổi chỗ trực tiếp nói chung là chậm hơn nhiều so với
thuật toán sắp xếp chọn do số lần đổi chỗ nhiều hơn.
4.3. Sắp xếp chèn (Insertion sort)
Mô tả thuật toán:
Thuật toán dựa vào thao tác chính là chèn mỗi khóa vào một dãy con đã được sắp
xếp của dãy cần sắp. Phương pháp này thường được sử dụng trong việc sắp xếp các cây
bài trong quá trình chơi bài.
Sơ đồ giải thuật của thuật toán như sau:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 26 -
Có thể mô tả thuật toán bằng lời như sau: ban đầu ta coi như mảng a[0..i-1] (gồm i
phần tử, trong trường hợp đầu tiên i = 1) là đã được sắp, tại bước thứ i của thuật toán, ta sẽ
tiến hành chèn a[i] vào mảng a[0..i-1] sao cho sau khi chèn, các phần tử vẫn tuân theo thứ
tự tăng dần. Bước tiếp theo sẽ chèn a[i+1] vào mảng a[0..i] một cách tương tự. Thuật toán
cứ thế tiến hành cho tới khi hết mảng (chèn a[n-1] vào mảng a[0..n-2]). Để tiến hành chèn
a[i] vào mảng a[0..i-1], ta dùng một biến tạm lưu a[i], sau đó dùng một biến chỉ số j = i-1, dò
từ vị trí j cho tới đầu mảng, nếu a[j] > tam thì sẽ copy a[j] vào a[j+1], có nghĩa là lùi mảng lại
một vị trí để chèn tam vào mảng. Vòng lặp sẽ kết thúc nếu a[j] < tam hoặc j = -1, khi đó ta
gán a[j+1] = tam.
Đoạn mã chương trình như sau:
void insertion_sort(int a[], int n)
{
int i, j, temp;
for(i=1;i<n;i++)
{
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 27 -
int j = i;
temp = a[i];
while(j>0 && temp < a[j-1])
{
a[j] = a[j-1];
j = j-1;
}
a[j] = temp;
}
}
Ví dụ:
Thuật toán sắp xếp chèn là một thuật toán sắp xếp ổn định (stable) và là thuật toán
nhanh nhất trong số các thuật toán sắp xếp cơ bản.
Với mỗi i chúng ta cần thực hiện so sánh khóa hiên tại (a[i]) với nhiều nhất là i khóa
và vì i chạy từ 1 tới n-1 nên chúng ta phải thực hiện nhiều nhất: 1 + 2 + … + n-1 = n(n-1)/2
tức là O(n2) phép so sánh tương tự như thuật toán sắp xếp chọn. Tuy nhiên vòng lặp while
không phải lúc nào cũng được thực hiện và nếu thực hiện thì cũng không nhất định là lặp i
lần nên trên thực tế thuật toán sắp xếp chèn nhanh hơn so với thuật toán sắp xếp chọn.
Trong trường hợp tốt nhất, thuật toán chỉ cần sử dụng đúng n lần so sánh và 0 lần đổi chỗ.
Trên thực tế một mảng bất kỳ gồm nhiều mảng con đã được sắp nên thuật toán chèn hoạt
động khá hiệu quả. Thuật toán sắp xếp chèn là thuật toán nhanh nhất trong các thuật toán
sắp xếp cơ bản (đều có độ phức tạp O(n2)).
4.4. Sắp xếp nổi bọt (Bubble sort)
Mô tả thuật toán:
Thuật toán sắp xếp nổi bọt dựa trên việc so sánh và đổi chỗ hai phần tử ở kề nhau:
· Duyệt qua danh sách các bản ghi cần sắp theo thứ tự, đổi chổ hai phần tử ở
kề nhau nếu chúng không theo thứ tự.
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 28 -
· Lặp lại điều này cho tới khi không có hai bản ghi nào sai thứ tự.
Không khó để thấy rằng n pha thực hiện là đủ cho việc thực hiện xong thuật toán.
Thuật toán này cũng tương tự như thuật toán sắp xếp chọn ngoại trừ việc có thêm
nhiều thao tác đổi chỗ hai phần tử.
Sơ đồ thuật toán:
Cài đặt thuật toán:
void bubble_sort1(int a[], int n)
{
int i, j;
for(i=n-1;i>=0;i--)
for(j=1;j<=i;j++)
if(a[j-1]>a[j])
swap(a[j-1],a[j]);
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 29 -
}
void bubble_sort2(int a[], int n)
{
int i, j;
for(i=0;i<n;i++)
for(j=n-1;j>i;j--)
if(a[j-1]>a[j])
swap(a[j-1],a[j]);
}
Thuật toán có độ phức tạp là O(N*(N-1)/2) = O(N2), bằng số lần so sánh và số lần đổi
chỗ nhiều nhất của thuật toán (trong trường hợp tồi nhất). Thuật toán sắp xếp nổi bọt là
thuật toán chậm nhất trong số các thuật toán sắp xếp cơ bản, nó còn chậm hơn thuật toán
sắp xếp đổi chỗ trực tiếp mặc dù có số lần so sánh bằng nhau, nhưng do đổi chỗ hai phần
tử kề nhau nên số lần đổi chỗ nhiều hơn.
4.5. So sánh các thuật toán sắp xếp cơ bản
Sắp xếp chọn:
· Trung bình đòi hỏi n2/2 phép so sánh, n bước đổi chỗ.
· Trường hợp xấu nhất tương tự.
Sắp xếp chèn:
· Trung bình cần n2/4 phép so sánh, n2/8 bước đổi chỗ.
· Xấu nhất cần gấp đôi các bước so với trường hợp trung bình.
· Thời gian là tuyến tính đối với các file hầu như đã sắp và là thuật toán nhanh
nhất trong số các thuật toán sắp xếp cơ bản.
Sắp xếp nổi bọt:
· Trung bình cần n2/2 phép so sánh, n2/2 thao tác đổi chỗ.
· Xấu nhất cũng tương tự.
5. Các phương pháp sắp xếp nâng cao
Các thuật toán sắp xếp tốt nhất đều là các thuật toán đệ qui. Chúng đều tuân theo
chiến lược chung sau đây:
Cho một danh sách các bản ghi L.
· Nếu L có không nhiều hơn 1 phần tử thì có nghĩa là nó đã được sắp
· Ngược lại
o Chia L thành hai dãy nhỏ hơn là L1, L2
o Sắp xếp L1, L2 (đệ qui – gọi tới thủ tục này)
o Kết hợp L1 và L2 để nhận được L đã sắp
Các thuật toán sắp xếp trộn và sắp xếp nhanh đều sử dụng kỹ thuật này.
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 30 -
5.1. Sắp xếp nhanh (Quick sort)
Quick sort là thuật toán sắp xếp được C. A. R. Hoare đưa ra năm 1962.
Quick sort là một thuật toán sắp xếp dạng chia để trị với các bước thực hiện như sau:
· Selection: chọn một phần tử gọi là phần tử quay (pivot)
· Partition (phân hoạch): đặt tất cả các phần tử của mảng nhỏ hơn phần tử quay
sang bên trái phần tử quay và tất cả các phần tử lớn hơn phần tử quay sang bên
phải phần tử quay. Phần tử quay trở thành phần tử có vị trí đúng trong mảng.
· Đệ qui: gọi tới chính thủ tục sắp xếp nhanh đối với hai nửa mảng nằm 2 bên phần
tử quay
Thuật toán:
void quicksort(int *A, int l, int r)
{
if(r>l)
{
int p =partition(A, l, r);
quicksort(A, l, p -1);
quicksort(A, p+1, r);
}
}
Hàm phân hoạch partition:
· Lấy một số k: l ≤ k ≤ r.
· Đặt x = A[k] vào vị trí đúng của nó là p
· Giả sử A[j] ≤ A[p] nếu j < p
· A[j] ≥ A[p] nếu j > p
Đây không phải là cách duy nhất để định nghĩa Quicksort. Một vài phiên bản của
thuật toán quick sort không sử dụng phần tử quay thay vào đó định nghĩa các mảng con trái
và mảng con phải, và giả sử các phần tử của mảng con trái nhỏ hơn các phần tử của mảng
con phải.
Chọn lựa phần tử quay
Có rất nhiều cách khác nhau để lựa chọn phần tử quay:
· Sử dụng phần tử trái nhất để làm phần tử quay
· Sử dụng phương thức trung bình của 3 để lấy phần tử quay
· Sử dụng một phần tử ngẫu nhiên làm phần tử quay.
Sau khi chọn phần tử quay làm thế nào để đặt nó vào đúng vị trí và bảo đảm các tính
chất của phân hoạch? Có một vài cách để thực hiện điều này và chúng ta sử dụng phương
thức chọn phần tử quay là phần tử trái nhất của mảng. Các phương thức khác cũng có thể
cài đặt bằng cách sử đổi đôi chút phương thức này.
Hàm phân hoạch:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 31 -
int partition(int *A, int l, int r)
{
int p = A[l];
int i = l+1;
int j = r;
while(1){
while(A[i] ≤ p && i<r)
++i;
while(A[j] ≥ p && j>l)
--j;
if(i>=j)
{
swap(A[j], A[l]);
return j;
}else
swap(A[i], A[j]);
}
}
Để gọi tới hàm trên sắp xếp cho mảng a có n phần tử ta gọi hàm như sau:
quicksort(a, 0, n-1);
Trong thủ tục trên chúng ta chọn phần tử trái nhất của mảng làm phần tử quay,
chúng ta duyệt từ hai đầu vào giữa mảng và thực hiện đổi chỗ các phần tử sai vị trí (so với
phần tử quay).
Các phương pháp lựa chọn phần tử quay khác:
Phương pháp ngẫu nhiên:
Chúng ta chọn một phần tử ngẫu nhiên làm phần tử quay
Độ phức tạp của thuật toán khi đó không phụ thuộc vào sự phân phối của các phần
tử input
Phương pháp 3-trung bình:
Phần tử quay là phần tử được chọn trong số 3 phần tử a[l], a[(l+r)/2] hoặc a[r] gần
với trung bình cộng của 3 số nhất.
Hãy suy nghĩ về các vấn đề sau:
Sửa đổi cài đặt của thủ tục phân hoạch lựa chọn phần tử trái nhất để nhận được cài
đặt của 2 phương pháp trên
Có cách cài đặt nào tốt hơn không?
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 32 -
Có cách nào tốt hơn để chọn phần tử phân hoạch?
Các vấn đề khác:
Tính đúng đắn của thuật toán, để xem xét tính đúng đắn của thuật toán chúng ta cần
xem xét 2 yếu tố: thứ nhất do thuật toán là đệ qui vậy cần xét xem nó có dừng không, thứ
hai là khi dừng thì mảng có thực sự đã được sắp hay chưa.
Tính tối ưu của thuật toán. Điều gì sẽ xảy ra nếu như chúng ta sắp xếp các mảng con
nhỏ bằng một thuật toán khác? Nếu chúng ta bỏ qua các mảng con nhỏ? Có nghĩa là chúng
ta chỉ sử dụng quicksort đối với các mảng con lớn hơn một ngưỡng nào đó và sau đó có thể
kết thúc việc sắp xếp bằng một thuật toán khác để tăng tính hiệu quả?
Độ phức tạp của thuật toán:
Thuật toán phân hoạch có thể được thực hiện trong O(n). Chi phí cho các lời gọi tới
thủ tục phân hoạch tại bất cứ độ sâu nào theo đệ qui đều có độ phức tạp là O(n). Do đó độ
phức tạp của quicksort là độ phức tạp của thời gian phân hoạch độ sau của lời gọi đệ qui xa
nhất.
Kết quả chứng minh chặt chẽ về mặt toán học cho thấy Quick sort có độ phức tạp là
O(n*log(n)), và trong hầu hết các trường hợp Quick sort là thuật toán sắp xếp nhanh nhất,
ngoại trừ trường hợp tồi nhất, khi đó Quick sort còn chậm hơn so với Bubble sort.
5.2. Sắp xếp trộn (merge sort)
Về mặt ý tưởng thuật toán merge sort gồm các bước thực hiện như sau:
· Chia mảng cần sắp xếp thành 2 nửa
· Sắp xếp hai nửa đó một cách đệ qui bằng cách gọi tới thủ tục thực hiện chính
mergesort
· Trộn hai nửa đã được sắp để nhận được mảng được sắp.
Đoạn mã C thực hiện thuật toán Merge sort:
void mergesort(int *A, int left, int right)
{
if(left >= right)
return;
int mid = (left + right)/2;
mergesort(A, left, mid);
mergesort(A, mid+1, right);
merge(a, left, mid, right);
}
Để sắp một mảng a có n phần tử ta gọi hàm như sau: merge_sort(a, 0, n-1);
Nhưng thuật toán trộn làm việc như thế nào?
Ví dụ với 2 mảng sau:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 33 -
Thuật toán 1:
Thuật toán trộn nhận 2 mảng con đã được sắp và tạo thành một mảng được sắp.
Thuật toán 1 làm việc như sau:
· Đối với mỗi mảng con chúng ta có một con trỏ trỏ tới phần tử đầu tiên
· Đặt phần tử nhỏ hơn của các phần tử đang xét ở hai mảng vào mảng mới
· Di chuyển con trỏ của các mảng tới vị trí thích hợp
· Lặp lại các bước thực hiện trên cho tới khi mảng mới chứa hết các phần tử
của hai mảng con
Đoạn mã C++ thực hiện thuật toán trộn hai mảng A, B thành mảng C:
int p1 = 0, p2 = 0, index = 0;
int n = sizeA + sizeB;
while(index<n)
{
if(A[p1] < B[p2]){
C[index] = A[p1];
p1++;
index++;
}else{
C[index] = A[p2];
p2++;
index++;
}
}
Thuật toán 2:
Thuật toán 1 giả sử chúng ta có 3 mảng phân biệt nhưng trên thực tế chúng ta chỉ có
2 mảng hay chính xác là 2 phần của một mảng lớn sau khi trộn lại thành mảng đã sắp thì đó
cũng chính là mảng ban đầu.
Chúng ta sẽ sử dụng thêm một mảng phụ:
void merge(int *A, int l, int m, int r)
{
int *B1 = new int[m-l+1];
int *B2 = new int[r-m];
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 34 -
for(int i=0;i<m-l+1;i++)
B1[i] = a[i+l];
for(int i=0;i<r-m;i++)
B2[i] = a[i+m+l];
int b1=0,b2=0;
for(int k=l;k<=r;k++)
if(B1[b1]<B2[b2])
a[k] = B1[b1++];
else
a[k] = B2[b2++];
}
Thuật toán 3:
Thuật toán 2 có vẻ khá phù hợp so với mục đích của chúng ta, nhưng cả hai phiên
bản của thuật toán trộn trên đều có một nhược điểm chính đó là không kiểm tra các biên của
mảng. Có 3 giải pháp chúng ta có thể nghĩ tới:
· Thực hiện kiểm tra biên một cách cụ thể
· Thêm 1 phần tử lính canh vào đầu của mỗi mảng input.
· Làm gì đó thông minh hơn
Và đây là một cách để thực hiện điều đó:
void merge(int *A,int l,int m,int r)
{
int *B=new int[r-l+1];
for (i=m; i>=l; i--)
B[i-l] = A[i];
for (j=m+1; j<=r; j++)
B[j-l] = A[j];
for (k=l;k<=r;k++)
if(((B[i] < B[j])&&(i<m))||(j==r+1))
A[k]=B[i++];
else
A[k]=B[j--];
}
Để sắp xếp mảng a có n phần tử ta gọi hàm như sau:
merge_sort(a, 0, n-1);
Độ phức tạp của thuật toán sắp xếp trộn:
Bài giảng môn học: Cấu trúc Dữ liệu và Giải thuật
- 35 -
Gọi T(n) là độ phức tạp của thuật toán sắp xếp trộn. Thuật toán luôn chia mảng thành
2 nửa bằng nhau nên độ sâu đệ qui của nó luôn là O(log n). Tại mỗi bước công việc thực
hiện có độ phức tạp là O(n) do đó:
T(n) = O(n*log(n)).
Bộ nhớ cần dùng thêm là O(n), đây là một con số chấp nhận được, một trong các
đặc điể