Chương 1. Gidi thiệu dé tài Vũ Chiến Thăng — E17CNI 9 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết CHUONG 2. CO SO LY THUYET 2.1 Hoc may LSTM 2.1 Kiến trúc RNN (Recurrent Neural Network) RNN - Recurrent neural network (mạng nơ-ron hôi quy), là một lớp của mạng nơ- ron, cho phép các đầu ra trước đó được dùng như đầu cho các tầng ân kế tiếp của mô hình.
Kiến trúc RNN được minh hoạ như sau: <1 S2 ys? ysttl> t t a<t-1> a t qSt> [|] t qŠt†1> si -_ 5- ` — — sài t t t t zS<l> x<%> ast? Hình 2.1 Kién triic RNN ¢ Ham lan truyén xudi (forward propagation): Sau mỗi bước t, giá trị kích hoạt a < va dau ra y<> “°° tinh như sau: a<t> = g1(Waaa<t-1> + Waxx<t> + ba) Y<t> = g2(Wyaa<t> + by) Trong đó: - xếP là giá trị đầu vào - g1 va g2 la cac ham kich hoat - Waa, Wax, Way, ba và by la cac siéu bién (hyper parameters) Hình 2.2 Chỉ tiết trong 6 nhoé (memory cell) « Ham mat mat (loss function): Ham mat mat L cua ca qua trinh được tính dựa trên sự mất mát tại mỗi thời điểm Hàm mất mát tại thời điểm t: LY, y) = — ys log log (ys) — (1 — y<'*) log log (1 — ys) Vii Chién Thang — E17CN1 10 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Ham mat mat cua cả quá trình: Ty es y)= » ¡(0*, y<t>) t=0 Trong đó: - Ty là độ đài của chuỗi đầu ra ¢ Ham lan truyền ngược (back propagation): Tại mỗi thời điểm T, đạo hàm của hàm mất mát L với ma trận trọng số W được tính như sau: 8LŒ) T 8LŒ) ——0W=} _— 0W |() t=1 Các mô hình của kiên trúc RNN: I. Many-to-many (nhiêu nhiêu) Với Tx= Ty: độ dài của chuôi đâu vào băng với độ dài của chuôi đâu ra. Mô hình được dùng đề giải quyết bài toán Named-entity recognition (nhận dạng tên thực thể) 01 ge? | ộ „1ˆ te „<0> |.
i - 5 † Za t eA: „<2> gels Hình 2.3 M6 hinh many-to-many 2. Many-to-one (nhiều một) Với Tx>l1, Ty= I1: độ dài của chuỗi đầu vào băng lớn hơn I, độ dài của chuỗi đầu ra băng 1. Mô hình được dùng để giải quyết bài toán Sentiment classification (phân loại cảm xúc) Hình 2.4 Mô hình many-to-one 3. One-to-many (một một) Vii Chién Thang — E17CN1 11 Đồ án tốt nghiệp đại học Chương 2.
Cơ sở lý thuyết Với Tx =1, Ty> I: độ dài của chuôi đâu vào băng I1, độ dài của chuôi đâu ra lớn hơn 1. Mô hình được dùng để giải quyết bài toán Music generation (tạo âm nhạc) bench 0^'*x 9 ^2<2> nT yy > Hinh 2.5 Mo hinh one-to-many 4. One-to-one (mot nhiéu) Với Tx= Ty= I: độ dài của chuỗi đầu vào băng độ dài của chuỗi đâu ra và băng 1. Mô hình được dùng đề giải quyết bài toán Binary classification (phan loai nhi phan) Hình 2.6 Mô hình one-to-one 5.
Many-to-many (nhiêu nhiêu) Với Tx # Ty: độ dài của chuôi đầu vào khác với độ dài của chuối đâu ra. Mô hình duoc ding dé gidi quyét bai toan Machine translation (dich may) go? 0*1x> Ị Ị S%Á7-4<-¬-.7 Mo hinh many-to-many 2.2 Biéu dién tir trong m6 hinh (Word representation) Biểu diễn từ trong xử lý ngôn ngữ tự nhiên (NLP) là một phần cơ bản trong việc xây dựng các khối (block) trong mô hình. Việc này có ảnh hưởng đáng kề tới hiệu năng của mô hình học sâu. Y tưởng của đê xuât này là sẽ biêu diễn môi từ trong đoạn văn bản Vii Chién Thang — E17CN1 12 Đồ án tốt nghiệp đại học Chương 2.
Cơ sở lý thuyết đầu vào thành một vector, các vector này có độ dài bằng nhau. Sau đây là các phương pháp cụ thể: 2. One-hot encoding Ý tưởng chính của phương pháp này là tạo một vector bao gồm các giá trị 0 và duy nhất một gia tril. Cụ thể, đối với một từ khi được biểu diễn bằng vector, chỉ cột tương ứng với chỉ số của từ đó trong từ điền có giá trị bằng 1, còn lại là bằng 0.
Khi đó, vector có kích cỡ là Ix(N+T1), trong đó N là kích cỡ của vector và thêm giá trị 1 là cho những từ nằm ngoài từ điển. Hãy xem ví dụ sau: Ta có bộ từ điền tiếng Anh sau: V =[a, aaron, ., zulu, <UNK>] , |V| = 10000 Trong do: - <UNK>: unknown word (tit khéng co trong ttr dién) - IVỊ: độ dài của từ điển Str dung tir dién V dé biéu dién cac tir sau: Man, Woman, King, Queen, Apple, Orange thành các vector. Thu được kết quả như sau: Man Woman King Queen Apple Orange (5391) (9853) (4914) (7157) (456) (6257)| 0 07 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 0 0 _ 0.8 Vi du cho One-hot encoding Các vector có kích cỡ là [VỊ + 1 = 10001. Ví dụ vector biểu diễ từ Man có duy nhất một có gái trị một, vị trí của cột này là vị trí của từ Man trong từ điển V là 5391.
Nhược điểm có thê thấy của phương pháp này là vector của từ không có các đặc trưng về ngữ nghĩa đề phân biệt với các từ khác và đề đạt hiệu quả yêu cầu từ điển phải có kích cỡ lớn dẫn đến đòi hỏi bộ nhớ lớn dé tính toán. Word embedding Ý tưởng chính của phương pháp này là biểu diễn các từ dưới dạng các vector đặc trưng. Mỗi thành phân trong vector là một đặc trưng được ân bên trong nghĩa của từ. Chúng có thể tiết lộ ngữ nghĩa hoặc ngữ nghĩa của từ.
Trong ví dụ đưới đây là vector đặc trưng của các từ: Vii Chién Thang — E17CN1 13 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Man Woman King Queen Apple Orange (5391) (9853) (4914) (7157) (456) (6257) Gender -1 1 -0.9 Vi du cho Word embedding Cac tr Man, Woman, King, Queen, Apple, Orange duoc biéu dién thành các vector có các đặc trưng: Gender (giới tính), Royal (hoàng tộc), Age (tuổi) và Food (thực phẩm). Quan sát có thê thấy đặc trưng Royal của từ King và Queen có giá trị gần nhau, trong khi đó đặc trưng Food của hai từ Apple và Orange có giá trị gần nhau. Rõ rang van đề ngữ nghĩa của từ được giải quyết với phương pháp Word embedding hiểu quả hơn hăn với phương pháp One-hot encoding 2.
Bai todn King Queen Man Woman Bài toán này chứng minh sự khác biệt giữa từ King với Queen tương đồng với sự khác biệt giữa từ Man với Woman trong không gian vector. Có thể biêu diễn bằng công thức sau: €king ~ €queen ~ C€man ~ €woman Trong đó: e là vector biêu diễn từ ^ Male-Female Hình 2.10 Biểu diễn trong không gian vector Trong không gian vector, công thức cô-sin dùng đề so sánh sự tương đồng giữa hai vector (Cosine similarity): Vii Chién Thang — E17CN1 14 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết d »v Hình 2.11 Biểu diễn hai vector u và v trong không gian vector * Uv sin sin(u.v) = ———— (= cos (®)) [|u| ]* Iv] | Với giá trị hàm cô-sin càng lớn chứng tỏ hai vector càng tương đồng. Word2Vec Word2Vec là thư viện được sử dụng rộng rãi cho việc biêu diễn từ, có thể kề đến mô hình Skip-Gram trong thư viện này.
Word2Vec được tạo bởi đội ngũ được dẫn dắt bởi Tomas Mikolov tại Google. Chúng ta có thê huấn luyện Word2Vec trên tập dữ liệu của mình hoặc tải bộ vector đã được huấn luyện rôi. Hiện nay, Google đã công khai bộ vector này trên Google News dataset. Bộ này bao gồm khoảng 3 triệu từ và cụm từ được biểu diễn thành các vector 300 chiềuNgoài ra, còn có thư viện GloVe cũng được dùng phố biến hiện nay.3 M6 hinh LSTM (Long-short term memory) Mô hình LSTM kế thừa từ kiến trúc RNN, nhưng có cải tiến về câu trúc trong các 6 nhé (memory cell), giúp cho việc ghi nhớ giữa các từ ở khoảng cách xa trong văn bản tốt hơn băng việc bồ sung thêm forget gate, update gate.
Hình vẽ dưới đây minh hoạ cho điều này: <t> y a<t> † cSt-1> >@ &: c | awt-1> | Hình 2.12 Ô nhớ (memory cell) trong LSTM Vii Chién Thang — E17CN1 15 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Trong đó: KT” =5 taánh (W,[a!?,x'?] + bạ) r= oO (M„[aS!~1>,x1?| + bụ) ry Ơ (W;[aS“~1*,xS>] + br) I, = 0 (W,[as!7, x5] + bo) <t> <t-1> = Ty * cS? + Tp & | C as? = I, * tanh (c<!*) Trong đó: laham sigmoid: s(x)= 4 _ =0 1+ e-x ° - Ty Tp Po lần lượt là dau ra cua update gate, forget gate va output gate Mô hình LSTM tổng quát như sau: <1> c<0> —†+»+@—>+>øœ i-—> col? PO I | peer | x1? “trrrl^ “trrrj<= x<2> x<3> Hình 2.13 Mô hình LSTM 2.2 Hoc may BERT 2.1 Giới thiệu về BERT BERT dugc coi la state-of-the-art framework cho xử lý ngôn ngữ tự nhiên (NLP). BERT là viết tắt của Bidirectional Encoder Representations from Transformers (biểu diễn bộ mã hoá hai chiều từ kiến trúc Transformer). BERT đã được thiết kế huấn luyện trước trên các văn bản chưa được gán nhãn, bằng cách kết hợp ngữ cảnh từ hai bên trái và phải trong quá trình huấn luyện.
Cụ thé, BERT da được huấn luyện trước trên một tap dữ liêu lớn chưa được gắn nhãn bao gồm toàn bộ dữ liệu trên Wikipedia (khoảng 2500 triệu từ) và kho bản từ sách (khoảng 800 triệu từ). Kết quả là, mô hình pre-trained BERT (đã được huấn luyện) chỉ cần tinh chỉnh thêm một tầng đầu ra đề giải quyết các yêu cầu của bài toán NLP. BERT dựa trên kiến trúc Transformers, kiến trúc này được trình bày ở phân sau. BERT là một mô hình “deeply bidirectional”, điều này nghĩa là mô hình học những thông tin từ hai bên trái và phải của ngữ cảnh trong văn bản trong giai đoạn huấn luyện.
Tính hai chiều của mô hình rất trọng cho việc hiểu được sâu sắc ý nghĩa từ. Cùng xem ví dụ minh hoạ dưới đây, hai câu cùng chứa từ “bank” nhưng ý nghĩa lại hoàn toàn khác nhau: Vii Chién Thang — E17CN1 16 Đồ án tốt nghiệp đại học Chương 2. Cơ sở lý thuyết Context J | \ We went fo the niver an, T need to go to bank to make a deposi.14 Vi du minh hoa cho bidirectional Nếu chỉ dùng một bên ngữ cảnh trái hoặc phải trong câu để dự đoán nghĩa của từ “bank” thì không chính xác. Trong câu thứ nhất, từ “bank” có nghĩa là bờ sông, ở câu thứ hai, từ bank có nghĩa là ngân hàng.
Ý nghĩa của từ “bank” phụ thuộc vào các từ xung quang nó, cả bên trái và phải. Và đó chính xác là những gì BERT đã làm.