WORD EMBEDDING LÀ GÌ

     

1. Lời mở đầu

Nếu chúng ta đã khám phá qua những bài toán về Computer Vision như object detection, classification, các bạn có thể thấy phần lớn thông tin về tài liệu trong hình ảnh đã được biểu thị hết sức chi tiết và rất đầy đủ qua những pixel. Chúng ta chỉ nên đưa qua mô hình qua các mạng như CNN và thực hiện trích xuất thông tin. Mặc dù nhiên, đối với dữ liệu ở dạng text, khi thông tin dữ liệu không chỉ là được chứa dưới dạng các pixel mà còn liên quan ngữ nghĩa giữa những từ thì làm bí quyết nào có thể biểu diễn chúng? cùng Word Embedding là trong những cách giúp bạn cũng có thể biễu diễn tài liệu dạng text một cách công dụng hơn.

Bạn đang xem: Word embedding là gì

2. Word Embedding là gì ?

Word Embedding là một không gian vector dùng để biểu diễn tài liệu có khả năng mô tả được mối liên hệ, sự tương đương về mặt ngữ nghĩa, văn cảnh(context) của dữ liệu. Không gian này bao gồm nhiều chiều và các từ trong không gian đó mà có thuộc văn cảnh hoặc ngữ nghĩa sẽ có được vị trí sát nhau. ví như ta bao gồm hai câu : "Hôm nay ăn táo " và "Hôm nay ăn uống xoài ". Lúc ta thực hiện Word Embedding, "táo" cùng "xoài" sẽ sở hữu vị trí ngay sát nhau trong ko gian bọn họ biễu diễn bởi vì chúng bao gồm vị trị tương đương nhau trong một câu .

3. Tại sao họ cần Word Embedding ?

Chúng ta thử đối chiếu với một cách màn trình diễn khác mà họ thường dùng trong những bài toán multi-label, multi-task là one-hot encoding. Nếu áp dụng one-hot encoding, dữ liệu mà bọn họ biểu diễn sẽ sở hữu dạng như sau:

DocumentIndexOne-hot encoding
a1<1, 0, 0, ...., 0>(9999 số 0)
b2<0, 1, 0, ...., 0>
c3<0, 0, 1, ...., 0>
................

Xem thêm: Tiền Đạo Là Gì ? Từ Điển Tiếng Việt Tiền Đạo

mẹ9999<0, 0, 0, ..., 1, 0>
vân10000<0, 0, 0, ...., 0, 1>

Nhìn vào bảng mặt trên, ta thấy bao gồm 3 sự việc khi ta biểu diễn tài liệu dạng text bên dưới dạng one-hot:

Chi phí đo lường và thống kê lớn : nếu data có 100 từ, độ nhiều năm của vector one-hot là 100.Nếu data tất cả 10000 từ, độ nhiều năm của vector one-hot là 10000. Tuy nhiên, để quy mô có độ tổng quan cao thì trong thực tế dữ liệu hoàn toàn có thể lên đến hàng triệu từ, cơ hội đó độ dài vector one-hot đã phình khổng lồ gây trở ngại cho việc tính toán, lưu trữ.Mang ít giá trị thông tin: các vector phần lớn toàn số 0. Cùng các chúng ta có thể thấy, so với dữ liệu dạng text thì giá trị đựng trong các px (nếu đầu vào dạng hình ảnh ) hay những dạng không giống là rất ít. Nó đa phần nằm vào vị trí tương đối giữa các từ cùng với nhau với quan hệ về mặt ngữ nghĩa. Mặc dù nhiên, one-hot vector chẳng thể biểu diễn điều ấy vì nó chỉ đánh index theo máy tự tự điển đầu vào chứ không hẳn vị trí các từ trong một context núm thể. Để hạn chế điều đó, trong tế bào hình thường được sử dụng một lớp RNN hoặc LSTM để nó có thể trích xuất được thông tin về vị trí. Có một cách khác ví như trong quy mô transformer, được bỏ trọn vẹn lớp word embeddig xuất xắc RNN và tiếp tế đó lớp positional encoding với self-attentionĐộ bao hàm yếu : lấy ví dụ như ta có cha từ thuộc chỉ người người mẹ : mẹ, má, bầm. Tuy nhiên, tự bầm kha khá hiếm gặp gỡ trong tiếng Việt. Khi màn trình diễn bằng one-hot encoding, khi gửi vào model train thì từ bầm tuy vậy cùng nghĩa so với nhị từ kia cơ mà lại bị phân vào class khác biệt do cách biểu diễn khác nhau. Còn nếu cần sử dụng word embedding, do trình diễn được cả thông tin về vị trí, ngữ nghĩa đề xuất từ bầm sẽ sở hữu vị trí ngay sát với hai từ kia. Đúng như mục đích embedding của mình

4. Vậy làm nạm nào nhằm biễu diễn Word Embedding ?

Có 2 cách thức chủ yếu đuối được hay sử dụng để giám sát Word Embedding là Count based method cùng Predictive method. Cả hai giải pháp này đều dựa vào một mang thuyết rằng các từ nào mở ra trong cùng một văn cảnh, một ngữ nghĩa sẽ sở hữu được vị trí sát nhau trong không gian mới được thay đổi đổi

4.1. Count-based method

*

Tuy nhiên phương thức này gặp gỡ một nhược điểm này là khi tài liệu của ta lớn, một trong những từ gồm tần suất xuất hiện lớn nhưng mà lại không mang nhiều tin tức (như trong giờ Anh: a, an, the, ...). Và nếu chúng ta thống kê cả con số data này thì tần suất của những từ này sẽ có tác dụng mờ đi giá trị của rất nhiều từ có nhiều tin tức nhưng ít gặp gỡ hơn.

Và để giải quyết vấn đề, tất cả một phương án là bọn họ đánh lại trọng số (re-weight) cho dữ liệu sao cho phù hợp với câu hỏi của mình.Có một thuật toán khôn cùng hay dùng để giải quyết vụ việc này, đó đó là TF_IDF transform. Trong đó: TF là tấn suất xuất hiện thêm của một từ vào data(term frequency) cùng IDF là 1 hệ số giúp làm sút trọng số của không ít từ hay xuất hiện trong data (inverse document frequency). Dựa vào việc phối kết hợp giữa TF vs IDF, phương pháp này rất có thể giảm sút trọng số của những từ xuất hiện nhiều tuy nhiên lại không có rất nhiều thông tin.

4.2. Predictive Methods (Word2Vec)

Khác đối với Count-based method, Predictive method thống kê giám sát sự tương đương ngữ nghĩa giữa các từ để dự đoán từ bỏ tiếp theo bằng phương pháp đưa sang một mạng neural network tất cả một hoặc vài layer dựa vào input là các từ bao quanh (context word). Một context word hoàn toàn có thể là một hoặc những từ. Ví dụ cũng như với hai câu sống trên, ban sơ hai trường đoản cú cơm rất có thể được khởi chế tạo ra ở khá xa nhau chừng nhưng nhằm tối thiểu loss thân hai từ bỏ đó cùng context word ("Mèo" và "ăn") thì địa điểm của hai từ cơm trong không gian vector bắt buộc gần nhau. Tất cả 2 phương thức predictive method phổ biến đó chính là :

Continuous Bag-of-Words (CBOW)Skip-gram4.2.1. Continuous Bag-of-Words (CBOW)

CBOW model : phương pháp này mang đầu vào là một trong những hoặc những từ context word và cố gắng dự đoán output từ trên đầu ra (target word) thông sang một tầng neural dễ dàng . Nhờ việc reviews output error với target word làm việc dạng one-hot, mô hình có thể điều chỉnh weight, học tập được vector màn biểu diễn cho target word. Lấy một ví dụ ta tất cả một câu giờ đồng hồ anh như sau : "I love you". Ta có:- input đầu vào context word : love- đầu ra target word: you

Ta biến đổi input context nguồn vào dưới dạng one-hot đi sang một tầng hidden layer và triển khai softmax phân loại để tham gia đoán ra từ tiếp theo là gì.

Xem thêm: Giới Thiệu Về Sparkling Wine Là Gì ? Những Điều Thú Vị Về Sparkling Wine

*

4.2.2. Skip-gram

Nếu như CBOW thực hiện input là context word và nỗ lực dự đoán từ trên đầu ra (target word) thì ngược lại, mô hình Skip-gram thực hiện input là target word và nỗ lực dự đoán ra những từ láng giềng của nó. Bọn chúng định nghĩa những từ là láng giềng (neightbor word) của nó trải qua tham số window size. Ví dụ nếu khách hàng có một câu như sau: "Tôi thích ăn cua hoàng đế". Và input target word ban sơ là từ cua. Với form size window kích thước = 2, ta sẽ sở hữu được các neighbor word (thích, ăn, hoàng, đế ). Và bọn họ sẽ bao gồm 4 cặp input-output như sau: (cua, say mê ), (cua, hoàng ), (cua, đế ), (cua, ăn uống ). Những neightbor word được coi đồng nhất trong quy trình training.

*

Tổng kết: đối chiếu giữa hai cách thức Count based method cùng Word2Vec, khi chúng ta huấn luyện một bộ dữ liệu lớn, thì Count-based method cần tương đối nhiều bộ lưu trữ hơn đối với Word2Vec do bắt buộc xây dựng một ma trận đồng xuất hiện thêm khổng lồ. Tuy nhiên, vì chưng nó được phát hành trên vấn đề thống kê những từ phải khi con số dữ liệu của người sử dụng đủ lớn, chúng ta cũng có thể train thêm nhiều nhiều dữ liệu nữa mà không lo ngại tăng kích cỡ của ma trận đồng xuất hiện thêm trong khi tăng độ chính xác của tế bào hình. Trong những lúc đó việc tạo thêm dữ liệu khi đã có lượng dữ liệu tương so với Predictive method là trọn vẹn không thể vì tài liệu được phân thành hai tập train với valid. Nhưng mà ngược lại, Word2Vec sử dụng quy mô học đồ vật giúp tăng tính khái quát của quy mô đồng thời giảm giá cả tính toán và bộ nhớ

5. Lời kết

Gần phía trên mình new học khóa về NLP nên nội dung bài viết có thể có nhiều sai sót, khó hiểu đề xuất nếu có gì không đúng sót các chúng ta cũng có thể comment dưới nội dung bài viết nhé

*
. Cảm ơn các bạn đã theo dõi bài viết của mình.