THỊ GIÁC MÁY TÍNH LÀ GÌ

     

Thị giác máy tính (Computer Vision) là trong số những lĩnh vực hot nhất của khoa học máy tính và nghiên cứu trí tuệ nhân tạo. Dù bọn chúng vẫn không thể tuyên chiến đối đầu và cạnh tranh với sức mạnh thị giác của mắt người, đã có tương đối nhiều ứng dụng hữu ích được tạo ra khai thác tiềm năng của chúng.

Bạn đang xem: Thị giác máy tính là gì

Khi các bạn nhìn vào hình ảnh sau đây, các bạn sẽ thấy người, đồ vật thể và các tòa nhà. Nó đem lại những ký ức về hầu như trải nghiệm trong thừa khứ, những tình huống tương trường đoản cú bạn gặp gỡ phải. Đám đông đang đối mặt cùng hướng với giơ smartphone lên, điều này cho bạn biết rằng đó là một nhiều loại sự kiện. Người đứng sát máy ảnh đang mang áo thun gợi nhắc về sự kiện hoàn toàn có thể xảy ra. Khi bạn nhìn vào những chi tiết nhỏ khác, chúng ta có thể suy ra nhiều thông tin hơn từ hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng so với máy tính, hình hình ảnh này giống hệt như tất cả các hình hình ảnh khác, đó là một trong những mảng các pixel, những giá trị số đại diện thay mặt cho các sắc độ của màu đỏ, xanh lá cây với xanh dương. Một một trong những thách thức mà những nhà khoa học máy tính phải vật dụng lộn từ những năm 1950s là tạo nên những cỗ máy có thể gọi được hình hình ảnh và video như nhỏ người. Lĩnh vực thị giác thiết bị tính từ đó đang trở thành một trong số những lĩnh vực nghiên cứu và phân tích hot độc nhất về khoa học laptop và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, bọn họ đã đạt được tiến bộ lớn vào việc tạo ra các phần mềm rất có thể hiểu và trình bày nội dung của tài liệu một bí quyết trực quan. Nhưng bọn họ cũng đã nhận được ra rằng rất cần phải đi xa đến hơn cả nào trước khi rất có thể hiểu cùng tái tạo một trong những những chức năng cơ bạn dạng của bộ não bé người.

Sơ lược về lịch sử vẻ vang thị giác sản phẩm tính

Năm 1966, Seymour Papert cùng Marvin Minsky, hai nhà đi đầu về kiến thức nhân tạo, sẽ khởi động một dự án công trình mang thương hiệu “Summer Vision Project“, một nỗ lực kéo dãn dài hai tháng với kéo theo 10 fan để tạo ra một hệ thống máy tính hoàn toàn có thể nhận dạng các vật thể trong ảnh.

Để kết thúc nhiệm vụ, một chương trình laptop phải có khả năng xác định px nào thuộc về đối tượng nào. Đây là 1 trong những vấn đề mà hệ thống thị giác của nhỏ người, được cung cấp bởi con kiến ​​thức rộng lớn của họ về nhân loại thực cùng hàng tỷ năm tiến hóa, hoàn toàn có thể giải quyết một bí quyết dễ dàng. Nhưng so với máy tính, nhân loại chỉ bao gồm các con số, đó là 1 trong những nhiệm vụ đầy thách thức.

Vào thời khắc của dự án này, phân nhánh thống trị chủ lực của trí tuệ tự tạo là symbollic AI, còn được gọi là AI dựa trên quy tắc (rule-based AI): những lập trình viên từ bỏ chỉ định những quy tắc nhằm phát hiện tại các đối tượng người dùng trong hình ảnh. Nhưng vấn đề là những vật thể trong ảnh có thể lộ diện từ những góc khác biệt và trong không ít điều kiện ánh sáng khác nhau. Đối tượng rất có thể xuất hiện trên một loạt những nền khác nhau hoặc bị các đối tượng khác đậy khuất một phần. Mỗi kịch phiên bản này tạo nên các giá trị pixel khác biệt và thực tiễn không thể sinh sản quy tắc thủ công bằng tay cho từng loại một trong số chúng.

Hẳn nhiên, Summer Vision Project đã không đi xa và mang lại kết quả khá hạn chế. Vài năm tiếp theo đó, vào thời điểm năm 1979, nhà khoa học Nhật bản Kunihiko Fukushima đã lời khuyên neocognitron , một hệ thống thị giác máy vi tính dựa trên nghiên cứu khoa học thần gớm được triển khai trên vỏ não về thị giác của nhỏ người. Mặc mặc dù neocognitron của Fukushima bắt buộc thực hiện bất kỳ nhiệm vụ trực quan phức hợp nào, tuy thế nó đã đặt nền tảng gốc rễ cho một trong những phát triển đặc biệt quan trọng nhất trong lịch sử vẻ vang thị giác thứ tính.

Cuộc cách mạng học sâu – Deep Learning

Vào trong những năm 1980s, nhà khoa học laptop người Pháp Yan LeCun đã ra mắt mạng thần kinh tích chập (convolutional neural network, CNN), một khối hệ thống AI lấy cảm hứng từ neocognitron của Fukushima. Một CNN bao hàm nhiều lớp tế bào thần gớm nhân tạo, những thành phần toán học mô phỏng gần giống hoạt động của các phiên phiên bản sinh học của chúng.

*

Khi một CNN cách xử trí một hình ảnh, từng lớp của chính nó sẽ trích xuất các đặc trưng ví dụ từ các pixel. Lớp trước tiên phát hiện mọi thứ hết sức cơ bản, ví dụ điển hình như những cạnh dọc và ngang. Khi bạn dịch rời sâu hơn vào mạng thần kinh, các lớp sẽ phát hiện những đặc trưng tinh vi hơn, bao hàm các góc với hình dạng. Các lớp ở đầu cuối của CNN phạt hiện số đông thứ rõ ràng như khuôn mặt, ô cửa và xe cộ hơi. Lớp áp sạc ra của CNN cung ứng một bảng những giá trị số bộc lộ xác suất cơ mà một đối tượng ví dụ được phát hiện nay trong ảnh.

Mạng thần gớm tích chập của LeCun rất hoàn hảo nhất và cho biết rất những hứa hẹn, nhưng bọn chúng bị cản trở do một vấn đề nghiêm trọng: Điều chỉnh và áp dụng chúng yên cầu một lượng lớn tài liệu và tài nguyên thống kê giám sát không bao gồm sẵn tại thời điểm đó. CNN sau cuối đã tìm kiếm thấy việc sử dụng thương mại trong một số lĩnh vực hạn chế như ngân hàng và thương mại dịch vụ bưu chính, nơi chúng được sử dụng để xử lý những chữ số và chữ viết tay trên phong bì và các tờ séc. Nhưng trong nghành nghề nhận diện đối tượng, bọn họ đã thua và dường chỗ mang lại các kỹ thuật học tập máy khác, như ‘support vector machines’ cùng ‘random forests’.

Xem thêm: Lời Bài Hát Ngày Đó Em Và Anh Trong Vòng Tay Nam Em, Xa Nhau Rồi Anh Nhớ Không

Vào năm 2012, các nhà nghiên cứu và phân tích AI từ bỏ Toronto đã cách tân và phát triển AlexNet, một mạng thần ghê tích chập chỉ chiếm ưu vậy trong cuộc thi nhận mẫu thiết kế ảnh ImageNet nổi tiếng. Chiến chiến hạ của AlexNet cho biết thêm với sự tăng thêm sẵn gồm của dữ liệu và tài nguyên năng lượng điện toán, có lẽ đã mang lại lúc phải quay trở lại với CNN. Sự kiện này vẫn làm phục hồi sự suy xét các CNN và tạo nên một cuộc giải pháp mạng trong Deep Learning, phân nhánh của Machine Learning liên quan đến việc sử dụng những mạng thần kinh nhân tạo nhiều lớp.

Nhờ những văn minh trong mạng thần kinh tích chập cùng học sâu, từ đó, lĩnh vực thị giác máy tính xách tay đã trở nên tân tiến nhờ những bước nhảy vọt.

Ứng dụng của Thị giác thiết bị tính

Nhiều ứng dụng bạn sử dụng mỗi ngày sử dụng technology thị giác vật dụng tính. Google áp dụng nó sẽ giúp đỡ bạn tìm kiếm kiếm các đối tượng và cảnh trang bị như là, “con chó” hoặc “hoàng hôn” vào một tủ sách hình hình ảnh của bạn. Các công ty khác sử dụng thị giác máy vi tính để giúp cải thiện hình ảnh. Một lấy ví dụ như là Adobe Lightroom CC, sử dụng thuật toán Machine Learning để tăng cường chi huyết của hình hình ảnh được phóng to. Lý lẽ phóng khổng lồ (zoom in) truyền thống lâu đời sử dụng những kỹ thuật nội suy để tô color các khu vực được phóng to, nhưng lại Lightroom áp dụng thị giác laptop để phát hiện nay các đối tượng trong hình hình ảnh và làm cho sắc nét những đặc trưng của chúng sau thời điểm được phóng to.

Một nghành đã đạt được văn minh rõ rệt nhờ những văn minh trong thị giác máy tính xách tay là thừa nhận diện khuôn mặt. Apple áp dụng thuật toán dấn dạng khuôn khía cạnh để unlock iPhone. Facebook thực hiện nhận dạng khuôn mặt nhằm phát hiện người dùng trong hình ảnh bạn đăng tải mạng (mặc dù không phải ai ai cũng thích điều này). Tại Trung Quốc, các nhà bán lẻ hiện cung cấp technology thanh toán qua nhận diện khuôn mặt, giúp quý khách không rất cần phải tiếp cận với túi tiền của họ.

Những văn minh trong thừa nhận dạng khuôn phương diện cũng tạo ra lo ngại cho những người dân ủng hộ quyền riêng rẽ tư, đặc biệt là khi những cơ quan cơ quan chỉ đạo của chính phủ ở các giang sơn khác nhau đang thực hiện nó để đo lường và thống kê công dân của họ.

Chuyển thanh lịch các nghành nghề chuyên biệt hơn, thị giác sản phẩm công nghệ tính lập cập trở thành một công cụ luôn luôn phải có trong y học. Các thuật toán học sâu đang cho biết độ thiết yếu xác tuyệt vời trong câu hỏi phân tích hình hình ảnh y tế. Các khám đa khoa và trường đại học đang sử dụng thị giác thiết bị tính để tham gia đoán những loại ung thư không giống nhau bằng cách kiểm tra tia X và quét MRI.

Xe từ bỏ lái cũng phụ thuộc vào rất các vào thị giác máy vi tính để đọc được môi trường xung quanh. Các thuật toán học tập sâu phân tích những nguồn cấp cho dữ liệu đoạn clip từ những camera được cài bỏ lên trên xe cùng phát hiện tại người, xe hơi, mặt con đường và các vật thể khác để giúp đỡ chiếc xe di chuyển trong môi trường của nó.

Những hạn chế của Thị giác máy tính

Các hệ thống thị giác máy tính hiện tại thực hiện tốt việc phân loại hình hình ảnh và phiên bản địa hóa các đối tượng trong ảnh, khi chúng được đào tạo khá đầy đủ với các ví dụ. Nhưng ở trong phần cốt lõi của chúng, các thuật toán học tập sâu cung ứng sức mạnh cho những ứng dụng thị giác sản phẩm tính đó là việc đối chiếu các mẫu pixel. Chúng không hiểu biết những gì đang ra mắt trong các hình ảnh.

Việc hiểu quan hệ giữa bạn và đối tượng người tiêu dùng trong tài liệu trực quan đòi hỏi phải có những cảm dấn và những kiến ​​thức cơ bạn dạng chung. Đó là tại sao tại sao những thuật toán thị giác máy tính xách tay được áp dụng bởi những mạng làng hội hoàn toàn có thể phát hiện những nội dung khỏa thân, nhưng thường phải khó khăn để khác nhau sự khác biệt giữa ảnh khoả thân an toàn (ví dụ cho con bú hoặc thẩm mỹ Phục hưng) và ngôn từ bị cấm như ngôn từ khiêu dâm. Tương từ bỏ như vậy, thật cạnh tranh để các thuật toán này thể hiện sự khác biệt giữa tuyên truyền cực đoan với một phim tài liệu về các nhóm cực đoan!

Con người hoàn toàn có thể khai thác kiến ​​thức rộng lớn về nạm giới của chính bản thân mình để lấp đầy những lỗ hổng khi họ đối mặt với một tình huống mà họ chưa từng thấy trước đây. Không giống như con người, những thuật toán thị giác máy vi tính cần đề xuất được phía dẫn chi tiết về các loại đối tượng người sử dụng mà chúng buộc phải phát hiện. Ngay khi môi trường xung quanh của bọn chúng chứa hồ hết thứ đi chệch khỏi các ví dụ đã được đào tạo, chúng bước đầu hành rượu cồn theo các cách phi lý, ví dụ như không phát hiện ra các phương tiện nguy cấp dừng đỗ ở phần nhiều vị trí không giống thường.

Hiện tại, chiến thuật duy tốt nhất để xử lý những sự việc này là đào tạo các thuật toán AI trên với ngày dần nhiều các ví dụ, với mong muốn lượng dữ liệu bổ sung cập nhật sẽ tổng quan mọi trường hợp mà AI sẽ gặp mặt phải. Nhưng những kinh nghiệm cho thấy, nếu không có sự dấn thức theo tình huống, sẽ luôn có hầu như góc khuất trong những tình huống riêng biệt làm rối loạn thuật toán AI.

Xem thêm: " Sit Tight Là Gì Trong Tiếng Việt? Sit Tight Là Gì

Nhiều chuyên gia tin rằng chúng ta sẽ chỉ đạt được thị giác laptop thực sự khi bọn họ tạo ra trí logic chung tự tạo (artificial general intelligence), AI rất có thể giải quyết những vấn đề theo cách tựa như như bé người. Như bên khoa học máy tính và nhà phân tích AI Melanie Mitchell đã nói vào cuốn sách Trí lý tưởng nhân tạo: chỉ dẫn về bốn duy nhỏ người: “Dường như trí lý tưởng thị giác ko dễ tách bóc rời khỏi phần sót lại của trí thông minh, đặc biệt là kiến ​​thức chung, sự trừu tượng và năng lực ngôn ngữ. Cung ứng đó, hoàn toàn có thể các con kiến ​​thức quan trọng cho trí tuyệt vời thị giác của con bạn không thể học tập được từ hàng ngàn bức ảnh được download xuống từ web, nhưng buộc phải được tận hưởng theo một giải pháp nào kia trong thế giới thực”.