Alibaba vừa thông báo ra mắt Qwen2-VL với những tính năng vượt trội, mở mã nguồn cho Qwen2-VL-2B và Qwen2-VL-7B dưới giấy phép Apache 2.0, đồng thời cung cấp API cho phiên bản mạnh mẽ nhất, Qwen2-VL-72B! 🚀🚀🚀
Qwen2-VL là phiên bản mới nhất trong dòng mô hình ngôn ngữ thị giác của Alibaba, được xây dựng dựa trên nền tảng Qwen2. Đây là một cú sốc lớn với nhiều cải tiến nổi bật so với các đối thủ như GPT-4o, Claude 3.5 Sonnet, và Gemini Pro 1.5! 💪💪💪
Những Tính Năng Nổi Bật Của Qwen2-VL:
•Hiểu Hình Ảnh Ở Nhiều Độ Phân Giải và Tỷ Lệ Khác Nhau: Qwen2-VL đạt hiệu suất vượt trội trên các bộ đánh giá chuẩn về hiểu thị giác, bao gồm MathVista, DocVQA, RealWorldQA, MTVQA, và nhiều bộ khác. Đây là bước tiến lớn trong việc xử lý hình ảnh với chất lượng SoTA (State of the Art).
•Hiểu Video Dài Hơn 20 Phút: Qwen2-VL có khả năng phân tích và hiểu các video dài hơn 20 phút, phục vụ các tác vụ hỏi đáp, đối thoại và tạo nội dung chất lượng cao dựa trên nội dung video.
•Tác Tử Điều Khiển Các Thiết Bị: Với khả năng lập luận phức tạp và ra quyết định, Qwen2-VL có thể được tích hợp vào các thiết bị như điện thoại di động, robot và nhiều thiết bị khác, thực hiện các thao tác tự động dựa trên môi trường thị giác và hướng dẫn văn bản.
•Hỗ Trợ Đa Ngôn Ngữ: Qwen2-VL không chỉ hỗ trợ tiếng Anh và tiếng Trung mà còn hiểu văn bản trong hình ảnh ở nhiều ngôn ngữ khác nhau, bao gồm hầu hết các ngôn ngữ châu Âu, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Việt và nhiều ngôn ngữ khác. Qwen2-VL đang là mô hình hiểu tiếng Việt tốt nhất hiện nay! ♥️♥️♥️
Qwen2-VL hứa hẹn sẽ là một công cụ đột phá trong lĩnh vực ngôn ngữ thị giác, mở ra nhiều cơ hội mới cho các ứng dụng công nghệ. Chắc chắn sẽ có nhiều điều thú vị từ sự ra mắt này! 🚀🌟