Chúc mừng nhóm sinh viên 𝐍𝐠𝐮𝐲𝐞̂̃𝐧 𝐕𝐮̃ 𝐊𝐡𝐚𝐢 𝐓𝐚̂𝐦, 𝐋𝐞̂ 𝐓𝐫𝐚̂̀𝐧 𝐆𝐢𝐚 𝐁𝐚̉𝐨, 𝐓𝐫𝐚̂̀𝐧 𝐊𝐢𝐦 𝐍𝐠𝐨̣𝐜 𝐍𝐠𝐚̂𝐧, 𝐇𝐨𝐚̀𝐧𝐠 𝐍𝐠𝐨̣𝐜 𝐊𝐡𝐚́𝐧𝐡, 𝐏𝐡𝐚̣𝐦 𝐇𝐨𝐚̀𝐧𝐠 𝐋𝐞̂ 𝐍𝐠𝐮𝐲𝐞̂𝐧, là thành viên của 𝐓𝐞𝐚𝐦𝐐 - 𝐂𝐋𝐁 𝐀𝐧 𝐭𝐨𝐚̀𝐧 𝐭𝐡𝐨̂𝐧𝐠 𝐭𝐢𝐧 𝐖𝐚𝐧𝐧𝐚.𝐖𝟏𝐧 và 𝐧𝐡𝐨́𝐦 𝐧𝐠𝐡𝐢𝐞̂𝐧 𝐜𝐮̛́𝐮 𝐈𝐧𝐒𝐞𝐜𝐋𝐚𝐛 đã có bài báo nghiên cứu về 𝐋𝐢𝐟𝐞𝐥𝐨𝐠 𝐄𝐯𝐞𝐧𝐭 𝐑𝐞𝐭𝐫𝐢𝐞𝐯𝐚𝐥 (Truy vấn sự kiện trong video) được chấp nhận đăng tại Hội nghị khoa học quốc tế "𝐓𝐡𝐞 𝟏𝟑𝐭𝐡 𝐒𝐲𝐦𝐩𝐨𝐬𝐢𝐮𝐦 𝐨𝐧 𝐈𝐧𝐟𝐨𝐫𝐦𝐚𝐭𝐢𝐨𝐧 𝐚𝐧𝐝 𝐂𝐨𝐦𝐦𝐮𝐧𝐢𝐜𝐚𝐭𝐢𝐨𝐧 𝐓𝐞𝐜𝐡𝐧𝐨𝐥𝐨𝐠𝐲 (𝐒𝐎𝐈𝐂𝐓 𝟐𝟎𝟐𝟒)".
📄 Bài báo khoa học là kết quả của quá trình nghiên cứu và xây dựng giải pháp truy vấn hiệu quả thông tin sự kiện cuộc sống thường nhật từ dữ liệu video trong Hội thi Thử thách trí tuệ nhân tạo Tp. HCM năm 2024 (AI Challenge 2024). Đây là thành quả đáng khích lệ bước đầu của các Thành viên TeamQ khi thực hiện những nghiên cứu khoa học, tham gia các cuộc thi học thuật về các ứng dụng của Trí tuệ nhân tạo (AI) trong các lĩnh vực đời sống tại Phòng thí nghiệm An toàn thông tin (InSecLab) thông qua Khóa huấn luyện WannaQuest Q2023.02 vừa qua.
Thông tin về bài báo khoa học:
Tên bài báo:
- “𝐌𝐀𝐕𝐄𝐑𝐈𝐂𝐒: 𝐌𝐮𝐥𝐭𝐢𝐦𝐨𝐝𝐚𝐥 𝐀𝐝𝐯𝐚𝐧𝐜𝐞𝐝 𝐕𝐢𝐬𝐮𝐚𝐥 𝐄𝐯𝐞𝐧𝐭 𝐑𝐞𝐭𝐫𝐢𝐞𝐯𝐚𝐥 𝐰𝐢𝐭𝐡 𝐈𝐧𝐭𝐞𝐠𝐫𝐚𝐭𝐞𝐝 𝐂𝐏𝐔-𝐎𝐩𝐭𝐢𝐦𝐢𝐳𝐞𝐝 𝐒𝐞𝐚𝐫𝐜𝐡”
Sinh viên thực hiện:
- 𝐍𝐠𝐮𝐲𝐞̂̃𝐧 𝐕𝐮̃ 𝐊𝐡𝐚𝐢 𝐓𝐚̂𝐦 - Trí tuệ nhân tạo Hệ Chính quy (KHNT2022)
- 𝐋𝐞̂ 𝐓𝐫𝐚̂̀𝐧 𝐆𝐢𝐚 𝐁𝐚̉𝐨 - Khoa học máy tính Hệ Chính quy (KHMT2022)
- 𝐓𝐫𝐚̂̀𝐧 𝐊𝐢𝐦 𝐍𝐠𝐨̣𝐜 𝐍𝐠𝐚̂𝐧 - Khoa học máy tính Hệ Tài năng (KHTN2022)
- 𝐇𝐨𝐚̀𝐧𝐠 𝐍𝐠𝐨̣𝐜 𝐊𝐡𝐚́𝐧𝐡 - An toàn thông tin Hệ Tài năng (ATTN2023)
- 𝐏𝐡𝐚̣𝐦 𝐇𝐨𝐚̀𝐧𝐠 𝐋𝐞̂ 𝐍𝐠𝐮𝐲𝐞̂𝐧 - Khoa học máy tính Hệ Chính quy (KHMT2022)
Giảng viên hướng dẫn:
- 𝐓𝐒. 𝐏𝐡𝐚̣𝐦 𝐕𝐚̆𝐧 𝐇𝐚̣̂𝐮
- 𝐓𝐡𝐒. 𝐏𝐡𝐚𝐧 𝐓𝐡𝐞̂́ 𝐃𝐮𝐲
- 𝐂𝐍. 𝐍𝐠𝐮𝐲𝐞̂̃𝐧 𝐇𝐮̛̃𝐮 𝐐𝐮𝐲𝐞̂̀𝐧
Thông tin chung về Hội nghị:
SOICT 2024 là hội nghị khoa học quốc tế chuyên ngành công nghệ thông tin và truyền thông, bao gồm các lĩnh vực nghiên cứu quan trọng: Nền tảng AI và Dữ liệu lớn, Các công nghệ mạng và truyền thông, Xử lý hình ảnh và ngôn ngữ tự nhiên, Kỹ thuật phần mềm, Trí tuệ nhân tạo và Công nghệ kỹ thuật số, An toàn thông tin, Truy vấn Thông tin sự kiện từ Video.
Hội nghị SOICT 2024 sẽ diễn ra tại Tp. Đà Nẵng do Trường Công nghệ thông tin và truyền thông - ĐH Bách Khoa Hà Nội, Trường ĐH Khoa học Tự nhiên - ĐHQG Tp. HCM, Trường ĐH Bách Khoa - ĐH Đà Nẵng phối hợp tổ chức vào ngày 13-15.12.2024.
Abstract:
"The increasing volume of visual data in news archives and media sources poses significant challenges for efficient event retrieval. This paper presents a multimodal approach to tackle the problem of Event Retrieval from Visual Data. Our system integrates several techniques to process diverse query types, including text, image, and video. For image-text retrieval, the BLIP2 model is used to embed both images and text descriptions. In cases where queries are in Vietnamese, we employ the pre-trained VietAI/envit5-translation model to translate prompts into English before processing them with BLIP2. Object detection is handled by YOLOWorldv2, and text extraction from images utilizes PP-OCRv3 and VGG Transformer. Additionally, WhisperX is employed for audio-to-text conversion. Embeddings from textual data, whether derived from OCR or audio, are generated using sentence-transformers/all-MiniLM-L6-v2. These embeddings are indexed using Usearch, enabling fast and efficient retrieval. Furthermore, we developed a high-speed temporal search mechanism that calculates scores and combinations for consecutive related frames to improve performance in temporal queries. The system is capable of running efficiently on CPUs, with a maximum query processing time of 2 seconds for advanced queries, such as Temporal search, which require multiple models to run consecutively, making it a scalable solution for large-scale video data retrieval. Additionally, we have built a user-friendly interface using Streamlit, enabling users to easily interact with and utilize the system."
Link hội nghị: https://soict.org/