<img src = "/uploadfile/aiimages/Phương pháp khớp dữ liệu của dữ liệu đa phương thức là gì Trong khớp dữ liệu đa phương thức, phương pháp Vilbert có kết quả tốt trong các trường chung, nhưng trong lĩnh vực thương mại điện tử, ROI được trích xuất không lý tưởng và hiệu ứng thấp hơn dự kiến. Bài viết này đề xuất một mô hình phù hợp với đồ họa Fashionbert. Vấn đề cốt lõi là làm thế nào để trích xuất hoặc thể hiện các tính năng hình ảnh trong thương mại điện tử. Cấu trúc tổng thể và thuật toán của mô hình, cũng như các hiệu ứng ứng dụng và cải tiến dữ liệu thử nghiệm trong doanh nghiệp được chia sẻ. Bài viết này đã được đưa vào Sigir20 Industrack, hội nghị quốc tế hàng đầu trong lĩnh vực truy xuất thông tin. Wen Fuli: JIA chia sẻ sự phát triển của các thuật toán và hệ thống trí tuệ nhân tạo.
Bối cảnh
Với sự phát triển của công nghệ web, Internet chứa một lượng lớn thông tin đa phương thức (bao gồm văn bản, hình ảnh, giọng nói, video, v.v.). Tìm kiếm thông tin quan trọng từ một thông tin đa phương thức lớn luôn là trọng tâm của nghiên cứu học thuật. Cốt lõi của kết hợp đa phương thức là công nghệ phù hợp với văn bản và hình ảnh, cũng là một nghiên cứu cơ bản và được sử dụng trong nhiều lĩnh vực, chẳng hạn như hồng ngoại chéo, tạo phụ đề hình ảnh, hệ thống câu hỏi và trả lời hình ảnh, lý luận kiến thức hình ảnh, v.v. Tuy nhiên, lĩnh vực thương mại điện tử cũng yêu cầu các mô hình kết hợp đa phương thức và có nhiều kịch bản ứng dụng. Bài viết này chủ yếu nghiên cứu công nghệ đa phương thức đồ họa trong thương mại điện tử.
Lịch sử ngắn gọn về nghiên cứu phù hợp với đa chế độ
Trọng tâm của nghiên cứu chéo là làm thế nào để phù hợp với dữ liệu đa phương thức, đó là cách ánh xạ thông tin đa phương thức vào không gian đại diện thống nhất. Nghiên cứu ban đầu chủ yếu được chia thành hai dòng chính: phân tích tương quan điển hình (CCA) và nhúng ngữ nghĩa thị giác (VSE).
Các phương thức loạt CCA
Điều chính là phân tích mối tương quan giữa hình ảnh và văn bản, sau đó liên kết hình ảnh và văn bản với cùng một không gian. Một loạt các bài báo vấn đề này rất hoàn hảo, nhưng hiệu quả cần được cải thiện so với các phương pháp học sâu. Mặc dù có các giải pháp dựa trên học tập sâu (DCCA) trong giai đoạn sau, nhưng vẫn có một khoảng cách nhất định so với các phương pháp VSE tiếp theo.
Phương pháp hệ thống VSE
biểu thị hình ảnh và văn bản là các nhúng tiềm năng tương ứng, sau đó phù hợp với các nhúng tiềm ẩn đa phương thức vào cùng một không gian. Phương pháp VSE được mở rộng cho nhiều phương pháp như quét và PFAN. Các phương pháp này thu được trong khớp đồ họa chungKết quả rất tốt.
với việc áp dụng các công nghệ đào tạo trước và tự giám sát trong các lĩnh vực của CV và NLP. Bắt đầu từ năm 2019, một số học giả đã bắt đầu cố gắng phù hợp với thông tin đồ họa từ một phòng trống bằng các mô hình BERT được đào tạo trước dựa trên dữ liệu quy mô lớn. Các phương pháp này đã đạt được kết quả tốt trong các trường chung và loạt phương pháp này có thể được tìm thấy trong các bài báo của VLBERT.
Quá trình chính của mô hình đồ họa được đào tạo trước dựa trên Bert:
1) Trước tiên, sử dụng công nghệ phát hiện đối tượng hình ảnh để xác định vùng quan tâm (ROI) trong hình ảnh.
2) Sử dụng vùng quan tâm làm đại diện cho hình ảnh và thực hiện phản ứng tổng hợp đa phương thức của Bert với biểu diễn văn bản. Có hai giải pháp:
Một luồng đơn: được biểu thị bằng VLBERT, mã thông báo hình ảnh và mã thông báo văn bản được đặt trực tiếp vào Bert cho phản ứng tổng hợp đa phương thức.
Stream-stream: Được đại diện bởi Vilbert, mã thông báo hình ảnh và mã thông báo văn bản tương tác ban đầu, sau đó đặt nó vào BERT.
Chúng tôi đã thử phương pháp của Wilbert và thấy rằng nó đã hoạt động tốt trong các lĩnh vực chung. Tuy nhiên, trong lĩnh vực thương mại điện tử, kết quả thấp hơn dự kiến vì ROI được trích xuất không lý tưởng. Lý do chính là:
1) Lợi nhuận đầu tư của hình ảnh thương mại điện tử là quá nhỏ. Nói theo thống kê, dữ liệu MSCOCO trong các trường chung có thể trích xuất 19,8 ROI mỗi hình ảnh, trong khi thương mại điện tử chỉ có thể trích xuất 6.4 ROI. Tất nhiên, chúng ta có thể trích xuất ROI tối thiểu, ví dụ, Wilbert yêu cầu 10 ~ 36roi và Wilbert yêu cầu 100ROI. Tuy nhiên, khi ROI trích xuất tối thiểu được đặt, quá nhiều ROI lặp lại được trích xuất, như trong Hình 1 (e).
2) ROI thương mại điện tử không đủ hạt
Hình ảnh thương mại điện tử là đơn lẻ, và ROI được trích xuất chủ yếu là các sản phẩm cấp đối tượng (như trang phục tổng thể, áo phông, v.v.). Nói một cách tương đối, văn bản không đủ tốt. Ví dụ, văn bản có thể mô tả các thuộc tính rất chi tiết của đối tượng (ví dụ: cổ tròn, quần cắt, v.v.). Do đó, ROI của hình ảnh không đủ để khớp với dấu văn bản. Bạn có thể so sánh Hình 1 (c) và Hình 1 (d) trong lĩnh vực thương mại điện tử. Nhìn vào Hình 1 (a) và Hình 1 (b) của miền chung, bạn sẽ thấy rằng miền chung đơn giản hơn. Miễn là chủ thể trong hình ảnh có thể phù hợp với mã thông báo văn bản, về cơ bản nó sẽ không quá tệ.
3) ROI của hình ảnh thương mại điện tử quá ồn ào
Đầu, tóc và ngón tay của mô hình được trích xuất từ Hình 1 (f) ít được sử dụng để khớp sản phẩm.
Điều này cũng cho thấy trường thương mại điện tử cũng áp dụng phương thức ROI hiện có và không thể có được kết quả rất lý tưởng. Nếu chúng ta nói rằng việc đào tạo lại mô hình trích xuất ROI thương mại điện tử đòi hỏi rất nhiều chú thích dữ liệu. Vì vậy, có một cách đơn giản và dễ dàng để phù hợp với đồ họa?
Hình 1: RO trong trường thương mại điện tửTôi câu hỏi
Mô hình kết hợp đồ họa Fashionbert
Bài viết này đề xuất một mô hình kết hợp đồ họa Fashionbert. Vấn đề cốt lõi là làm thế nào để trích xuất hoặc thể hiện các tính năng hình ảnh trong thương mại điện tử. Vào giữa năm 2019, Google đã xuất bản một bài báo, Selfie, một mô hình học tập tự giám sát hình ảnh. Ý tưởng chính là chia hình ảnh thành hình ảnh con và sau đó dự đoán thông tin vị trí của hình ảnh con. Để mô hình có thể hiểu các tính năng hình ảnh. Công việc này rất truyền cảm hứng cho chúng tôi. Chúng tôi phân chia cùng một bản vá kích thước trực tiếp từ hình ảnh, sau đó sử dụng bản vá làm mã thông báo của hình ảnh và vừa với văn bản, như trong Hình 2. Lợi ích của việc sử dụng các bản vá:
Bản vá hình ảnh chứa chi tiết của tất cả các hình ảnh.
Sẽ không có ROI lặp lại hoặc quá nhiều ROI vô dụng trong bản vá hình ảnh.
Các bản vá hình ảnh là các chuỗi tự nhiên, vì vậy chúng giải quyết vấn đề trình tự của BERT.
Cấu trúc tổng thể của Fashionbert được thể hiện trong Hình 2, chủ yếu bao gồm nhúng văn bản, nhúng bản vá, thời trang chéo và các nhiệm vụ trước khi đào tạo.
Nhúng văn bản
Giống như bert ban đầu, trước tiên chúng tôi chia câu thành mã thông báo và sau đó chúng tôi sử dụng toàn bộ công nghệ mặt nạ từ để chặn toàn bộ mã thông báo. Chiến lược mặt nạ phù hợp với Bert ban đầu.
Bản vá nhúng
Tương tự như nhúng văn bản, ở đây chúng tôi chia các hình ảnh thành 8*8 bản vá đều. Sử dụng resnet để trích xuất các tính năng hình ảnh của mỗi mảng, chúng tôi đã trích xuất các tính năng hình ảnh 2048 chiều. Chiến lược bản vá, chúng tôi đã chặn ngẫu nhiên 10% các bản vá và các bản vá bị chặn được thay thế bằng 0. Đồng thời, trong trường phân đoạn, chúng tôi sử dụng “T” và “I” để phân biệt đầu vào của mã thông báo văn bản và đầu vào của bản vá hình ảnh.
Fashionbert của kênh chéo
Sử dụng Bert được đào tạo trước làm mạng, để mô hình ngôn ngữ được đưa vào một cách tự nhiên trong Fashionbert. Mô hình này có thể chú ý nhiều hơn đến đồ họa và kết hợp văn bản và hợp nhất.
Khung chính của Fashionbert của Fashionbert
Mô hình của Fashionbert đang trong giai đoạn đào tạo trước và bao gồm ba nhiệm vụ:
1 Mô hình ngôn ngữ đeo mặt nạ (MLM)
Chúng tôi giữ các khóa đào tạo và tham số của nhiệm vụ này phù hợp với Bert ban đầu.
2 Mô hình bản vá mặt nạ (MPM)
Các bản vá mặt nạ dự đoán, tác vụ này tương tự như MLM. Đó là bởi vì không có mã thông báo ID trong hình ảnh. Chúng tôi sử dụng bột làm mục tiêu ở đây, hy vọng rằng Bert có thể xây dựng lại thông tin bột, ở đây chúng tôi chọn KLD làm chức năng tổn thất.
3 Căn chỉnh văn bản và hình ảnh
Tương tự như tác vụ dự đoán câu tiếp theo, dự đoán liệu đồ họa và văn bản có khớp hay không. Ví dụ tích cực là tên và hình ảnh sản phẩm. Chúng tôi chọn ngẫu nhiên hình ảnh của các sản phẩm khác trong cùng loại với các ví dụ tiêu cực.
Đây là một vấn đề học tập đa nhiệm. Làm thế nào để cân bằng các trọng số học tập của các nhiệm vụ này? Ngoài ra, có một vấn đề khác. Nhiều thí nghiệm hiện đang chỉ ra rằng vai trò của NSP trong Bert có thể không hiệu quả lắm và tác động đến kết quả cuối cùng là không đặc biệt rõ ràng. Nhưng đối với khớp hình ảnh, việc mất văn bản và sự liên kết của hình ảnh là rất quan trọng. Vậy làm thế nào để cân bằng việc học các nhiệm vụ này? Ở đây chúng tôi đề xuất một thuật toán tổn thất thích ứng và chúng tôi coi trọng lượng của nhiệm vụ học tập là một vấn đề tối ưu hóa mới, như trong Hình 3. Mất Fashionbert là tổng của toàn bộ tổn thất. Vì chỉ có ba nhiệm vụ, chúng tôi thực sự có thể trực tiếp lấy giải pháp phân tích của trọng lượng nhiệm vụ W (vui lòng tham khảo bài báo của chúng tôi cho quy trình giải pháp cụ thể, sẽ không được mô tả ở đây).
Hình 3: Mất Thích ứng Toàn bộ quá trình học tập của W có thể được xem là một sinh viên muốn học ba khóa học. Chức năng của W là kiểm soát sự chú ý của việc học, một mặt kiểm soát các môn học khác và mặt khác có tổng số điểm cao nhất. Đối với các thuật toán tổn thất thích ứng cụ thể, vui lòng tham khảo bài báo. Từ hiệu ứng thực tế, W tập trung vào các nhiệm vụ khác nhau khi lặp đi lặp lại đào tạo và đạt được mục đích cân bằng các nhiệm vụ.
Ứng dụng kinh doanh
Hiện tại, Fashionbert đã bắt đầu áp dụng để tìm kiếm các vectơ đa phương thức trên Alibaba. Đối với tìm kiếm tìm kiếm vectơ đa phương thức, tác vụ phù hợp có thể được coi là tác vụ phù hợp bằng văn bản, nghĩa là mối quan hệ khớp ternary giữa hình ảnh sản phẩm sản phẩm (văn bản) của người dùng (hình ảnh). Fashionbert có thể được nhìn thấy từ mô hình trên rằng nó là một mô hình kết hợp đồ họa cơ bản, vì vậy chúng tôi đã thực hiện công việc của ContinuePretrain và thêm sự khác biệt giữa truy vấn, tiêu đề và phân đoạn hình ảnh, như trong Hình 4. Sự khác biệt lớn nhất giữa thời trang và Fashionbert là chúng tôi giới thiệu ba loại phân đoạn, “Q”
Hình 4: Van Burt tiếp tục được đào tạo trước
Mô hình tiếp tục trước khi đào tạo có thể nhanh chóng thu được kết quả rất tốt trên dữ liệu điều chỉnh rất nhỏ. Mô hình tìm kiếm vectơ hiện tại của chúng tôi được hiển thị trong Hình 5:
Hình 5: Tìm kiếm vector 3.0 Mô hình khớp tương tác mạnh đa phương thức
Trong hình trên, chúng tôi sử dụng mô hình tháp đôi (chia sẻ tham số giữa các tháp) Ngoài ra, về phía truy vấn, chúng tôi sử dụng truy vấn xuất hiện để hỗ trợ biểu thức tính năng của truy vấn và ở phía sản phẩm, chúng tôi sử dụng thông tin mở rộng để mở rộng biểu thức ngữ nghĩa của sản phẩm.
Kết quả thử nghiệm
Mở bộ dữ liệu
Chúng tôi sử dụng bộ dữ liệu FashionGen để so sánh công nghệ khớp đồ họa chính với Vilbert và Vlbert mới nhất. Kết quả của sự kết hợp đồ họa và truy xuất chéo phương thức như sau, Fashionbert đã thực hiện một sự cải thiện rất đáng kể.
Về dữ liệu ICBU
So với mô hình BERT, việc cải thiện hiệu ứng cũng rất rõ ràng. Đồng thời, do các vấn đề về hiệu suất dự đoán trực tuyến, mô hình Finetune đã bị giảm. Chúng tôi chỉ sử dụng hai lớp Fashionbert đầu tiên và giới thiệu các chiến lược độ dài chuỗi biến đổi (VSL) của bộ đệm và động, giúp cải thiện đáng kể hiệu suất dịch vụ trực tuyến của Fashionbert. Như thể hiện trong bảng dưới đây.
Số liệu
Độ chính xác
AUC
6l-bert
71,21%
/p>74.42%
0.8283
6L-fashionBert
75.21%
0.8387
2L-Bert
67.81%
0,7746
2l-bert+img
70,31%
0.7836
p> 72,47%
0.8018
2L-fashionbert (VSL)
72,43%
0.8009
Hiện tại, bài viết này đã được đưa vào Sigir20 Industrack, hội nghị quốc tế hàng đầu trong lĩnh vực truy xuất thông tin. Bản in có thể được tìm thấy ở đây: /pic/p>
Lập kế hoạch khảo sát
Mặc dù hướng kết hợp hình ảnh và văn bản đã được nghiên cứu trong một thời gian dài, phương pháp dựa trên việc đào tạo trước Bert vẫn còn hoàn toàn. Trong tương lai, chúng tôi có kế hoạch tối ưu hóa hơn nữa trong bốn khía cạnh:
Thay đổi đa quy mô trong hình ảnh: thay đổi đa diện ở nhiều hình ảnh để có được các tính năng hạt mịn của hình ảnh ở các thang đo khác nhau.
Căn chỉnh văn bản và hình ảnh: Giới thiệu thông tin khác hoặc các phương thức khác để căn chỉnh các điểm đánh dấu văn bản và các khu vực hình ảnh trong quá trình đào tạo trước.
Giới thiệu kiến thức ngành: Giới thiệu kiến thức của ngành và học các mô hình phù hợp với đồ họa của các ngành công nghiệp khác nhau.
Hiểu video: Thực hiện sự hiểu biết đa phương thức về văn bản, hình ảnh và video.
Tôi tin rằng dựa trên khả năng phù hợp mạnh mẽ của Bert, sự phù hợp và hợp nhất thông tin đa phương thức sẽ ngày càng trở nên thông minh hơn.
Điều cuối cùng tôi muốn nói là chúng tôi tuyển người! Bộ phận của tôi là một nhóm kinh doanh công nghệ bán lẻ mới, chủ yếu là tiêu cựcChịu trách nhiệm về công việc thuật toán liên quan đến tìm kiếm, khuyến nghị, sản phẩm và các lĩnh vực khác của trang web và ứng dụng Alibaba.com. Tôi đang mong chờ các sinh viên có nền tảng về học máy/xử lý ngôn ngữ tự nhiên/xử lý hình ảnh/khai thác dữ liệu. Các sinh viên quan tâm có thể gửi sơ yếu lý lịch của họ đến địa chỉ email của tôi, [email protected].
Jia Yang Khánh được chia sẻ tại chỗ
Sự phát triển của các thuật toán và hệ thống trí tuệ nhân tạo
Jia Yuan, Giám đốc của Khoa Kiến trúc AI, Nhà khoa học nghiên cứu của Google Brain, cha của Caffe, một trong những tác giả của Tensorflow, và Ph.D. trong khoa học máy tính từ Đại học California, Berkeley. Thông qua việc chia sẻ này, quá trình tiến hóa của các thuật toán trí tuệ nhân tạo và các hệ thống tương ứng trong những năm gần đây được giới thiệu, và hình thức sản phẩm và kịch bản người dùng được giải thích từ góc độ kỹ thuật.