【美今詩歌集】【作者:童驛采】1999年~2020年 |訪問首頁|
『墨龍』 畫堂 |
李小璐
S.H.E墨龍
楊冪時尚
           

張含韻

 找回密碼
 註冊發言
搜索
查看: 6|回復: 0

让AI看图更聪明的"超级翻译器"问世

[複製鏈接]

64

主題

0

回帖

292

積分

中級會員

Rank: 3Rank: 3

積分
292
發表於 2025-7-15 20:20:16 | 顯示全部樓層 |閱讀模式
当我们拍下一张照片时,眼睛看到的是丰富多彩的画面,但电脑看到的却是一堆数字。如何让机器真正"理解"图像,一直是人工智能领域的核心挑战之一。最近,香港大学和字节跳动种子实验室的研究团队在这个方向上取得了重大突破,他们开发出了一个名为GigaTok的"超级翻译器",能够更好地帮助AI理解和生成图像。
这项由香港大学的刘希辉教授和熊天威,以及字节跳动种子实验室的廖俊豪、黄子龙、冯嘉时组成的研究团队,于2025年4月发表了题为"GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation"的研究论文。有兴趣深入了解的读者可以通过arXiv:2504.08736访问完整论文内容。





要理解这项研究的重要性,我们可以把它想象成语言翻译的过程。当你要把中文翻译成英文时,你需要一个懂得两种语言的翻译员。同样地,当AI要理解图像时,也需要一个"翻译员"把图像转换成它能理解的"语言"。这个翻译员在技术上被称为"视觉分词器",而GigaTok就是迄今为止最强大的视觉分词器,拥有惊人的30亿个参数。51黑料网

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 註冊發言

本版積分規則

Archiver|手機版|小黑屋|張含韻

GMT+8, 2025-8-5 00:37 , Processed in 0.169691 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回復 返回頂部 返回列表