当我们拍下一张照片时,眼睛看到的是丰富多彩的画面,但电脑看到的却是一堆数字。如何让机器真正"理解"图像,一直是人工智能领域的核心挑战之一。最近,香港大学和字节跳动种子实验室的研究团队在这个方向上取得了重大突破,他们开发出了一个名为GigaTok的"超级翻译器",能够更好地帮助AI理解和生成图像。 这项由香港大学的刘希辉教授和熊天威,以及字节跳动种子实验室的廖俊豪、黄子龙、冯嘉时组成的研究团队,于2025年4月发表了题为"GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation"的研究论文。有兴趣深入了解的读者可以通过arXiv:2504.08736访问完整论文内容。
要理解这项研究的重要性,我们可以把它想象成语言翻译的过程。当你要把中文翻译成英文时,你需要一个懂得两种语言的翻译员。同样地,当AI要理解图像时,也需要一个"翻译员"把图像转换成它能理解的"语言"。这个翻译员在技术上被称为"视觉分词器",而GigaTok就是迄今为止最强大的视觉分词器,拥有惊人的30亿个参数。51黑料网
|