当AI长出眼睛长出耳朵，AI第二浪即将到来！

lemooljiang (73)蒋老师in STEEM CN/中文 • 2 years ago

先来看个简单的案例，体会下。

需求：将图中（左侧）的电费输入excel表中，分两列，一列是电费数据，一列是日期。最后给出电费总额。

我用gpt-4o测试了下，非常简单就跑通了（上图右侧）。提示词非常简单，加上图片的url就可以使用，如下所示：

Openai.chat.completions.create({
    model: "gpt-4o",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "将图片中的电费按表格的形式录入，分两列，一列是电费数据，一列是日期。最后给出电费总额" },
          {
            type: "image_url",
            image_url: {
              "url": "https://ipfs.ilark.io/ipfs/QmRavxx",
            },
          },
        ],
      },
    ],
  })

这是多模态大模型（文字、图像、语音等多种信息形式）的典型应用。虽然以上的案例很简单，但是通过叠加等形式就可以开发出复杂的应用。

多模态简介

多模态就是指多种信息来源或表现形式，比如文字、图像、语音、视频等。而多模态大模型，就是能够同时处理和理解这些不同模态信息的模型。 多模态大模型通过理解和融合文字、图像、语音等多种信息形式，提升人机交互的智能与便利性。它可以在自动驾驶和医疗等领域中应用。在上文的案例中就是通过识别图像来写入数据。