ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Google의 선구적인 움직임: AI 검색에 이미지 생성 추가 및 대규모 다중 모드 모델의 부상
    IT 일반 2023. 11. 20. 21:49
    반응형

    출처 : https://chatgptai.mobi 

     

    ChatGPTAI

    ChatGPTAI: The Future of Conversational AI

    chatgptai.mobi

    Google, AI 검색에 이미지 생성 기능 추가해 대규모 멀티모달 모델 시대 개막

    구글이 현재 테스트 중인 생성적 AI 검색(SGE) 에 이미지 생성 기능을 추가했다 . 이러한 움직임은 마이크로소프트가 최근 '빙챗(Bing Chat)'에 '달리3(Dali 3)'를 추가한 데 따른 것이다. Google과 Microsoft는 모두 다중 모드 검색 경험에 대한 증가하는 수요를 충족하기 위해 텍스트 외에 이미지도 생성할 수 있는 AI 기반 검색 엔진을 개발하기 위해 경쟁하고 있습니다 .

     

    이미지 생성은 검색 엔진을 위한 강력하고 새로운 기능입니다. 이를 통해 사용자는 자연어 쿼리를 사용하여 이미지를 검색하고 해당 설명을 기반으로 새로운 이미지를 생성할 수 있습니다. 이는 창의적인 프로젝트 에 대한 영감을 찾거나, 새로운 제품을 연구하거나, 단순히 우리 주변 세계에 대해 더 많이 배우는 등 다양한 작업에 유용할 수 있습니다 .

     

    Google의 새로운 이미지 생성 기능은 방대한 텍스트 및 이미지 데이터세트에 대해 학습된 대규모 다중 모드 모델인 Imagen을 기반으로 합니다 . Imagen은 텍스트 설명에서 현실적이고 창의적인 이미지를 생성할 수 있으며 이미지를 한 스타일에서 다른 스타일로 변환하는 데에도 사용할 수 있습니다.

     

    Microsoft의 Dali 3도 이미지를 생성할 수 있는 대규모 다중 모드 모델입니다. 그러나 Dali 3는 아직 개발 중이며 아직 Imagen만큼 성능이 뛰어나지는 않습니다.

     

    검색 엔진에 이미지 생성 기능을 추가한 것은 중요한 발전입니다. 이는 사용자가 보다 자연스럽고 직관적인 방식으로 검색 엔진과 상호 작용할 수 있는 새로운 다중 모드 검색 시대의 시작을 의미합니다.

    이것이 검색의 미래에 어떤 의미를 지니나요?

    Imagen 및 Dali 3과 같은 대규모 다중 모드 모델 의 등장은 검색의 미래 에 큰 영향을 미칠 가능성이 높습니다 . 이러한 모델은 텍스트 설명에서 현실적이고 창의적인 이미지를 생성할 수 있어 다중 모드 검색 경험에 대한 새로운 가능성을 열어줍니다 .

     

    예를 들어, 사용자는 "소파에 앉아 있는 고양이 사진", "미래 도시 그림"과 같은 자연어 쿼리를 사용하여 이미지를 검색할 수 있습니다. 또한 “미래 도시의 소파에 앉아 있는 고양이 사진”과 같은 설명을 바탕으로 새로운 이미지를 생성할 수도 있습니다.

     

    이는 우리가 정보를 검색하고 상호 작용하는 방식에 혁명을 일으킬 수 있습니다. 예를 들어, 이미지를 찾기 위해 일련의 키워드를 입력하는 대신, 우리가 찾고 있는 것을 자연어로 간단하게 설명할 수 있습니다. 이를 통해 장애가 있는 사람들이 검색에 더 쉽게 접근할 수 있게 될 것이며, 사람들이 필요한 정보를 빠르고 쉽게 찾는 것도 더 쉬워질 것입니다.

    LLM의 시대는 끝났다

    대규모 다중 모드 모델의 등장은 대규모 언어 모델 ( LLM ) 시대의 종말을 의미합니다 . LLM은 대규모 텍스트 데이터 세트에 대해 훈련된 AI 모델입니다. 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성하고, 유익한 방식으로 질문에 답변하는 데 사용할 수 있습니다.

     

    그러나 LLM은 이미지 및 비디오와 같은 다중 모드 콘텐츠를 생성하고 이해하는 능력이 제한되어 있습니다. 반면에 대규모 다중 모드 모델은 텍스트와 다중 모드 콘텐츠를 모두 생성하고 이해할 수 있습니다.

     

    이는 대규모 다중 모드 모델을 LLM보다 더 다양하고 강력하게 만듭니다. 결과적으로, 검색 엔진, 소셜 미디어 플랫폼, 창의적인 도구를 포함한 광범위한 애플리케이션에서 대규모 다중 모드 모델이 사용되는 것을 볼 수 있을 것으로 예상됩니다.

    결론

    검색 엔진에 이미지 생성 기능을 추가한 것은 중요한 발전입니다. 이는 사용자가 보다 자연스럽고 직관적인 방식으로 검색 엔진과 상호 작용할 수 있는 새로운 다중 모드 검색 시대의 시작을 의미합니다.

     

    Imagen 및 Dali 3과 같은 대규모 다중 모드 모델의 등장은 검색의 미래에 큰 영향을 미칠 가능성이 높습니다. 이러한 모델은 텍스트 설명에서 현실적이고 창의적인 이미지를 생성할 수 있어 다중 모드 검색 경험에 대한 새로운 가능성을 열어줍니다.

     

    LLM의 시대는 가고 LMM(Large Multimodal Model)의 시대가 왔습니다.

    반응형
Designed by Tistory.