AI Operators / Creative Interfaces

에이전트는 사이드바가 아니라 캔버스 위에서 일해야 한다

tldraw의 Fairydraw 실험은 “AI로 그림을 그린다”는 데모가 아니라, 에이전트가 실제 작업 공간 안으로 들어올 때 제품 인터페이스와 권한 설계가 어떻게 바뀌는지 보여준다.

2026.05.08|영상 길이 19:39|출처 AI Engineer / tldraw

NerdMakr JournalAI, 데이터, 자동화, 에이전트 운영을 비즈니스 관점에서 해석합니다.

Agents on the Canvas in tldraw 발표 썸네일 — 이미지 출처: YouTube 「Agents on the Canvas in tldraw — Steve Ruiz, tldraw」 by AI Engineer

Steve Ruiz의 tldraw 발표는 겉으로 보면 귀여운 데모입니다. 캔버스 위에 낙서를 하고, 고양이를 그리고, 요정처럼 생긴 에이전트들이 돌아다니며 와이어프레임을 만듭니다. 그런데 이 발표가 중요한 이유는 귀여움 때문이 아닙니다. 여기에는 앞으로 AI 제품 인터페이스가 어디로 움직일지에 대한 힌트가 들어 있습니다.

대부분의 AI 제품은 여전히 채팅창 또는 사이드바에 에이전트를 가둡니다. 사용자는 작업물을 보면서 옆에 있는 AI에게 지시하고, AI는 결과를 다시 던져줍니다. tldraw의 실험은 이 구조를 뒤집습니다. 에이전트를 “명령을 받는 입력창”이 아니라 사용자와 같은 공간에서 같은 객체를 만지는 작업자로 배치합니다.

에이전트 UX의 다음 병목은 모델 성능보다 “AI가 어디에서 일하고, 사용자는 그 일을 어떻게 볼 수 있는가”에 있다.

NerdMakr 해석: 이 발표는 canvas AI 데모가 아니라 작업 공간의 재설계 이야기다. 에이전트가 결과만 반환하는 도구에서, 상태·위치·행동·권한을 가진 협업자로 바뀌면 제품은 채팅 UI가 아니라 운영 공간이 되어야 한다.

1. Make Real의 핵심은 생성이 아니라 “캔버스가 프롬프트가 되는 것”이었다

발표 초반에 Ruiz는 2023년의 Make Real을 다시 꺼냅니다. 사용자가 tldraw 캔버스에 대충 UI를 그리고 버튼을 누르면, 모델이 그것을 작동하는 HTML 프로토타입으로 바꿔주는 실험입니다. 지금 기준으로는 단순해 보일 수 있지만, 당시에는 비개발자가 코드를 보지 않고도 기술적인 결과물을 만들 수 있다는 점에서 큰 전환이었습니다.

여기서 중요한 것은 “그림을 코드로 바꿨다”가 아닙니다. 사용자의 낙서, 화살표, 색상 표시, 기존 화면 위 주석이 모두 프롬프트가 된다는 점입니다. 텍스트 프롬프트는 사용자가 작업 맥락을 다시 설명해야 하지만, 캔버스 프롬프트는 작업 맥락 자체를 입력으로 씁니다.

Make Real 캔버스 데모 캡처 — **02:38캔버스가 프롬프트가 되는 순간**Make Real은 낙서와 주석을 모델 입력으로 사용했다. 핵심은 텍스트 명령이 아니라 작업물이 있는 공간 자체가 AI와 대화하는 인터페이스가 된다는 점이다.

채팅형 프롬프트

사용자가 작업 맥락을 말로 다시 설명해야 한다. 결과는 대화창 바깥으로 복사되어야 한다.

캔버스형 프롬프트

사용자가 이미 만든 객체, 위치, 주석, 색상, 연결 관계가 그대로 지시가 된다.

2. 이미지 생성이 아니라 구조화된 객체 조작이 필요하다

tldraw가 흥미로운 지점은 AI가 단순히 이미지를 생성하지 않는다는 데 있습니다. Ruiz는 모델이 캔버스 위에서 사람이 만들 수 있는 것과 같은 원, 선, 도형, 텍스트 같은 구조화된 객체를 만든다고 설명합니다. 이것은 diffusion 이미지와 전혀 다른 문제입니다.

구조화된 캔버스에서는 “왼쪽”, “위”, “Y축” 같은 말도 애매해집니다. 수학 그래프에서는 위로 갈수록 Y값이 커지지만, 웹 좌표계에서는 아래로 갈수록 Y값이 커집니다. 사용자의 왼쪽과 무대의 왼쪽도 다릅니다. AI가 캔버스에서 일하려면 보기 좋은 이미지를 만드는 것보다 좌표계, 객체 상태, 편집 가능성을 안정적으로 다루는 능력이 중요합니다.

tldraw 캔버스 위 구조화된 객체 생성 데모 캡처 — **05:26이미지가 아니라 편집 가능한 객체**모델은 픽셀 이미지를 내보내는 대신 캔버스 도구가 만들 수 있는 객체를 생성한다. 그래서 결과물은 다시 선택·수정·조합될 수 있다.

제품 관점: AI 디자인/화이트보드 도구의 품질은 “예쁜 그림”보다 “사용자가 다음 행동을 이어갈 수 있는 객체를 남기는가”에서 갈린다. 출력이 편집 불가능하면 협업이 아니라 납품이 된다.

3. 에이전트 루프는 캔버스 위에서도 필요하지만, 사이드바만으로는 부족하다

다음 단계는 일회성 생성이 아니라 agentic loop였습니다. 모델이 결과를 만들고, 스스로 검토하고, 다시 고치고, 완료 판단을 내리는 구조입니다. 코딩 에이전트에서 익숙한 패턴을 캔버스 작업에 가져온 셈입니다.

하지만 Ruiz는 이 방식도 충분하지 않았다고 말합니다. 여전히 “내 키보드를 AI에게 잠깐 빌려준 느낌”에 가까웠기 때문입니다. AI는 사이드바나 보이지 않는 프로세스 안에서 일하고, 사용자는 결과가 끝날 때까지 기다립니다. 협업이라기보다는 대리 작업에 가깝습니다.

버터플라이 라이프사이클 다이어그램을 캔버스에서 생성하는 에이전트 루프 데모 캡처 — **08:35생성-검토-수정 루프**버터플라이 생애 주기 다이어그램을 만드는 장면은 코딩 에이전트의 반복 루프가 캔버스 작업에도 적용될 수 있음을 보여준다. 하지만 루프가 보이지 않으면 사용자는 여전히 기다리는 사람으로 남는다.

1 사용자가 캔버스 안의 목표를 지정한다

2 에이전트가 구조화된 객체를 만든다

3 결과를 스스로 검토한다

4 부족한 부분을 다시 수정한다

5 사용자는 결과뿐 아니라 과정까지 확인해야 한다

4. Fairies의 발상: 에이전트를 작업 공간 안에 보이게 만들기

그래서 tldraw는 에이전트를 캔버스 안으로 끌어냅니다. Fairydraw의 요정들은 단순한 마스코트가 아닙니다. 사용자는 여러 에이전트가 어디에서 무엇을 하고 있는지 볼 수 있고, 에이전트끼리 서로의 작업을 인식하며, 같은 캔버스 위의 다른 영역에서 동시에 일할 수 있습니다.

이건 UX적으로 꽤 큰 차이입니다. 코딩 에이전트에서 여러 터미널 창을 띄우는 것처럼, 캔버스에서는 여러 에이전트의 상태와 위치가 시각화됩니다. “생각 중”이라는 텍스트 로그보다, 어떤 객체 근처에서 어떤 작업을 하고 있는지가 더 직접적인 피드백이 됩니다.

tldraw Fairies 에이전트가 캔버스 위에 보이는 데모 캡처 — **10:22보이는 에이전트 상태**에이전트가 사이드바 로그가 아니라 캔버스 안의 존재로 나타나면, 사용자는 결과만이 아니라 작업 위치와 상태를 함께 읽을 수 있다.

숨은 에이전트

사용자는 “지금 뭘 하는지”를 로그나 최종 결과로만 추측한다.

보이는 에이전트

사용자는 에이전트의 위치, 대상 객체, 진행 상태를 공간적으로 이해한다.

5. 멀티 에이전트의 진짜 문제는 “더 많이 부르기”가 아니라 조율이다

Fairies에서 더 흥미로운 장면은 여러 요정을 동시에 잡아 “동물을 더 그려줘”라고 시키는 부분입니다. 이때 한 에이전트가 리더로 선출되고, 캔버스를 살펴본 뒤 할 일 목록을 만들고, 다른 에이전트에게 작업을 나눕니다. 리더는 직접 모든 작업을 하지 않고 관찰·판단·완료 확인을 맡습니다.

이 장면은 멀티 에이전트 제품의 핵심을 잘 보여줍니다. 병렬 실행 자체는 쉽습니다. 어려운 것은 공유 상태, 작업 충돌, 역할 분담, 완료 판단입니다. 특히 캔버스처럼 같은 공간의 객체를 여러 작업자가 만지는 환경에서는 “누가 무엇을 어디까지 해도 되는가”가 UX와 시스템 설계의 중심이 됩니다.

Fairies 리더 에이전트가 작업을 위임하는 데모 캡처 — **11:36리더-팔로워 조율**한 에이전트가 리더가 되어 캔버스를 관찰하고 할 일을 나눈다. 멀티 에이전트의 본질은 호출 수가 아니라 공유 공간에서의 충돌 방지와 완료 판단이다.

운영 관점: “에이전트 N개를 붙인다”는 말은 제품 전략이 아니다. 실제 제품에는 리더 선출, 작업 단위, 권한 범위, 상태 공유, 실패 복구, 사람의 개입 지점이 필요하다.

6. 더 강한 에이전트는 더 위험한 권한 모델을 요구한다

발표 후반부는 훨씬 날카롭습니다. tldraw는 에이전트에게 더 많은 캔버스 접근권을 주고 싶었지만, 곧 안전성의 벽에 부딪힙니다. 캔버스 런타임은 코드로 조작할 수 있고, AI는 코드를 잘 씁니다. 그렇다면 에이전트가 직접 에디터 API를 호출하고, DOM을 보고, 스크린샷을 만들고, 필요한 코드를 실행하게 하면 어떨까요?

Ruiz는 휴일 동안 Electron 래퍼로 로컬 데스크톱 앱을 만들고, 포트를 열어 HTTP로 들어온 JavaScript를 실행하는 실험을 했다고 설명합니다. 본인도 “좋은 아이디어가 아니다”라고 농담하지만, 동시에 이 구조가 왜 매력적인지도 분명합니다. 에이전트에게 실제 런타임을 만질 권한을 주면, 단순한 그림 생성이 아니라 코드와 캔버스 사이의 추상화 레벨을 자유롭게 오갈 수 있습니다.

로컬 데스크톱 앱과 HTTP 포트를 통한 런타임 실행 설명 캡처 — **14:28로컬 런타임에 열린 포트**오프라인 파일 기반 데스크톱 앱에서 JavaScript 실행 포트를 여는 실험은 에이전트 권한이 강해질수록 제품의 안전 경계도 함께 재설계되어야 함을 보여준다.

에이전트가 tldraw 에디터 API로 인터랙티브 UI를 만들려는 데모 캡처 — **15:55에디터를 직접 스크립팅하는 에이전트**에이전트가 on hover/on click 같은 원시 기능이 없는 캔버스 위에서도 에디터 API를 조작해 인터랙션을 만들려 한다. 이 지점부터 AI는 도구 사용자가 아니라 런타임 조작자가 된다.

7. local-first와 file-over-app은 취향이 아니라 권한 컨테이너가 된다

발표의 결론은 의외로 local-first와 file-over-app으로 이어집니다. 과거에는 로컬 파일 기반 앱이 이상주의적 취향처럼 보일 수 있었습니다. 하지만 에이전트에게 높은 권한을 주려면 이야기가 달라집니다. 웹 서비스 전체를 조작하게 하는 것과, 사용자의 로컬 파일/오프라인 앱 안에서 날카로운 도구를 쓰게 하는 것은 위험의 단위가 다릅니다.

Ruiz의 표현처럼 이런 도구는 “sharp tools”입니다. 강력한 에이전트는 사용자에게 실제 생산성을 주지만, 동시에 사용자의 컴퓨터와 파일을 건드릴 수 있습니다. 그래서 제품 설계자는 단순히 기능을 열어주는 사람이 아니라 권한이 폭발하지 않도록 작업 공간의 경계를 설계하는 사람이 됩니다.

1 채팅창 AI: 텍스트로 지시하고 결과를 받는다

2 캔버스 AI: 작업물 자체를 맥락으로 사용한다

3 보이는 에이전트: 상태와 위치를 작업 공간 안에서 드러낸다

4 멀티 에이전트: 리더·팔로워·공유 상태가 필요해진다

5 런타임 에이전트: 권한과 안전 경계가 제품의 핵심이 된다

8. 결국 에이전트 제품은 “대화 UI”가 아니라 “작업장 UI”로 간다

이 발표를 한 문장으로 정리하면, 에이전트는 더 이상 채팅창 안에서만 살 수 없다는 것입니다. 코딩 에이전트가 IDE, 터미널, 파일 시스템, PR, CI와 붙으면서 작업자가 된 것처럼, 디자인·화이트보드·문서 에이전트도 실제 작업 공간의 객체와 권한을 가져야 합니다.

다만 그 순간 제품 난이도는 올라갑니다. 사용자는 에이전트가 어디서 무엇을 하는지 볼 수 있어야 하고, 여러 에이전트가 충돌하지 않아야 하며, 에이전트가 런타임을 조작할 때 위험이 어디까지인지 이해할 수 있어야 합니다. 그래서 앞으로의 AI UX는 “더 좋은 챗봇”이 아니라 사람과 에이전트가 같은 공간에서 일하는 작업장 운영체제에 가까워질 가능성이 큽니다.

핵심 정리

tldraw의 핵심 실험은 AI 그림 생성이 아니라 캔버스 자체를 프롬프트와 작업 공간으로 만드는 것이다.
AI가 픽셀 이미지를 내보내는 것보다, 선택·수정 가능한 구조화된 객체를 남기는 것이 협업 제품에서는 더 중요하다.
에이전트 루프는 캔버스 작업에도 유효하지만, 보이지 않는 사이드바 안에 있으면 사용자는 여전히 기다리는 사람으로 남는다.
Fairies는 에이전트의 상태와 위치를 작업 공간 안에 시각화해 “보이는 협업자”로 만든다.
멀티 에이전트의 본질은 병렬 호출이 아니라 공유 상태, 역할 분담, 충돌 방지, 완료 판단이다.
에이전트에게 런타임 접근권을 줄수록 제품의 핵심 문제는 기능이 아니라 권한·안전 경계가 된다.
local-first와 file-over-app은 에이전트 시대에 단순 취향이 아니라 위험을 제한하는 권한 컨테이너가 될 수 있다.
AI 제품 인터페이스는 채팅 UI에서 사람과 에이전트가 함께 일하는 작업장 UI로 이동하고 있다.

Sources: YouTube video “Agents on the Canvas in tldraw — Steve Ruiz, tldraw” by AI Engineer, uploaded 2026-05-01. Transcript extracted with YouTube transcript API on 2026-05-08; English transcript was used as the primary source. Original URL: https://www.youtube.com/watch?v=sPUjIBH5Cwg. Screenshots are captured from the public YouTube source for learning/commentary purposes.