למידת מכונה

מה מכונות (תוכנות) יכולות לעשות בעריכת תמונות

05.03.2024

572

כדי לערוך תמונה בצורה תכנותית, מודל GAN צריך סמנטיקה מורחבת ואימון מקדים. כך הוא יוכל לחקות הבעות ותנועות של הדמות. מה כבר הצליחו רשתות גנרטיביות מתחרות להשיג בזה – קראו בסקירה.

Data Science ו‑Machine Learning

StyleGAN

זהו ממשק גרפי לעריכת פורטרטים. הבסיס הוא מודל ArcFace. במסך יש שדות להזנת טקסט, ובעזרת מילות מפתח ניתן לקבוע פרמטרים של העריכה: לשנות צבע, נפח ואורך שיער, להסיר או להוסיף איפור, ואף לכוון בקלות את גיל הדמות.

EigenGAN

המערכת מזהה בעצמה מרחבים נסתרים ומשתמשת בהם למניפולציות: החלפת מין הדמות, סיבוב הגוף, שינוי תנוחה או תסרוקת. היא מתקשה רק במשקפיים כי הם נדירים בנתונים, ולעיתים מבלבלת מין או תנוחה. שאר המאפיינים מטופלים היטב.

ReStyle

כדי לערוך תמונה, המודל הופך את הקוד הסמוי של התמונה. במקום מעבר יחיד לחיזוי הקוד, המערכת מחשבת בכל צעד את השארית ביחס למצב הנוכחי של הקוד הסמוי המהופך, ולכן האיכות משתפרת משמעותית.

Geometry-Free View Synthesis

המערכת בונה תמונה תלת־ממדית מתוך צילום אחד. מספיק להעלות תמונה של חדר או חלק מדירה, והיא תשלים בעצמה כמה וריאנטים. נעשה שימוש בייצוג של מרחב מקוונטז, ללא צורך במודלי 3D או תיאורי גאומטריה מוכנים – המערכת לומדת את הפרמטרים המרחביים לבד.

LatentCLR

עובד עם המרחב הסמוי של מודלי GAN ומזהה וקטורים משמעותיים. משתמש בלמידה השוואתית ללא פיקוח אנושי. הווקטורים הלא־ליניאריים מזוהים בגרסאות מאומנות כמו BigGAN ו‑StyleGAN2.

Articulated Animation

מסוגל ליצור דיפפייק בגוף מלא: מפריד את הגוף מהרקע, מזהה סגנון תנועה ומייצר תנועות חדשות. לא תלוי באדם ספציפי – לומד ומיישם על כל מי שתזינו.

VideoGPT

ארכיטקטורה חדשה ליצירת וידאו. עושה שימוש בקודק אוטומטי VQ-VAE כדי ליצור ייצוג סמוי של הווידאו ללא תיוג, עם קונבולוציות תלת־ממד ו‑self-attention, ולאחר מכן GPT לאוטורגרסיה וקידוד בזמן.

MiVOS

עוקב אחרי אובייקטים בווידאו ויוצר מסכות בינאריות. המסכות מועברות בין פריימים בזכות רשת קונבולוציה, והמשתמש יכול להשוות ולתקן בכל נקודה דרך ממשק גרפי נוח.