למידת מכונה

מה מכונות (תוכנות) יכולות לעשות בעריכת תמונות

05.03.2024
572

כדי לערוך תמונה בצורה תכנותית, מודל GAN צריך סמנטיקה מורחבת ואימון מקדים. כך הוא יוכל לחקות הבעות ותנועות של הדמות. מה כבר הצליחו רשתות גנרטיביות מתחרות להשיג בזה – קראו בסקירה.

Data Science ו‑Machine Learning

9583b3106656

StyleGAN


זהו ממשק גרפי לעריכת פורטרטים. הבסיס הוא מודל ArcFace. במסך יש שדות להזנת טקסט, ובעזרת מילות מפתח ניתן לקבוע פרמטרים של העריכה: לשנות צבע, נפח ואורך שיער, להסיר או להוסיף איפור, ואף לכוון בקלות את גיל הדמות.

EigenGAN


המערכת מזהה בעצמה מרחבים נסתרים ומשתמשת בהם למניפולציות: החלפת מין הדמות, סיבוב הגוף, שינוי תנוחה או תסרוקת. היא מתקשה רק במשקפיים כי הם נדירים בנתונים, ולעיתים מבלבלת מין או תנוחה. שאר המאפיינים מטופלים היטב.

ReStyle


כדי לערוך תמונה, המודל הופך את הקוד הסמוי של התמונה. במקום מעבר יחיד לחיזוי הקוד, המערכת מחשבת בכל צעד את השארית ביחס למצב הנוכחי של הקוד הסמוי המהופך, ולכן האיכות משתפרת משמעותית.
59b8d7469e92

Geometry-Free View Synthesis


המערכת בונה תמונה תלת־ממדית מתוך צילום אחד. מספיק להעלות תמונה של חדר או חלק מדירה, והיא תשלים בעצמה כמה וריאנטים. נעשה שימוש בייצוג של מרחב מקוונטז, ללא צורך במודלי 3D או תיאורי גאומטריה מוכנים – המערכת לומדת את הפרמטרים המרחביים לבד.

LatentCLR


עובד עם המרחב הסמוי של מודלי GAN ומזהה וקטורים משמעותיים. משתמש בלמידה השוואתית ללא פיקוח אנושי. הווקטורים הלא־ליניאריים מזוהים בגרסאות מאומנות כמו BigGAN ו‑StyleGAN2.

Articulated Animation


מסוגל ליצור דיפפייק בגוף מלא: מפריד את הגוף מהרקע, מזהה סגנון תנועה ומייצר תנועות חדשות. לא תלוי באדם ספציפי – לומד ומיישם על כל מי שתזינו.

VideoGPT


ארכיטקטורה חדשה ליצירת וידאו. עושה שימוש בקודק אוטומטי VQ-VAE כדי ליצור ייצוג סמוי של הווידאו ללא תיוג, עם קונבולוציות תלת־ממד ו‑self-attention, ולאחר מכן GPT לאוטורגרסיה וקידוד בזמן.

MiVOS


עוקב אחרי אובייקטים בווידאו ויוצר מסכות בינאריות. המסכות מועברות בין פריימים בזכות רשת קונבולוציה, והמשתמש יכול להשוות ולתקן בכל נקודה דרך ממשק גרפי נוח.

DINO


גישה חדשנית ללא תיוג ידני: שילוב של טרנספורמרים ולמידה עצמית. המודלים לומדים על נתונים לא מסומנים, מפעילים פוקוס סלקטיבי ומייצרים השערות.

CPA


חוזה את האפקט של שילובי מאפיינים מחוברים.
05.03.2024
572
לדון בפרויקט
בחרו סוג משימה, ספרו עליה, איך אתם רואים את הפתרון והתוצאה:
0/500
אנא מלאו את כל השדות חובה