קובץ robots.txt הוא קובץ טקסט הממוקם בתיקיית השורש של אתר אינטרנט. תפקידו הוא להנחות את מנועי החיפוש כיצד לסרוק את האתר, על ידי ציון אילו עמודים, תיקיות או קבצים מותר ואסור להם לסרוק. זהו כלי בסיסי לניהול נכון של האתר מבחינת SEO
מה מכיל קובץ robots.txt?
קובץ ה-robots.txt פועל באמצעות הוראות פשוטות שכוללות שני רכיבים עיקריים:
- User-agent: מזהה את הרובוט הספציפי שאליו מופנית ההוראה. לדוגמה, User-agent: Googlebot מתייחס לרובוט של גוגל, בעוד User-agent: * מתייחס לכל הרובוטים.
- Disallow: הוראה מפורשת שמונעת מהרובוט שצוין לסרוק קבצים או תיקיות ספציפיות.
- Allow: במקרים מסוימים, ניתן להשתמש בהוראה Allow כדי לאפשר גישה לקבצים או תיקיות ספציפיות בתוך תיקייה שמוגדרת כחסומה.
דוגמה פשוטה:
ser-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-admin/admin-ajax.php
הקוד הזה מורה לכל הבוטים לא לסרוק את תיקיות wp-admin ו-wp-includes (שמכילות קבצי מערכת של וורדפרס),
אך מאפשר גישה ספציפית לקובץ admin-ajax.php שנחוץ לפעולת האתר.
איך בודקים האם יש לי קובץ robots.txt באתר?
הקלדה של הכתובת https://yourdomain.co.il/robots.txt בדפדפן היא הדרך הפשוטה והישירה ביותר לצפות בתוכן של הקובץ.
זהו למעשה מה שרוב מנועי החיפוש עושים כשהם רוצים לראות את הקובץ. אם הקובץ קיים, השרת יציג את תוכנו, ותוכלו לראות את ההוראות שהגדרת.
עם זאת, חשוב להבדיל בין:
- צפייה בקובץ (robots.txt): פעולה זו רק מציגה לכם את תוכן הקובץ. היא שימושית כדי לוודא שהקובץ קיים והתוכן שלו נראה תקין.
- בדיקת תקינות (
robots.txt Testerב-GSC): כלי זה לא רק מציג את הקובץ, אלא גם מבצע בדיקת תחביר ומדמה את פעולתם של רובוטים שונים. הוא מאפשר לוודא שההוראות שלכם מפורשות על ידי גוגל כפי שרצית, וזה הצעד הקריטי ביותר.
איך מבצעים בפועל?
- יצירת הקובץ: יש ליצור קובץ טקסט בשם robots.txt (בדיוק כך, באותיות קטנות).
- העלאה לתיקיית הבסיס: יש להעלות את הקובץ לתיקיית הבסיס של האתר (root directory). כתובת ה-URL של הקובץ צריכה להיות https://yourdomain.co.il/robots.txt.
- שימוש בכלים: אם אתם משתמשים בפלאגינים של SEO כמו Yoast או Rank Math בוורדפרס, לרוב יש להם עורך מובנה לקובץ ה-robots.txt שמאפשר לערוך אותו ישירות מלוח הבקרה.
- בדיקה ב-GSC: לאחר העדכון, חשוב להשתמש בכלי "בודק ה-robots.txt" ב-Google Search Console כדי לוודא שאין שגיאות ושההוראות פועלות כראוי.
קובץ robots.txt והקשר שלו למנועי AI
עם העלייה בפופולריות של מנועי AI גנרטיביים כמו ChatGPT ושל מנועי חיפוש המבוססים על AI, נוצרו רובוטים חדשים שמטרתם לאסוף נתונים לאימון מודלי שפה. אם המטרה שלך היא דווקא לאפשר לבוטים אלה לגשת לתוכן שלך ולאסוף ממנו מידע, אין צורך להוסיף הוראות חסימה ייעודיות עבורם בקובץ robots.txt.
כברירת מחדל, אם לא צוינה הוראת Disallow ספציפית עבור בוט מסוים, הוא רשאי לסרוק את האתר. עם זאת, אם בעבר הגדרת חסימה כללית באמצעות User-agent: * והוספת חסימות בוטים AI ספציפיות, תצטרכי לוודא שההוראות הללו לא קיימות בקובץ שלך.
דוגמה לקובץ robots.txt שמאפשר גישה מלאה לכל הרובוטים, כולל רובוטים של AI:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Sitemap: https://yourdomain.co.il/sitemap.xml
בדוגמה זו, הרובוטים של AI כמו GPTBot ו-CCBot רשאים לסרוק את כל האתר, למעט התיקיות שצוינו במפורש. אם בעבר חסמתם אותם באופן ייעודי, עלייכם להסיר את השורות הללו כדי להבטיח שהם יוכלו לגשת לתוכן שלכם.
החלטה זו יכולה להיות בעלת חשיבות לטווח הארוך, שכן היא מאפשרת לתוכן שלכם להשתלב במאגרי מידע עתידיים של AI, מה שיכול להגביר את הנראות וההשפעה של האתר בסביבה הדיגיטלית החדשה.
- User-agent: CCBot: זהו הרובוט של Common Crawl, שמשמש לאימון מודלים רבים של AI. חסימה שלו תמנע שימוש בתוכן האתר לאימון מודלים.
- User-agent: GPTBot: הרובוט של OpenAI (מפתחת ChatGPT). חסימה שלו תמנע שימוש בתוכן האתר לאימון מודלים של OpenAI.
- User-agent: PerplexityBot: רובוט המשמש את מנוע התשובות Perplexity AI.
דוגמה להוספת הוראות AI:
User-agent: GPTBot
Disallow: /User-agent: CCBot
Disallow: /הקוד הזה מונע משני הבוטים הללו לסרוק את כל האתר. חשוב לציין שכל בוטי AI פועל תחת User-agent שונה, ולכן יש לזהות את הבוט הספציפי ולעדכן את ההוראות בהתאם.
נושאים נוספים שחשוב להכיר
- Sitemap: קובץ robots.txt הוא המקום המומלץ לציין את הכתובת של קובץ ה-sitemap.xml של האתר. לדוגמה: Sitemap: https://yourdomain.co.il/sitemap.xml.
- הבדל בין Disallow ל-noindex: חשוב להבין שחסימה ב-robots.txt מונעת רק סריקה, ולאו דווקא אינדוקס. אם גוגל מוצא קישור לדף שחסום ב-robots.txt, הוא יכול עדיין להציג אותו בתוצאות החיפוש עם הודעה כללית. כדי למנוע גם אינדוקס, יש להשתמש בתגית noindex ב-HTML של הדף עצמו.
- היזהרו מחסימות: חסימה שגויה של תיקיות חיוניות (כמו תיקיות עם קבצי CSS ו-JavaScript) עלולה לפגוע באופן חמור ביכולת של גוגל להבין ולדרג את הדף כראוי.
- קובץ ריק: קובץ robots.txt ריק או קובץ ללא הוראות חסימה אומר לרובוטים שהם רשאים לסרוק את כל האתר.
- גודל הקובץ: הקובץ מוגבל לגודל של 500KB.
קובץ robots.txt הוא כלי בסיסי אך עוצמתי לניהול נכון של כל אתר אינטרנט. הוא מאפשר לך להנחות את מנועי החיפוש ולמנוע מהם לבזבז משאבי סריקה על דפים פחות חשובים. בעזרת שימוש נכון בו, תוכלו לייעל את הסריקה של האתר, לשמור על תוכן מסוים מוסתר, בעידן הבינה המלאכותית גם לשלוט האם לאפשר לבוטים של AI לגשת לתוכן שלכם. זכרו תמיד להשתמש בו בזהירות, לבדוק את ההגדרות שלו, ולשלב אותו עם תגית noindex במידת הצורך כדי להשיג שליטה מלאה על האופן שבו האתר שלכם נראה ומתנהג ברשת.
מושגים מתוך המאמר על מה זה קובץ robots.txt?
| מושג | הסבר | |
| robots.txt | קובץ טקסט פשוט הממוקם בתיקיית השורש של אתר אינטרנט. | הקובץ הזה משמש כ"שלט הכוונה" לזחלני חיפוש (בוטים), שמנחה אותם אילו אזורים באתר מותר ואסור לסרוק. |
| User-agent | מזהה את הרובוט הספציפי שאליו מופנית ההוראה בקובץ robots.txt. | זהו רכיב שמאפשר להפנות הוראות ספציפיות, לדוגמה, רק לרובוט של גוגל (Googlebot) או לכל הרובוטים |
| Disallow | הוראה מפורשת בקובץ robots.txt שמונעת מהרובוט שצוין לסרוק קבצים או תיקיות ספציפיות. | באמצעות הפקודה הזו, ניתן לחסום, לדוגמה, את הגישה לתיקייה כמו /wp-admin/ כדי למנוע סריקה של קבצי ניהול. |
| Allow | הוראה בקובץ robots.txt המאפשרת גישה לקבצים או תיקיות ספציפיות, גם אם הן נמצאות בתוך תיקייה שמוגדרת כחסומה. | פקודה זו מאפשרת גמישות, למשל על ידי מתן גישה לקובץ חיוני כמו admin-ajax.php שנמצא בתוך תיקיית wp-admin שהיא חסומה בדרך כלל. |
| סריקה (Crawling) | הפעולה שבה רובוטים של מנועי חיפוש עוברים על הדפים באתר, מנתחים את תוכנם ועוקבים אחר הקישורים כדי לגלות דפים חדשים. | קובץ robots.txt משמש כדי להכווין את הסריקה הזו, ולמנוע מהרובוטים "לבזבז" משאבים על דפים לא חשובים. |
| אינדוקס (Indexing) | התהליך שבו מנועי חיפוש מאחסנים את המידע מהדפים שנסרקו במסד נתונים, כדי שיוכלו להציג אותם בתוצאות החיפוש. | חשוב לזכור שחסימה ב-robots.txt מונעת רק סריקה, ולא בהכרח מונעת אינדוקס של הדף בתוצאות החיפוש. |
| Sitemap | קובץ המכיל רשימה של כל הכתובות החשובות באתר. | קובץ robots.txt הוא המקום המומלץ לציין בו את הכתובת של קובץ ה-sitemap.xml כדי להקל על מנועי חיפוש למצוא את כל הדפים באתר. |
| noindex | תגית מטא שמוסיפים לקוד ה-HTML של דף אינטרנט כדי למנוע ממנועי חיפוש לאנדקס אותו ולהציג אותו בתוצאות. | בשונה מ-Disallow, שרק מונע סריקה, תגית זו מבטיחה שהדף לא יופיע בתוצאות החיפוש כלל. |
| GPTBot | הרובוט הספציפי של חברת OpenAI, שמפתחת את ChatGPT. | אם תחסמו אותו באמצעות robots.txt, תמנעו שימוש בתוכן האתר שלכם לאימון מודלים של OpenAI. |





















