קובץ robots.txt הוא קובץ בסיסי וחשוב באופטימיזציה למנועי חיפוש ואבטחת האתר.
לפני הכל הוא יוצר את התקשורת בין האתר לזחלנים של מנועי החיפוש (אלו שסורקים את האתר), ומנחה אותם אילו עמודים או קבצים באתר מותר או אסור להם לסרוק ולבצע אינדוקס.
קובץ robots.txt – מהו?
קובץ robots.txt הוא קובץ טקסט פשוט שנמצא בספריית השורש של האתר (תיקיית ROOT). הוא מכיל הוראות למנועי החיפוש ומסייע להבין אילו עמודים ניתן לסרוק ובעיקר הוא מונע ממנועי חיפוש לבזבז זמן על סריקת עמודים לא חשובים, כפולים או פרטיים, וממקד אותם בתוכן החשוב והרלוונטי ביותר.
יתרונות מול חסרונות של קובץ robots.txt
יתרונות:
- אופטימיזציה של תקציב הסריקה: מונע ממנועי חיפוש לסרוק עמודים לא רלוונטיים כמו דפי התחברות, דפי תודה או דפי ארכיון פנימיים.
- הגנה על תוכן פרטי: יכול להסתיר תוכן שלא נועד לקהל הרחב, כמו קבצי מדיה, תיקיות פנימיות ודפי ניהול.
- שיפור מהירות האתר (במקרים מסוימים): כאשר הזחלנים לא צריכים לסרוק עמודים רבים, הם יכולים להתמקד בתוכן החשוב, מה שיכול להשפיע לחיוב על מהירות האתר.
חסרונות:
- אינו מנגנון אבטחה: קובץ robots.txt הוא רק בקשה, לא פקודה. זחלנים עשויים להתעלם מההוראות. בנוסף, משתמשים עדיין יכולים להגיע לעמודים חסומים אם הם יודעים את הכתובת הישירה.
- עלול לגרום לנזק SEO: הגדרה שגויה של הקובץ עלולה לגרום למנועי חיפוש לא לסרוק עמודים חיוניים, ובכך לפגוע בדירוג האתר בתוצאות החיפוש.
התחביר של קובץ robots.txt
התחביר של קובץ robots.txt מורכב משני סוגי פקודות עיקריים:
- User-agent: מציין את שם הזחלן של מנוע החיפוש שעליו חלה ההוראה. לדוגמה, User-agent: * מתייחס לכל הזחלנים.
- Disallow: מציין את הנתיב שבו חל איסור סריקה. לדוגמה, Disallow: /wp-admin/ מונע סריקת ספריית הניהול של וורדפרס.
- Allow: פקודה הפוכה ל-Disallow, המאפשרת סריקה של נתיב מסוים שנכלל תחת כלל איסור רחב יותר.
- Sitemap: מורה לזחלנים היכן למצוא את מפת האתר (Sitemap), מה שמסייע להם לאנדקס את כל העמודים הרלוונטיים.
דוגמה לקובץ robots.txt בסיסי עבור אתרי וורדפרס
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourdomain.com/sitemap_index.xml
בדוגמה למעלה הורתי לכל זחלני מנועי החיפוש לא לסרוק את ספריית הניהול של וורדפרס, אבל אפשרתי להם גישה לקובץ admin-ajax.php, שהוא חיוני לפעולות מסוימות באתר. לבסוף, היא מציגה את הנתיב למפת האתר, מה שמסייע למנועי החיפוש.
השפעת זחלני AI על האתר שלכם ועל הנראות בתוצאות חיפוש
בעידן הבינה המלאכותית, ישנם זחלנים חדשים שמנועי חיפוש מפעילים כדי לאסוף מידע עבור תכונות AI .
בעוד שבעבר זחלני מנועי החיפוש (כמו Googlebot) סרקו את האתר בעיקר כדי לאנדקס אותו ולהציג אותו בתוצאות חיפוש רגילות, כיום המצב שונה וזאת בעיקר ההשפעה של הבינה המלאכותית ועידן הAI.
זחלנים ייעודיים, כמו Google-extended ו-GPTBot, אוספים תוכן במטרה ספציפית:
- לאמן מודלי שפה גדולים (LLMs)
- להעשיר את המידע שמוצג בצ’אטים ובסיכומי AI.
היכן זה בא לידי ביטוי?
סיכומים מבוססי AI בתוצאות חיפוש: כאשר משתמשים מחפשים מידע כללי, מנועי חיפוש כמו גוגל ובינג מציגים לעיתים קרובות סיכומים מקיפים שנוצרו על ידי AI, עוד לפני שהם מציגים את התוצאות הרגילות. תוכן זה מבוסס על סריקה מרוכזת של מיליוני אתרים, וייתכן שהתוכן שלכם יופיע בסיכום זה.
צ’אטבוטים ורכיבי AI באתרי אינטרנט: יותר ויותר אתרים ויישומים משתמשים בצ’אטבוטים מבוססי AI כדי לענות על שאלות משתמשים. המידע שהם מספקים מגיע ישירות מהאתרים שזחלני AI סרקו.
צ’אטים ציבוריים (כמו ChatGPT): כאשר משתמשים שואלים שאלה ב-ChatGPT, לדוגמה, המערכת עשויה לספק תשובה המבוססת על תוכן שפורסם באתר שלכם. בתרחישים מסוימים, ייתכן שהיא אפילו תספק קישור למקור, וכך תביא תנועה חדשה לאתר.
ההשלכות על האתר והעסק שלכם
1. הגדלת הנראות והתנועה (Traffic): אם האתר שלכם יסרק על ידי זחלני AI, יש סיכוי שהוא ייכלל בתשובות ובסיכומים שייוצרו על ידי מנועי החיפוש.
לדוגמה: אם אתם מנהלים בלוג על מתכונים, ותוכן שלכם יסייע למנוע חיפוש לספק תשובה מקיפה, הדבר יכול להוביל לחשיפה רחבה יותר ובתמורה, להזרמת תנועה לאתר.
2. חשש מפני שימוש בתוכן: קיימת דאגה הולכת וגוברת מפני שימוש לא מבוקר בתוכן, כאשר מודלי AI מציגים את המידע מבלי לתת קרדיט או ללא קישור ישיר למקור. קובץ robots.txt מאפשר לכם להביע את העדפתכם בנושא זה.
3. שיקולים אסטרטגיים: ההחלטה אם לאפשר או לחסום זחלני AI תלויה באסטרטגיה שלכם:
חסימה: אם אתם מעוניינים להגן על התוכן שלכם משימוש חוזר או רוצים להימנע מכך שהתוכן יופיע מחוץ לאתר שלכם.
היתר: אם אתם מעוניינים להגביר את הנראות ואת החשיפה שלכם דרך ערוצים חדשים כמו צ’אטים וסיכומי AI, מה שיכול להוביל לתנועה חדשה ואיכותית לאתר.
דוגמה לקובץ robots.txt עם אפשרות מנועי חיפוש AI
צירפתי לכם את הפקודות לחסימה ולהיתר זחלני AI, הוסיפו את הפקודה בתוך קובץ Robot.txt a של האתר שלכם.
חסימה מלאה של זחלני AI
User-agent: Google-extended
Disallow: /
User-agent: GPTBot
Disallow: /
היתר מלא לזחלני AI
User-agent: Google-extended
Allow: /
User-agent: GPTBot
Allow: /
השימוש בקובץ robots.txt הוא דרך פשוטה אך אפקטיבית לקבוע את הכללים עבור זחלנים אלו, ולנהל את הנראות של האתר שלכם בעידן שבו תוכן נצרך בדרכים חדשות ומתפתחות.
טבלת רשימת הזחלנים של מנועי החיפוש כולל זחלני AI
| מנוע חיפוש | שם הזחלן | תחום |
| גוגל | Googlebot | כללי |
Googlebot-Image | תמונות | |
Googlebot-Mobile | מובייל | |
Googlebot-News | חדשות | |
Googlebot-Video | סרטונים | |
Google-extended | AI (אימון מודלים) | |
| AdsBot-Google | Google AdWords | |
Mediapartners-Google | Google AdSense | |
| בינג | Bingbot | כללי |
| MSNBot | כללי | |
| msnbot-media | סרטונים ותמונות | |
| AdIdxBot | Bing Ads (AI) | |
| Baidu | Baiduspider | כללי |
Baiduspider-image | תמונות | |
Baiduspider-mobile | מובייל | |
Baiduspider-news | חדשות | |
Baiduspider-video | סרטונים | |
| Yahoo | Slurp | כללי |
| Yandex | Yandex | כללי |
| OpenAI | GPTBot | AI (אימון מודלים) |
איפה קובץ ה robots.txt נמצא?
קובץ ה-robots.txt חייב להיות ממוקם בספריית השורש של האתר. במקרה של אתר וורדפרס, הוא צריך להיות בנתיב הראשי של האחסון.
לדוגמה: https://yourdomain.com/robots.txt.
חשוב לוודא שהקובץ נגיש באופן פומבי.
האם מומלץ להשתמש בקובץ robots.txt?
כל אתר, גדול כקטן, יכול להפיק תועלת מקובץ robots.txt מוגדר נכון. הוא מהווה חלק בלתי נפרד מפרקטיקות SEO בסיסיות, ומסייע לנהל את נראות האתר במנועי החיפוש בצורה חכמה ומבוקרת.
חשוב לנקוט משנה זהירות ולוודא שהקובץ מוגדר נכון, כדי להימנע מחסימת עמודים חשובים בטעות.
הפעלת קובץ Robot.txt עם תוסף Yoast SEO
אם יש ברשותכם אתר וורדפרס סביר להניח שתוסף Yoast SEO כבר מותקן באתר שלכם.
בהנחה והוא לא מותקן לכם באתר מומלץ להיכנס לספריית התוספים של וורדפרס ולהתקין אותו.
אם ברשותכם תוסף SEO אחר שהוא לא יואסט, אני ממליץ לייצר את הקובץ ששיתפתי למעלה במדריך ולהטמיע אותו בתיקיית public_html באופן עצמאי הקיימת בסביבת האחסון שלכם או בקשו סיוע מחברת האחסון שלכם.
שלב 1
ודאו שתוספי האבטחה כבויים באופן זמני באתר שלכם, הם יכולים למנוע ממכם לגשת לקובץ ישירות מתוסף יואטס.
לאחר מכן ניגש ללוח הבקרה ונלחץ על לשונית Yoast SEO ולאחר מכן נלחץ על כלים.

שלב 2
נגיש ללשונית עריכת קבצים.
שלב 3
ניצור באמצעות הכפתור את קובץ robot.txt.
שלב אחרון
נשמור את הקובץ או נטמיע את שאר הזחנלים לפני שורת SITEMAP.
וזהו סיימנו הכל יתחיל לעבוד בצורה תקינה ומנועי החיפוש יתחילו לסרוק את האתר שלכם!
מה ההבדל בין קובץ robot.txt לקובץ llms.txt?
קובץ robots.txt מורה למנועי חיפוש אילו דפים באתר לסרוק או לא לסרוק, בעוד קובץ llms.txt מכוון את כלי הבינה המלאכותית כיצד להשתמש בתוכן שכבר קיים באתר.
הראשון מתמקד בשליטה על סריקה ואינדוקס, והשני בשליטה על אופן ההצגה והציטוט של התוכן על ידי ה-AI.
להלן טבלת השוואה בין קובץ robot.txt לקובץ llms.txt:
| תכונה | robots.txt | llms.txt |
| מטרה עיקרית | שליטה בסריקה: מורה למנועי חיפוש (כמו Googlebot) אילו דפים או תיקיות לסרוק או לא לסרוק לצורך אינדוקס. | הכוונה ומתן הוראות: מורה למודלי בינה מלאכותית (LLMs) כיצד להשתמש בתוכן האתר (לדוגמה, ציטוט, סיכום, או אזכור). |
| מנועים רלוונטיים | מנועי חיפוש (Google, Bing, DuckDuckGo). | מנועי חיפוש גנרטיביים וכלי AI (ChatGPT, Google SGE, Bing Copilot, Claude). |
| פורמט | קובץ טקסט פשוט (.txt) עם פקודות כמו User-agent, Allow, Disallow. | קובץ טקסט פשוט (.txt) עם פקודות דומות וכן פקודות ייעודיות כמו Request-Attribution. |
| שליטה על אינדוקס | שליטה ישירה: חסימת עמודים באמצעות Disallow מונעת מהם כמעט בוודאות להופיע בתוצאות חיפוש. | שליטה עקיפה: מטרתו אינה למנוע אינדוקס, אלא להנחות כיצד התוכן שכן אונדקס צריך להיות מוצג על ידי ה-AI. |
| השפעה על דירוג | השפעה ישירה: עמודים שנסרקים היטב ומוערכים יכולים לדרג גבוה יותר. | השפעה עקיפה: עמודים שהונחו היטב ל-AI יכולים לקבל אזכורים ב”תשובות גנרטיביות” ובכך לשפר את הנראות והאמינות. |
| טיפול בקניין רוחני | ללא מענה ישיר: אין בקובץ זה פקודות להתייחסות לקניין רוחני או לציטוט. | מענה ישיר: כולל פקודות כמו Request-Attribution המאפשרות לבעל האתר לבקש קרדיט על התוכן. |
| מטרת הבעלים | למנוע עמודים לא רלוונטיים או פרטיים מלהופיע בתוצאות החיפוש. | להבטיח שהתוכן האיכותי ביותר מוצג בצורה הטובה ביותר על ידי ה-AI, תוך שמירה על המותג. |
לסיכום על קובץ robots.txt
קובץ robots.txt הוא כלי פשוט אך עוצמתי שמספק שליטה על אופן הסריקה של האתר על ידי מנועי החיפוש.
השימוש בו מאפשר לכם להגן על מידע רגיש, למקד את פעולות הסריקה בתוכן החשוב ביותר ולבנות בסיס חזק לאופטימיזציה למנועי חיפוש. עבור אתרי וורדפרס, השימוש בתוספים ייעודיים יכול להפוך את ניהול הקובץ לפשוט וקל.
קראו עוד על קידום אתרים בגוגל.



