כדי שעמודי אתר מסוים יופיעו בדפי תוצאות החיפוש של גוגל עבור שאילתות רלוונטיות של גולשים, גוגל צריך להכיר בעמודי האתר האלו, לאנדקס אותם, ולהחליט כי הם נותנים מענה איכותי לשאילתא שביצע הגולש. לשם כך, מפעיל מנוע החיפוש של גוגל זחלנים, אלו רכיבי תוכנה, שתפקידם לאתר עמודים שהוא אינו מכיר, או עמודים שהשתנו, ולהחליט האם הם ראויים לאינדוקס.

אלא שהפעולה הזאת, שנקראת בשם “זחילה”, היא פעולה שצורכת משאבים רבים, ובשל אילוצי משאבים של גוגל, וכן אילוצים הקשורים בפגיעה אפשרית בחווית המשתמשים המגיעים לאתרים הנסרקים, פעולת הזחילה והסריקה מתבצעת באופן חלקי בלבד.

מה זה אומר בפועל?

בעיקר, שלא ניתן להבטיח כי עמוד חדש שהתוסף לאתר, יסרק על ידי הזחלנים של גוגל והם יחליטו לאנדקס אותו. כיצד משפרים את הסיכוי שגוגל אכן יבחר לאנדקס עמודים רלוונטיים, שמייצרים ערך לגולש? בזה יעסוק המאמר הזה ממש.

סריקת עמודי אתר היא מפתח לקידום אתרים אפקטיבי

רבים סבורים כי סוגיית הזחילה והאינדוקס של עמודי האתר היא סוגיה שצריכה להעסיק בעלי אתרים גדולים בלבד, כאלו שמכילים מליוני עמודים, ושבהם קצב ייצור העמודים לא תואם את קצב הזחילה של גוגל. אלא שסוגיית האינדוקס של עמודי אתרים אינה נוגעת רק למספר העמודים המאונדקסים, אלא גם לתזמון האינדוקס שלהם.

עבור עמודים חדשים בנושאים קריטיים – ככל שהעמוד יסרק בשלב מוקדם יותר, כך הסיכוי שייצר נוכחות איכותית במנוע החיפוש הוא גדול יותר. עבור עמודים מעודכנים – גם כאן, ככל שגוגל יזהה את העדכון מוקדם יותר, כך, בסבירות גבוהה, האתר יחשב לרלוונטי יותר ועדכני יותר, אל מול צרכי המשתמשים השונים במנוע החיפוש.

זאת הסיבה, שביצוע אופטימיזציה של פעולת הזחילה עבור האתר הוא מפתח להצלחת קידום האתר, עבור כל אתר, בין אם מדובר באתר גדול מאוד המכיל עמודים רבים, ובין אם מדובר באתר נישתי.

תקציב הזחילה הוא מושג שעושים בו שימוש שגוי

בקהילת קידום האתרים, נהוג לעשות שימוש במושג “תקציב זחילה”, כדי לתאר כמות משאבים נתונה שהזחלנים של גוגל מוכנים להקדיש לצורך סריקת עמודי אתר נתון. לכאורה, תעדוף נכון של עמודי האתר תחת תקציב זחילה נתון, יכול לשפר את הביצועים של תהליך הזחילה.

בהקשר הזה, ישנם, על פי התפישה, שני פרמטרים המשפיעים על תקציב הזחילה: תקרת המשאבים של הזחלנים של גוגל, כלומר, כמה עמודים יכולים להיסרק בזמן נתון, והדרישה לאינדוקס, שנובעת מאוסף של פרמטרים, כמו הפופולריות של האתר, כמות העדכונים שהוא עובר, עד כמה התחום נחשב לתחום דינמי ועוד.

כדי למקסם את אותו תקציב זחילה, עושים מקדמי אתרים חישובים שונים, ומסתמכים על משתנים כמו משך הזמן הממוצע לסריקת דף, כמות עמודים מאונדקסים ביום, ועוד.

אלא שחישובים כאלו עלולים לייצר מיקוד דווקא בפרמטרים החשובים פחות להצלחת קידום האתר. חלק מן העמודים נסרקים יותר מפעם אחת. עמודים אחרים כלל לא בטוח שכדאי לבעל האתר לאנדקס, משום שהם לא יופיעו בדפי תוצאות החיפוש עבור שאילתות גולשים.

לכן, המיקוד המרכזי של בעלי אתרים צריך להיות ביכולת להשפיע על תכולת הסריקה של עמודי האתר, ובעידוד מנועי החיפוש, למקד את משאבי הסריקה שלהם, בעמודים הרלוונטיים שיכולים לייצר ערך מוסף גבוה לגולשים.

איך עושים זאת נכון? הנה כמה טיפים שיוכלו לעזור לבעלי אתרים למקסם את משאבי הסריקה של גוגל עבור עמודי האתר שלהם:

כיצד תוכלו לשפר את יעילות הסריקה של עמודי האתר?

כדי להפוך את תהליך הזחילה והאנדוקס של גוגל לרלוונטי ואיכותי יותר, כדאי יהיה לבעלי אתרים לפעול במישורים הבאים:

שיפור זמני התגובה של השרת

גוגל מצהירה על כך שהזחלנים שלה עושים שימוש במשאבי סריקה כל עוד הם לא פוגעים בחווית המשתמש של גולשים המגיעים לאתר. זה אומר שזמני תגובה איטיים של השרת, יגררו, בהתאמה, גם סריקה מועטה יותר של עמודים על ידי הזחלנים של גוגל.

אם אתם מעוניינים להגדיל את מספר העמודים שנסרקים על ידי הזחלנים של גוגל בפרק זמן נתון, תצטרכו לפעול במישורים הבאים:

א. שיפור מהירות הטעינה של עמודי האתר – ככל שעמודי האתר יטענו בדפדפן בצורה חלקה ומהירה יותר, כך ישנה סבירות גבוהה יותר לכך שיותר עמודים יכוסו על ידי הזחלנים של גוגל בפרק זמן נתון.

ב. שיפור הודעות השגיאה שנשלחות על ידי השרת – ככל שהשרת ישלח את הודעות השגיאה בצורה יעילה יותר ואפקטיבית יותר, כך יוכלו הזחלנים להשקיע פחות משאבים בטיפול בהודעות האלו, ולמקסם את המשאבים המוקצים לסריקה עצמה.

ג. מעבר אפשרי לפרוטוקול HTTP/2 שיאפשר בקשה של יותר עמודים בו זמנית מן השרת.

הסרת תוכן בעל ערך מוסף נמוך מן האתר

אחד הגורמים העיקריים לבזבוז תקציב הזחילה של הזחלנים של גוגל, הוא עמודים בעלי ערך מוסף נמוך. אם באתר שלכם קיימים עמודים עם תוכן רזה, תוכן משוכפל או תוכן לא עדכני, ייתכן שתירצו לפעול על מנת לשפר או להסיר את התכנים האלו. בהקשר הזה, עומדות בפניכם מספר אפשרויות:

א. עיבוי תכנים רזים לכדי עמודים שראוי וכדאי יהיה לאנדקס בגוגל.

ב. איחוד של עמודים בעלי תוכן דומה, עם ביצוע הפניות קבועות (301), על מנת לאותת למנוע החיפוש אילו עמודים רלוונטיים כיום.

ג. הסרת תוכן דל או לא רלוונטי ולא עדכני, וביצוע הפניית (410), על מנת לסמן למנוע החיפוש שאין כדאיות להמשיך ולסרוק את העמוד, או לאנדקס אותו.

התייחסות להנחיות סריקה שניתנו למנועי החיפוש

כחלק מביצוע אופטימיזציה לעמודי האתר, נוהגים מקדמי אתרים לעשות שימוש בתגיות שונות, כמו תגית הקנוניקל, ותגית no index. תגיות אלו מסייעות למנוע החיפוש להבין מתי כדאי לו להשקיע משאבים בסריקה ואינדוקס של האתר, וכן להימנע מזיהוי שגוי של עמודים כעמודים משוכפלים או כאלו שמפרים זכויות יוצרים.

באמצעות תגית קנוניקל, מסמן, בעצם, בעל האתר, מהו העמוד המקור שאותו מומלץ לאנדקס, עבור תוכן שנמצא בעמוד מסויים נתון. בתצורה שבה מנוהלים אתרי אינטרנט, לעיתים תוכן מסוים חוזר על עצמו בורייאציות שונות: מוצרים מופיעים במידות שונות ובצבעים שונים, עמודים משוכפלים באופן שבו ניתן יהיה להציג אותם להדפסה ועוד.

מצד אחד, תגיות קנוניקל מאפשרות למנוע החיפוש להבין מהו העמוד עם התוכן המקורי, שכדאי יהיה לאנדקס. מצד שני, כל הפניית קנוניקל כזו, גורמת לזחלנים של מנוע החיפוש לסרוק לכל הפחות שני עמודים שונים, את העמוד הנתון והעמוד המקורי. זאת הסיבה, שחשוב לעשות בתגית קנוניקל שימוש מושכל, אם מעוניינים לבצע אופטימיזציה לתקציב הזחילה של מנוע החיפוש.

באמצעות תגית no index מתאפשר לבעל האתר לציין בפני גוגל כי לא כדאי לאנדקס את העמוד הנתון. לכאורה, מדובר בחיסכון משאבי זחילה. בפועל, כמות גדולה של עמודים המסומנים בתגית הזאת, מעלה את האפשרות שניתן היה לסדר את העמודים בצורה טובה יותר: לאחד עמודים בעלי תוכן דומה, לסדר היררכית נכון יותר את עמודי האתר, לבצע הפניות 301, ובאמצעות פעולות אלו, למקסם את התועלת שבפעולת הסריקה והאינדוקס.  

מיפוי העמודים שנחוץ לסרוק

לרשותם של בעלי אתרים ומקדמי אתרים עומדים כלים שונים שמאפשרים להם לשקף לגוגל את מבנה האתר, את העמודים העיקריים בו, ואת התעדוף של סריקת העמודים האלו. גוגל כמובן לא חייב לעשות שימוש בכלים האלו, אולם מידי פעם, כשהוא עושה זאת, הוא יכול לבצע את ההתאמות הדרושות על מנת למקסם את ביצועי הסריקה.

אחד הכלים האלו שעומדים לרשות מנהל האתר הוא מפת האתר. מפת אתר היא קובץ טקסטואלי בפורמט xml, אשר מאפשר לבעל האתר לציין מהם העמודים השונים באתר וכיצד נראית היררכיית התוכן שלהם.

אם אתם מעוניינים להעניק דגש לעמודים מסויימים מבחינת תעדוף הסריקה שלהם, יהיה זה רעיון טוב לכלול אותם במפת האתר שמוגשת לגוגל באמצעות הקונסול.

מיפוי העמודים שכדאי שלא לסרוק

בין כלל העמודים באתר, יהיו גם כאלו שעשויים לייצר ערך מוסף ופונקציונליות לגולשים עצמם, אולם פחות למנועי החיפוש. במקרים כאלו, ייתכן שכדאי יהיה לבקש מגוגל שלא לסרוק ולאנדקס עמודים אלו, על מנת למקסם את תקציב הזחילה.

עמודים כאלו יכולים להיות עמודי cdn, עם ספריות שנוצרות באתר על מנת לשרת לקוחות במיקומים שונים. הם יכולים להיות עמודים המכילים תמונות לא חשובות, סקריפטים שאין טעם לאנדקס או קבצים המכילים הגדרות עיצוב.

מובן, שגם עבור עמודים פונקציונליים כמו עגלת קניות, אין טעם באינדוקס וסריקה. עמודי פרמטרים שונים גם הם לא מייצרים ערך למנוע החיפוש, וכך גם עמודים המכילים הרבה מאוד אזורים ריקים, כמו יומן שיש לשבץ בו פגישות אפשריות.

בחירה מושכלת של עמודים שאין טעם בסריקה ואינדוקס שלהם, יכולה בהחלט לסייע לכם לבצע אופטימיזציה נכונה לתקציב הזחילה.

שימוש בקישורים פנימיים וחיצוניים על מנת לתעדף את הסריקה של עמודי האתר

דרך נוספת לתעדף נכון את פעולת הזחילה של מנוע החיפוש בכל הקשור לעמודי האתר, היא באמצעות חיזוק עמודים רלוונטיים באמצעות קישורים פנימיים וחיצוניים. השימוש בקישורים פנימיים וחיצוניים כדי להצביע על עמודים פנימיים באתר, כגון עמודי מוצרים או קטגוריות ברמה נמוכה, מאפשר למנוע החיפוש של גוגל לאתר עמודים עמוקים בשלב מוקדם של הסריקה, לעשות שימוש בקיצורי דרך, ולייצר ערך מוסף לתהליך הזחילה כולו.

קישורים פנימיים וחיצוניים לא רק משמשים כדרך של הזחלנים לעבור מעמוד לעמוד, אלא גם מגדילים את הסיכוי שיבחרו להגיע אל עמוד מסויים, וכן את התדירות שבה יעשו זאת.

ביצוע מעקב וביקורת אחר בעיות טכניות הקשורות בסריקה

אם אחרי אוסף הפעולות שהוצעו כאן, קצב הסריקה של עמודי האתר שלכם עדיין לא אופטימלי, תוכלו להתפנות ולבצע ביקורת אתר, על מנת לאתר ליקויים פוטנציאליים, שמשבשים את עבודת הסריקה. במסגרת הזאת, כדאי יהיה לעבור על הקונסול ולנסות לאתר שגיאות המוצגות לזחלנים שהגיעו לסרוק עמודים מסויימים. לאחר מכן, תוכלו לעשות שימוש בכלים שיאפשרו לכם ביצוע סריקה ידנית של עמודי האתר. הכלים האלו ייצרו לוג, שעליו תוכלו לעבור ולנסות ולאתר בתוכן בעיות פוטנציאליות.

לסיכום

זחילה וסריקה של עמודי האתר הן פעולות מפתח שבלעדיהן לא תוכלו לדרג את עמודי האתר שלכם בדפי תוצאות החיפוש. היבטים שונים הקשורים לאינדוקס של עמודי אתר רלוונטיים לאתרים גדולים ולאתרים נישתיים כאחד.

לא רק כמות העמודים הנסרקים חשובה בהקשר הזה, אלא גם זהות העמודים הנסרקים, והתדירות שבה מנוע החיפוש עושה זאת.

מאחר שהמשאבים של גוגל בהקשר הזה של זחילה הם מוגבלים, חשוב לפעול בדרכים שונות על מנת לטייב את פעולת הזחילה, כך שתייצר אפקט מקסימלי במשאבים הנתונים. תוכלו לפעול בדרכים שונות על מנת לבצע טיוב כזה, למשל באמצעות טיפול בצד השרת על מנת לייצר ביצועים טובים יותר, הסרת תוכן שאינו רלוונטי וביצוע הפניות מתאימות, שימוש מושכל בתגיות ובהנחיות הניתנות באמצעותן לזחלנים של מנוע החיפוש, הגדרת העמודים שכדאי יהיה למנוע החיפוש לאנדקס, ובמקביל גם את העמודים שיש להימנע מאינדוקס שלהם, שימוש בקישורים פנימיים וחיצוניים על מנת לחזק עמודים רלוונטיים באתר, וביצוע ביקורת תקופתית, על מנת לוודא שלא הושארו בעיות לא פתורות באתר.