Episode Details

Back to Episodes
פרק 39: סקרייפינג מחוץ לקופסה - עם זיו ״זיקו״ קלדרון

פרק 39: סקרייפינג מחוץ לקופסה - עם זיו ״זיקו״ קלדרון

Season 2 Episode 39 Published 3 years ago
Description

תהיתם פעם איך גוגל מאנדקסים את האתרים שלהם, או איך יודעים היכן נמצא כל קישור ברחבי הרשת? 

אולי הייתם צריכים להשיג מידע בכל מני אתרים שלא היה להם API רשמי? 

הגעתם למקום הנכון, בפרק מיוחד (אבל ממש 😆) הגיע אלינו זיו ״זיקו״ קלדרון לשיחה בועטת על עולם הסקייפרים והקרולרים וכיצד הם עזרו לו לפני כמה שנים להקים סטארטאפ עם Data על מאות אלפי מוצרים וכל זה לבדו.



כרגיל נשמח לשמוע מה אתם חושבים.
מפתחים מחוץ לקופסה... מ ת ח י ל י ם!

קישורים שימושיים:

Cheerio JS
https://www.npmjs.com/package/cheerio
Cheerio מנתח Markup ומספק API למעבר/מניפולציה של מבנה הנתונים המתקבל. זה לא מפרש את התוצאה כפי שדפדפן אינטרנט מפרש. באופן ספציפי, הוא אינו מייצר עיבוד ויזואלי, לא מחיל CSS, טוען משאבים חיצוניים או מפעיל JavaScript, המשותף ל-SPA (יישום עמוד בודד). זה הופך את Cheerio למהיר הרבה יותר מפתרונות אחרים. 


Beautifulsoup4
https://pypi.org/project/beautifulsoup4/
ספריה מעולה שמקלה על סקרייפינג של מידע מדפי אינטרנט. הספריה מאפשרת ניתוח של HTML או XML, ומספקת API נוח לעבודה עם העץ של הDOM על ידי חיפוש ושינוי של עץ הניתוח.


Scrapy
https://scrapy.org/
ספריית אוופן סורס מעולה שהפכה בשנים האחרונות להיות הדיפקטו של סקייפינג לחילוץ הנתונים הדרושים מאתרים בצורה מהירה קלה ופשוטה, עם אפשריות להרחבה. 


מתים לשמוע מכם (רק תוסיפו קישור ללינקדאין שנוכל להגיב)

Listen Now

Love PodBriefly?

If you like Podbriefly.com, please consider donating to support the ongoing development.

Support Us