Thread alternative Lösung zur Site Scraping: FEAR:API: FEAR:API
(6 answers)
Opened by Gast at 2006-05-28 14:01
Ich würde gerne ein neues entwickelndes Projekt vorstellen
........................................................... Site-Scraping? Sie brachen nur eine einzige Lösung. Vermutlich haben Sie mehr oder weniger schon ein paar Skript geschrieben, um Web-Seite zu interagieren. Um Web-Seite zu fetchen, manche von Ihnen nutzen LWP::* und manche lieben WWW::Mechanize. Zur Extraktion von Web-Daten bleiben manche von Ihnen lieber bei Vanille Regular Expression, während manche sind Anhäner von Template::Extract. Außer Fetch-und-Extrakt, wollen Sie manchmal auch gern die Daten umorganisieren oder um-rendern, in andere Format oder in die Datenbank. Es beutet, Sie immer wieder mehr Code schreiben müssen!! Jetzt, Es gibt eine andere Alternative - FEAR::API, ein mächtiges Werkzeug. trotzdem die eine unheimliche Name("fear" bedeutet Angst in Englisch) hat, FEAR::API ist eine hoch spezialisiert und sehr domain-spezifische Sprache zur eine Lösung eines spezifischen Problem: besonders für Site Scraping. FEAR::API verwendet ziemlich viel Operator-Overloading, und verkapselt Heuristik in viele einfache Methode. FEAR::API versucht auch die Obekt-Oriented Identität zu verstecken. Aber bricht FEAR::API leider vielleicht jede Regel von Perl-standard-codierung. Man denkt FEAR::API eventuell wie Schrott. aber, zuerst versuchen diese Frage zu antworten. wie viele Zeile codiern Sie um alle Seite von eine Website rekursiv abzuholen, alle Title aller Seite in STDOUT zu schreben, und noch alle daten in File speichern. 100? 50? 25? vielleicht 6, when mit FEAR::API ungefähr ähnlich wie Code: (dl
)
1 use FEAR::API -base; Es funktionert so einfach! Interessieren Sie FEAR::API jetzt ein bisschen mehr ?? ausführlich Beschreibung steht unter http://search.cpan.org/perldoc?FEAR::API .............................................. Zusammenfassung: FEAR::API ist ein sehr sehr schnell Methode zur Site Scraping. /Modedit: Code-Tags spendiert, URL repariert\n\n <!--EDIT|GwenDragon|1148830261--> |