Autore Topic: Parsing di una pagina html  (Letto 2548 volte)

Offline andy60

  • Senatore Gambero
  • ******
  • Post: 1.255
    • Mostra profilo
    • https://www.linkedin.com/in/andbertini
Parsing di una pagina html
« il: 09 Febbraio 2008, 07:27:28 »
Questa cosa mi ha sempre interessato: prendere direttamente i dati da una pagina web. Con vb avevo qualcosa x farlo. Ma non posso recuperarla. Voi avete scritto qualcosa in merito? Mi ci dedichero'..

Offline giulio

  • Maestro Gambero
  • ****
  • Post: 280
    • Mostra profilo
Re: Parsing di una pagina html
« Risposta #1 il: 09 Febbraio 2008, 09:14:45 »
Ciao.

Se per "parsing" intendi estrarre da una pagina html dei dati che ti interessano,
puoi salvare quella pagina in formato .txt e poi trattarla come un semplice file di testo.

Per esempio prova:

lynx -dump www.google.it > google.txt

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi. Alcuni sistemi hanno links. Credo che si possa fare lo stesso
con wget, ma non ricordo le opzioni.

Ciao.

Offline leo72

  • Amministratore
  • Senatore Gambero
  • *****
  • Post: 2.163
    • Mostra profilo
    • http://www.leonardomiliani.com
Re: Parsing di una pagina html
« Risposta #2 il: 09 Febbraio 2008, 10:45:55 »
Codice: [Seleziona]

wget indirizzo_pagina


Questo scarica solo la pagina indicata.
Visita il mio sito personale: http://www.leonardomiliani.com

Offline giulio

  • Maestro Gambero
  • ****
  • Post: 280
    • Mostra profilo
Re: Parsing di una pagina html
« Risposta #3 il: 09 Febbraio 2008, 11:22:23 »
Citazione

leo72 ha scritto:
Codice: [Seleziona]

wget indirizzo_pagina


Questo scarica solo la pagina indicata.



...e grazie al ...gambero (lo sappiamo cosa fa wget)

prova a scaricare:

wget www.google.it -O gowget.txt

e

poi

lynx -dump www.google.it > google.txt

poi fai un cat per entrambi i *.txt

e mi dici quale dei due è più "trattabile".

Ciao.

Offline leo72

  • Amministratore
  • Senatore Gambero
  • *****
  • Post: 2.163
    • Mostra profilo
    • http://www.leonardomiliani.com
Re: Parsing di una pagina html
« Risposta #4 il: 09 Febbraio 2008, 18:18:30 »
Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:
Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito...  :oops:
Visita il mio sito personale: http://www.leonardomiliani.com

Offline Pixel

  • Amministratore
  • Maestro Gambero
  • *****
  • Post: 414
    • Mostra profilo
    • http://www.gambas-it.org
Re: Parsing di una pagina html
« Risposta #5 il: 09 Febbraio 2008, 21:17:24 »
Ehm..ehm... usare Gambas no?
Il componente WebBrowser fa' questo e molto di più.
Ciao
Ubuntu Italian Member Ubuntu User 4683
Il mio Blog

Offline giulio

  • Maestro Gambero
  • ****
  • Post: 280
    • Mostra profilo
Re: Parsing di una pagina html
« Risposta #6 il: 10 Febbraio 2008, 12:56:13 »
Citazione

leo72 ha scritto:
Citazione

Avrai una pagina di testo semplice. lynx dovrebbe essere installato
su tutti i sistemi.

Su Ubuntu non lo è, va installato.

Citazione

...e grazie al ...gambero (lo sappiamo cosa fa wget)

Scusa, ma avevi detto:
Citazione

Credo che si possa fare lo stesso con wget, ma non ricordo le opzioni.

Credevo volessi sapere come usarlo, non avevo capito...  :oops:



Già, non hai capito. Ho scritto che non mi ricordavo
quali opzioni usare con wget per avere lo stesso risultato di lynx.
Ma se non sai cosa fa quel comando di lynx, non puoi sapere a cosa mi riferisco. Ciao.

Offline leo72

  • Amministratore
  • Senatore Gambero
  • *****
  • Post: 2.163
    • Mostra profilo
    • http://www.leonardomiliani.com
Re: Parsing di una pagina html
« Risposta #7 il: 10 Febbraio 2008, 13:27:21 »
So cosa fa lynx, è un browser testuale. Gli chievi di riversare l'output invece che su video in un file.
Scusami ancora ma non avevo capito che volevi sapere le opzioni di wget. :2birre:
Visita il mio sito personale: http://www.leonardomiliani.com