Jednym słowem chcesz wyciągnąć
czysty tekst z kodu HTML?!
To wymaga kodu parsujÄ…cego. CoÅ› podobnego znajdziesz
w serwisie Cyfrowy
Baron w dziale: porady
sieć - internet, porada: wyciąganie adresów URL ze stron internetowych. Kod wyciąga co prawda tylko adresy URL, ale idąc tym tropem możesz wyciągnąć ze stron co zechcesz.
Jeżeli chodzi o parsowanie całego kodu HTML i wyciąganie całego tekstu, to nie spotkałem się z biblioteką, która by takie zadanie realizowała.
Kod strony = kod HTML tworzący daną stronę która aktualnie jest załadowana do komponentu TWebBrowser;
Podałem odpowiedź w poprzednim poście.
Dane tekstowe = to co widać w komponencie TWebBrowser.
Jedyną bibliotekę jaką znam a realizującą to zadanie jest właśnie kontrolka TWebBrowser, no ale z niej samego tekstu nie wyciągniesz. Potrzebujesz więc biblioteki, która potrafi parsować kod HTML i zwracać jako wynik sam tekst. Jak wspomniałem, nie spotkałem się z taką biblioteką, ale jest nadzieja. W Embarcadero RAD Studio 2010 występuje komponent TInetXPageProducer, który posiada jakiś mechanizm parsujący, więc w wolnej chwili przyjrzę się tej bibliotece i może wtedy napiszę coś więcej.