TWebBrowser wyciągnięcie kodu HTML

problemy z tworzeniem programów do obsługi sieci, internetu, e-mail itp..

TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Darek_C++ » piÄ…tek, 23 kwietnia 2010, 12:17

Witam ponownie,
jak wyciagnąć do zmiennej kod strony HTML wczytanej do komponentu TWebBrowser (komponent przeglądarki) oraz same dane tekstowe zawarte w kodzie HTML bez kodu HTML. Wiem, że jest to możliwe, bo miałem kiedyś do tego kod, ale nie mogę go obecnie poszukać.

Pozdrawiam
Avatar użytkownika
Darek_C++
Elektrowied
Elektrowied
 
Posty: 454
Dołączył(a): piątek, 25 lipca 2008, 14:33
PodziÄ™kowaÅ‚ : 66
OtrzymaÅ‚ podziÄ™kowaÅ„: 4
System operacyjny: Windows XP Pro SP2
Kompilator: Turbo Explorer C++
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Cyfrowy Baron » piÄ…tek, 23 kwietnia 2010, 13:48

Piszesz tak, że już nie wiem... Chcesz podejrzeć kod źródłowy strony?

Jeżeli tak: ► patrz serwis: Cyfrowy Baron dziaÅ‚: porady -> sieć - internet -> WywoÅ‚anie okna podglÄ…du dla kontrolki TCppWebBrowser.
Avatar użytkownika
Cyfrowy Baron
Administrator
Administrator
 
Posty: 4716
Dołączył(a): niedziela, 13 lipca 2008, 15:17
PodziÄ™kowaÅ‚ : 12
OtrzymaÅ‚ podziÄ™kowaÅ„: 442
System operacyjny: Windows 7 x64 SP1
Kompilator: Embarcadero RAD Studio XE2
C++ Builder XE2 Update 4
SKYPE: cyfbar
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Darek_C++ » piÄ…tek, 23 kwietnia 2010, 15:13

Ale co tu jest dla Ciebie nie jasne ?
Kod strony = kod HTML tworzący daną stronę która aktualnie jest załadowana do komponentu TWebBrowser;
Dane tekstowe = to co widać w komponencie TWebBrowser. Przykładowo jeśli kodem HTML bedzie <strong>wykonuje pogrubienie tekstu</strong> samymi danymi tekstowymi jest to co my widzimy, "wykonuje pogrubienie tekstu".

I o taką funkcjonalność mi chodzi.
----
Nie, nie chodzi tu o okno podglÄ…du wydruku ....
Avatar użytkownika
Darek_C++
Elektrowied
Elektrowied
 
Posty: 454
Dołączył(a): piątek, 25 lipca 2008, 14:33
PodziÄ™kowaÅ‚ : 66
OtrzymaÅ‚ podziÄ™kowaÅ„: 4
System operacyjny: Windows XP Pro SP2
Kompilator: Turbo Explorer C++
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Cyfrowy Baron » piÄ…tek, 23 kwietnia 2010, 15:23

Jednym słowem chcesz wyciągnąć czysty tekst z kodu HTML?!

To wymaga kodu parsującego. Coś podobnego znajdziesz w serwisie Cyfrowy Baron w dziale: porady -> sieć - internet, porada: wyciąganie adresów URL ze stron internetowych. Kod wyciąga co prawda tylko adresy URL, ale idąc tym tropem możesz wyciągnąć ze stron co zechcesz.

Jeżeli chodzi o parsowanie całego kodu HTML i wyciąganie całego tekstu, to nie spotkałem się z biblioteką, która by takie zadanie realizowała.



Kod strony = kod HTML tworzący daną stronę która aktualnie jest załadowana do komponentu TWebBrowser;


Podałem odpowiedź w poprzednim poście.

Dane tekstowe = to co widać w komponencie TWebBrowser.


Jedyną bibliotekę jaką znam a realizującą to zadanie jest właśnie kontrolka TWebBrowser, no ale z niej samego tekstu nie wyciągniesz. Potrzebujesz więc biblioteki, która potrafi parsować kod HTML i zwracać jako wynik sam tekst. Jak wspomniałem, nie spotkałem się z taką biblioteką, ale jest nadzieja. W Embarcadero RAD Studio 2010 występuje komponent TInetXPageProducer, który posiada jakiś mechanizm parsujący, więc w wolnej chwili przyjrzę się tej bibliotece i może wtedy napiszę coś więcej.
Avatar użytkownika
Cyfrowy Baron
Administrator
Administrator
 
Posty: 4716
Dołączył(a): niedziela, 13 lipca 2008, 15:17
PodziÄ™kowaÅ‚ : 12
OtrzymaÅ‚ podziÄ™kowaÅ„: 442
System operacyjny: Windows 7 x64 SP1
Kompilator: Embarcadero RAD Studio XE2
C++ Builder XE2 Update 4
SKYPE: cyfbar
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Darek_C++ » piÄ…tek, 23 kwietnia 2010, 16:17

"To wymaga kodu parsującego." nic takiego nie potrzeba, bo sam TWebBrowser umożliwia taką funkcjonalność, do tego wyciąganie kodu źródłowego, a nawet wszystkich linków z wczytanej strony - wiem, bo takie funkcje kiedyś testowałem i pochodziły z jakieś niemieckiej strony o tym komponencie.
Avatar użytkownika
Darek_C++
Elektrowied
Elektrowied
 
Posty: 454
Dołączył(a): piątek, 25 lipca 2008, 14:33
PodziÄ™kowaÅ‚ : 66
OtrzymaÅ‚ podziÄ™kowaÅ„: 4
System operacyjny: Windows XP Pro SP2
Kompilator: Turbo Explorer C++
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Cyfrowy Baron » piÄ…tek, 23 kwietnia 2010, 16:24

No to życzę powodzenia, gdyż nigdy z niczym podobnym w TWebBrowser się nie spotkałem. Ta kontrolka ActiveX (nie komponent) potrafi mniej niż Internet Explorer gdyż bazuje na bibliotekach tej przeglądarki. Nie spotkałem się z podobną funkcją w IE, więc nie wiem jak to jest z tą kontrolką, ale spis wszystkich funkcji, metod itp. znajdziesz w pomocy pod hasłem TWebBrowser.



Wyciąganie tekstu z kodu HTML itp. nazywa się parsowaniem, więc dokładnie tego Tobie potrzeba, a jeżeli TWebBrowser to potrafi to chciałbym to zobaczyć :D
Avatar użytkownika
Cyfrowy Baron
Administrator
Administrator
 
Posty: 4716
Dołączył(a): niedziela, 13 lipca 2008, 15:17
PodziÄ™kowaÅ‚ : 12
OtrzymaÅ‚ podziÄ™kowaÅ„: 442
System operacyjny: Windows 7 x64 SP1
Kompilator: Embarcadero RAD Studio XE2
C++ Builder XE2 Update 4
SKYPE: cyfbar
Gadu Gadu: 0
    Windows XPFirefox

Re: TWebBrowser wyciągnięcie kodu HTML

Nowy postprzez Darek_C++ » piÄ…tek, 23 kwietnia 2010, 16:50

Jak znajdÄ™ tylko tamte kody to Zobaczysz...
Avatar użytkownika
Darek_C++
Elektrowied
Elektrowied
 
Posty: 454
Dołączył(a): piątek, 25 lipca 2008, 14:33
PodziÄ™kowaÅ‚ : 66
OtrzymaÅ‚ podziÄ™kowaÅ„: 4
System operacyjny: Windows XP Pro SP2
Kompilator: Turbo Explorer C++
Gadu Gadu: 0
    Windows XPFirefox


  • Podobne tematy
    Odpowiedzi
    Wyświetlone
    Ostatni post

Powrót do Aplikacje sieciowe

Kto przeglÄ…da forum

Użytkownicy przeglądający ten dział: Brak zalogowanych użytkowników i 7 gości

cron