Query von Hyperlinks sortieren (HTML, CSS und Javascript)

[thread]20730[/thread]

Query von Hyperlinks sortieren

Leser: 17

Articles: hide open all | hide show old branches

+32 replies
mika

2020-01-28 14:01

User since
2010-10-02
168 Artikel
BenutzerIn

Hallo,

Ich habe eine Handvoll Hyperlinks mit Query. Diese Query ist gleich, stimmt aber in der Reihenfolge nicht überein.

Frage: Gibt es schon was fertiges, was die Query eines Hyperlinks (URI) z.B. alphabetisch sortiert, das die Reihenfolge dann bei mehreren Hyperlinks gleich ist. Ich will den URI string nämlich gerne als eindeutige ID haben.

PS: Ich habe auch Hyperlinks mit unterschiedlicher Query, die aber die gleiche Seite ausliefern (zumindest Augenscheinlich). Solche Dopplungen zu erkennen, wäre schön ist aber glaube ich einfach nicht richtig, weil so Information verlorengehen dann, wenn die erste Annahme falsch ist.
Last edited: 2020-01-28 14:33:07 +0100 (CET)
- +6 replies
- Daxim
  
  2020-01-28 14:42
  
  User since
  2007-08-01
  114 Artikel
  BenutzerIn
  
  Ja, siehe RFC 5849 § 3.4.1.3.2.
  - +4 replies
  - mika
    
    2020-01-28 15:05
    
    User since
    2010-10-02
    168 Artikel
    BenutzerIn
    
    Bist du dir sicher das richtige rausgesucht zu haben bzw. zu meinen. Das RFC ist OAuth?
    - +2 replies
    - Daxim
      
      2020-01-29 14:57
      
      User since
      2007-08-01
      114 Artikel
      BenutzerIn
      
      Ja.
      - gelöscht 2020-06-21 10:24
    - gelöscht 2020-06-21 10:24
  - gelöscht 2020-06-21 10:24
- +3 replies
- rosti
  
  2020-01-28 14:44
  
  User since
  2011-03-19
  3617 Artikel
  BenutzerIn
  
  Mit URI::Split kannst Du den URI in seine Komponenten zerlegen. Die packst Du in eine zweckmäßige Datenstruktur die Du dann entsprechende Deiner Bedürfnisse sortieren kannst. Also bspw. nach Schema oder nach Domäne oder nach TLD oder nach bestimmten Parametern im QUERY_STRING
  
  MFG
  http://blog.rolfrost.de/
  
  The art of steam.
  - mika
    
    2020-01-28 15:01
    
    User since
    2010-10-02
    168 Artikel
    BenutzerIn
    
    Danke das Du mir das URI::Split wieder ins Gedächtnis gerufen hast. So ein Split suche ich eher für den $query Teil dann.
  - gelöscht 2020-06-21 10:24
- +7 replies
- mika
  
  2020-01-28 15:24
  
  User since
  2010-10-02
  168 Artikel
  BenutzerIn
  
  Ich habe mich wohl doof ausgedrückt -entschuldigt- ich will:
  
  http://example.net/?foo=bar&baz=fu
  http://example.net/?baz=fu&foo=bar
  
  zu
  
  http://example.net/?baz=fu&foo=bar
  http://example.net/?baz=fu&foo=bar
  
  sortieren
  
  !
  Last edited: 2020-01-28 15:26:29 +0100 (CET)
  - +5 replies
  - styx-cc
    
    2020-01-28 15:59
    User since
    2006-05-20
    533 Artikel
    BenutzerIn
    
    Na da passt doch Rostis Vorschlag oder nicht?
    Den Querystring kannst du doch per Hand splitten.
    
    Ungetestet
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8
    
    use URI::Split qw(uri_split); my $uri = 'http://example.net/?foo=bar&baz=fu'; my ($scheme, $auth, $path, $query, $frag) = uri_split($uri); my @sorted_query = sort split /&/, $query; $query = join '&', @sorted_query; my $new_uri_string = $scheme . $auth . $path . $query . $frag;
    
    Last edited: 2020-01-28 16:08:32 +0100 (CET)
    Pörl.
    - +4 replies
    - haj
      
      2020-01-28 19:55
      
      User since
      2015-01-07
      577 Artikel
      BenutzerIn
      
      2020-01-28T14:59:17 styx-cc
      Den Querystring kannst du doch per Hand splitten.
      
      Da ich die selbe Aufgabe auch mal lösen musste (ist schon Jahre her), noch ein paar Hinweise:
      
      Manchmal sind die Query-Parameter nicht mit &, sondern mit ; voneinander getrennt. Das ist eine W3C-Empfehlung, damit die &-Zeichen ohne HTML-Escaping in href-Attribute gesteckt werden können. Solche Query-Strings werden auch von CGI erzeugt.
      Ein Leerzeichen in einem Query-Parameter kann als + oder als %20 repräsentiert werden. Manche Zeichen müssen, aber alle können auch als Prozent-Escapes in einen Query-String geschrieben werden. Wenn so etwas vorkommen kann, muss man die URI nach dem Aufspalten durch uri_unescape (aus URI::Escape) schicken.
      Wenn Du ganz böse Testfälle hast, dann musst Du vor dem uri_unescape Namen und Wert der Variablen voneinander trennen, denn tatsächlich ist nicht verboten, dass der Name ein Gleichheitszeichen enthält: <input type="text" name="a=b" value="c" /> ergibt einen Query-String a%3Db=c, das ist eine andere Query als <input type="text" name="a" value="b=c" /> mit dem Query-String a=b%3Dc.
      Und natürlich kann ein Parameter auch mehrfach vorkommen: foo=bar&foo=baz. Diesen Fall löst die Lösung von styx-cc schon.
      - +2 replies
      - styx-cc
        
        2020-01-28 21:44
        
        User since
        2006-05-20
        533 Artikel
        BenutzerIn
        
        Absolut korrekt, ich hätte zumindest auf fehlendes Escaping und die Trenner hinweisen sollen, aber wenn er es "richtig" machen will, dann wäre es doch klüger etwas wie CGI.pm zu benutzen oder nicht?
        
        Zumindest habe ich damals als CGI noch "in" war gelernt HTTP-Parameter nach Möglichkeit nicht per Hand zu parsen, eben aufgrund der von dir u.a. genannten Fallstricke.
        
        Code (perl): (dl )
        
        1 2
        
        $q = CGI->new( 'foo=1;bar=2;bar=3;bar=4' ); $q = CGI->new( 'foo=1&bar=2&bar=3&bar=4' );
        
        Sowas funktioniert sogar und er kann mit den CGI-Methoden die Parameter verarbeiten/sortieren.
        
        Könnte aber auch mit Kanonen auf Spatzen geschossen sein.
        Pörl.
        
        haj
        
        2020-01-29 01:47
        
        User since
        2015-01-07
        577 Artikel
        BenutzerIn
        
        Stimmt, CGI kann das und behandelt auch absurde Randfälle. Ich hatte nicht drangedacht, dass man ein CGI-Objekt auch mit einem rohen Querystring erzeugen kann. Das ist dann sicher eine sehr verlässliche Methode.
        
        Auf CPAN habe ich inzwischen auch das Modul WWW::Form::UrlEncoded gefunden, das macht ziemlich genau das, was hier passend ist, und liefert auch gleich eine Liste von verqueren Query-Strings und wie es drauf reagiert.
      - Daxim
        
        2020-01-29 15:00
        
        User since
        2007-08-01
        114 Artikel
        BenutzerIn
        
        URI::QueryParam
  - rosti
    
    2020-01-28 16:37
    
    User since
    2011-03-19
    3617 Artikel
    BenutzerIn
    
    Wozu denn die Parameter sortieren?
    
    MFG
    http://blog.rolfrost.de/
    
    The art of steam.
- +7 replies
- styx-cc
  
  2020-01-28 16:17
  
  User since
  2006-05-20
  533 Artikel
  BenutzerIn
  
  2020-01-28T13:01:49 mika
  PS: Ich habe auch Hyperlinks mit unterschiedlicher Query, die aber die gleiche Seite ausliefern (zumindest Augenscheinlich). Solche Dopplungen zu erkennen, wäre schön ist aber glaube ich einfach nicht richtig, weil so Information verlorengehen dann, wenn die erste Annahme falsch ist.
  
  Du könntest dien Hash~~summe~~wert des Quelltextes der Seite bilden und dann abgleichen ob zwei Hash~~summen~~werte identisch sind, aber das wird bei interaktiven/dynamischen Seiten selbst bei gleichem Query häufig nicht so einfach funktionieren.
  Last edited: 2020-01-28 16:58:40 +0100 (CET)
  Pörl.
  - +6 replies
  - mika
    
    2020-01-28 18:11
    
    User since
    2010-10-02
    168 Artikel
    BenutzerIn
    
    Ich schreibe Dir/Euch später oder Morgen mal genauer worum das ganze geht. Komme gerade nicht richtig dazu.
    
    Weil wenn man so in die Richtung lösen konnte in akzeptabler Zeit, wäre das schon gut. So in die Richtung hatte ich auch schon überlegt Nur benötge ich am Ende nur die URL und nicht mehr. Da war mir das zu viel overhead...
    - rosti
      
      2020-01-28 21:23
      
      User since
      2011-03-19
      3617 Artikel
      BenutzerIn
      
      Aslo wenn Du nach den Schlüsseln im querystring sortieren willst muss der geparst werden. Hier eine erpobte Funktion:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
      
      # application/x-www-form-urlencoded sub qparse{ my $rawdata = shift; # querystring my %param = (); my @pie = split /[;&]/, $rawdata; foreach my $p(@pie){ my ($pname, $val) = split(/=/, $p, 2); next unless $pname; next unless defined $val; $val =~ s/\+/ /g; $val =~ s/%([0-9A-Fa-f]{2})/chr(hex($1))/eg; push @{$param{$pname}}, $val; # key => [val,val..] } return \%param; }
      
      Bei mehreren gleichnamigen Parametern sind deren Werte also im Array was mit jeden Parameter als Schlüssel referenziert ist. So wie sich das halt gehört für diesen Enctype. Die Prozentkodierung wird hier auch rückgängig gemacht.
      
      Viel Erfolg.
      Last edited: 2020-01-28 21:29:27 +0100 (CET)
      http://blog.rolfrost.de/
      
      The art of steam.
    - +4 replies
    - mika
      
      2020-01-29 08:04
      
      User since
      2010-10-02
      168 Artikel
      BenutzerIn
      
      Hallo @all,
      
      hier nun der Hintergrund zur Frage:
      
      in meinem Projekt habe ich eine Skript (Das Git sollte aktuell sein), was von sagen wir z.Z. 100 Webseiten deren Newsfeeds abarbeitet und nach Stichworten in der Überschrift durchsucht XML::Feed::Entry->title.
      
      Wenn ein Webfeed-Artikel passt, wird der Link zum Artikel in einen neuen "gemeinsamen" Feed XML::Feed kopiert. Die ID für den XML::Feed::Entry ist der Link.
      
      Nun haben mache Seiten aber mehrere Querys für einen Artikel und diese stehen dann auch doppelt im neuen "gemeinsamen" Feed:
      
      https://www.stern.de/panorama/weltgeschehen/nachri...
      
      https://www.stern.de/panorama/weltgeschehen/nachri...
      
      https://www.stern.de/panorama/weltgeschehen/nachri...
      
      https://www.stern.de/panorama/weltgeschehen/nachri...
      
      Solche Fälle möchte ich erkennen und nur einmal in den neuen "gemeinsamen" Feed aufnehmen.
      
      Ich hoffe es ist verständlich was ich tue, bzw. haben möchte. Das Skript oben läuft auch schon, nur halt dem Schönheitsfehler von Dopplungen.
      Last edited: 2020-01-29 08:06:08 +0100 (CET)
      - rosti
        
        2020-01-29 09:09
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Ohja, eine schöne Aufgabe ;)
        
        Ja, da muss sortiert werden. Und ich meine, zum Sortieren muss der QUERY_STRING nicht einmal geparst werden.
        
        Viel Erfolg.
        http://blog.rolfrost.de/
        
        The art of steam.
      - +2 replies
      - haj
        
        2020-01-29 10:52
        
        User since
        2015-01-07
        577 Artikel
        BenutzerIn
        
        Hallo mika,
        
        Für diese Aufgabe gibt es auch einen besseren Ansatz, aber dafür müssen die Webserver mitspielen. Der Stern aus Deinem Beispiel tut das, der Heise Newsticker auch. Du musst dafür den HTML-Text parsen, aber das machst Du sowieso, um an die Überschrift zu kommen.
        
        Zunächst zum Problem mit den Links: Bei mir kommt heute unter diesen Links keine Geschichte zum Corona-Virus, sondern was ganz anderes. Der Link in Deinem gemeinsamen Feed passt dann nicht mehr zur Überschrift.
        
        Um das zu vermeiden, verwenden Newsportale das link-Element mit dem Attribut rel="canonical" - für weitere Info Canonical_Link. In Deinem Beispiel steht da:
        
        Code: (dl )
        
        <link rel="canonical" href="https://www.stern.de/panorama/drei-weitere-coronavirus-faelle-in-bayern-bestaetigt-9111748.html"/>
        
        Die Methode, Query-Parameter zu sortieren, würde ich daher bestenfalls als Notlösung für Webseiten anwenden, die keine kanonischen Adressen liefern.
        
        rosti
        
        2020-01-29 11:05
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Erstklassiger Hinweis!!!
        
        Und da könnte man auch schon einen HTTP Header namens Link befragen ob es einen kanonischen URL zur Seite gibt.
        
        Beispiel für diesen Header auf http://rolfrost.de/
        
        Code: (dl )
        
        Link: <https://rolfrost.de/>; rel="canonical"
        
        Der kanonische Link verweist also zu https: Seite.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
- mika
  
  2020-01-30 06:04
  
  User since
  2010-10-02
  168 Artikel
  BenutzerIn
  
  Danke, ich seid echt super hier!
  
  Ich muss mir nun erst einmal Gedanken machen, wie ich das jetzt lösen will. Alle Infos dazu habe ich nun!
  
  Vielen, vielen, Dank!
- +6 replies
- mika
  
  2020-02-09 12:19
  User since
  2010-10-02
  168 Artikel
  BenutzerIn
  Wie fragt man den canonical Link eines Dokuments am besten ab?
  
  Hier mal was ich habe, das tut aber eigentlich nicht:
  
  Code: (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
  
  #!/usr/bin/perl use strict; use warnings; use LWP; use Data::Dumper; my $browser = LWP::UserAgent->new(); my $site = $browser->get('http://de.wikibooks.org'); my $code = $site->decoded_content(); use XML::LibXML; my $dom = XML::LibXML->load_xml(string => $code); foreach my $node ($dom->findnodes('//link[@rel="canonical"]/@href')) { print $node->to_literal(), " # canonical LibXML\n"; } use XML::XPath; my $xp = XML::XPath->new(xml => $code); foreach my $node ($xp->findnodes('//link[@rel="canonical"]')) { print $node->getAttribute('href'), " # canonical XPath\n"; }
  
  Last edited: 2020-02-09 12:21:24 +0100 (CET)
  - +5 replies
  - Daxim
    
    2020-02-09 13:53
    User since
    2007-08-01
    114 Artikel
    BenutzerIn
    
    Das ist keine generelle Lösung. Die meisten HTML-Dokumente sind nicht XML-konform. Verwende entweder den HTML-Parser von LibXML oder gleich einen gescheiten:
    
    Code (perl): (dl )
    
    1 2 3
    
    use Web::Query::LibXML 'wq'; print wq('http://de.wikibooks.org')->find('link[rel="canonical"]')->attr('href'); # https://de.wikibooks.org/wiki/Hauptseite
    - +4 replies
    - mika
      
      2020-02-09 17:47
      
      User since
      2010-10-02
      168 Artikel
      BenutzerIn
      
      Web::Query::LibXML kannte ich noch nicht, aber mit XML::LibXML geht es auch. Wichtig ist nur die Option recover:
      
      Code: (dl )
      
      1 2 3 4 5
      
      my $dom = XML::LibXML->load_html( string => $code, recover => 1, # try to recover parse errors and carry on to produce a DOM suppress_errors => 1, # turn off the error output );
      - +3 replies
      - rosti
        
        2020-02-10 06:45
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Den Link-Header abzufragen ist deutlich einfacher als HTML zu parsen.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        mika
        
        2020-02-10 17:35
        
        User since
        2010-10-02
        168 Artikel
        BenutzerIn
        
        2020-02-10T05:45:43 rosti
        Den Link-Header abzufragen ist deutlich einfacher als HTML zu parsen.
        
        Aber eine HTTP GET-Abfrage braucht es dennoch? Weil das ist der eigentliche "Flaschenhals".
        
        rosti
        
        2020-02-11 12:37
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Also ich hab das mal geprüft für Dich. Statt einen Link-Header zu senden ziehen die es vor, Responses mit Content-Length: 382280 und mehr ( 5000 Zeilen Text!)
        
        zu senden. Sozusagen die SUV's im WWW. Das nenne ich Umweltverschmutzung, sowas sollte man nicht unterstützen.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
- gelöscht 2020-06-21 10:24

View all threads created 2020-01-28 14:01.