5
DiffBot
* Daten von Webseiten automatisch abrufen: Diffbots Computer Vision APIs verwandeln das Web in Ihre Datenbank.* AUTOMATIC APIs: Extrahieren Sie automatisch strukturierten Inhalt aus Artikeln, Produkten und anderen bekannten Seitentypen.
- Bezahlte
- Web
Warum Diffbot?Wir konzentrieren uns ausschließlich darauf, Ihnen bessere Webdaten zu liefern.Einige der Gründe, warum Hunderte von Kunden (Hunderte von) Millionen Anrufe pro Monat tätigen: #Der beste Content-Extraktor im Web: Diffbot funktioniert automatisch - ohne Regeln oder Schulungen.Es gibt keine bessere Möglichkeit, Daten von Webseiten zu extrahieren.Sehen Sie, wie Diffbot mit anderen Methoden zur Inhaltsextraktion Schritt für Schritt funktioniert: Funktionsvergleich Text-Extraktionsqualität # Seiten automatisch identifizieren: Verwenden Sie die Analyse-API, um alle Produkte, Artikel, Diskussionen oder Bilder beim Crawlen einer Site automatisch zu finden und zu extrahieren.Analyse-API # Detaillierte Produktdaten: Die Produkt-API gibt automatisch vollständige Produktdaten zurück, einschließlich aller Preisdaten, Produkt-IDs, Marken- und vollständiger Spezifikationstabellen.Produkt-API #Clean Text und HTML: Artikel, Diskussionsthreads, Produktbeschreibungen und Bildunterschriften werden in reinem Text und bereinigtem HTML zurückgegeben.Beginnen Sie noch heute mit dem Testen. #Structured Search: Durchsuchen Sie strukturierte Inhalte von jedem Crawl im laufenden Betrieb mit unserer Such-API und geben Sie nur die passenden Ergebnisse zurück.Plus ... ¤ Alle APIs führen Javascript aus, sodass der Inhalt wie ein normaler Browser analysiert wird.¤ Funktioniert dank visueller Verarbeitung auf den meisten nicht-englischen Seiten.¤ Datumsnormalisierung: Datenstempel werden normalisiert und im Standardformat RFC 1123 (HTTP / 1.1) dargestellt.¤ Mehrseitige Artikel werden automatisch in einer einzigen API-Antwort zusammengefügt.¤ Entitätsextraktion: Die automatische Kennzeichnung identifiziert wichtige Themen und Entitäten im Artikeltext.¤ Beheben Sie Probleme in Echtzeit mit dem API Toolkit.¤ Bulk-API ermöglicht das Extrahieren von Hunderten bis Hunderttausenden von Seiten.¤ Greifen Sie auf Crawlbot- und Massenjobdaten im vollständigen JSON- oder CSV-Format zu.¤ Optionales Crawlen mit einem vielfältigen Array von IP-Adressen.
diffbot