🚸 Improve text extraction even further

author David ‘Bombe’ Roden <bombe@pterodactylus.net>

Fri, 2 Sep 2022 15:27:11 +0000 (17:27 +0200)

committer David ‘Bombe’ Roden <bombe@pterodactylus.net>

Fri, 2 Sep 2022 15:59:29 +0000 (17:59 +0200)
author David ‘Bombe’ Roden <bombe@pterodactylus.net>
Fri, 2 Sep 2022 15:27:11 +0000 (17:27 +0200)
committer David ‘Bombe’ Roden <bombe@pterodactylus.net>
Fri, 2 Sep 2022 15:59:29 +0000 (17:59 +0200)
diff --git a/src/main/kotlin/net/pterodactylus/sone/core/DefaultElementLoader.kt b/src/main/kotlin/net/pterodactylus/sone/core/DefaultElementLoader.kt

index 88cb1f5..69872c5 100644 (file)
--- a/src/main/kotlin/net/pterodactylus/sone/core/DefaultElementLoader.kt
+++ b/src/main/kotlin/net/pterodactylus/sone/core/DefaultElementLoader.kt
@@ -99,10 +99,10 @@ private val Document.metaDescription: String?
                 ?.second
  
  private val Document.firstNonHeadingParagraph: String?
-       get() = body().children()
+       get() = body().select("div, p")
+               .filter { it.textNodes().isNotEmpty() }
                 .map { it to it.text() }
-               .filterNot { it.second == "" }
-               .firstOrNull { !it.first.tagName().startsWith("h", ignoreCase = true) }
+               .firstOrNull { it.second != "" }
                 ?.second
  
  private val Int.human get() = when (this) {
diff --git a/src/test/kotlin/net/pterodactylus/sone/core/DefaultElementLoaderTest.kt b/src/test/kotlin/net/pterodactylus/sone/core/DefaultElementLoaderTest.kt

index 8a3d40f..64456bc 100644 (file)
--- a/src/test/kotlin/net/pterodactylus/sone/core/DefaultElementLoaderTest.kt
+++ b/src/test/kotlin/net/pterodactylus/sone/core/DefaultElementLoaderTest.kt
@@ -151,6 +151,18 @@ class DefaultElementLoaderTest {
         }
  
         @Test
+       fun `element loader can extract first paragraph from real-world example`() {
+               runWithCallback(textKey) { elementLoader, _, callback, _ ->
+                       callback.loaded(FreenetURI(textKey), "text/html; charset=UTF-8", read("element-loader5.html"))
+                       val linkedElement = elementLoader.loadElement(textKey)
+                       assertThat(linkedElement, isLinkedElement(equalTo(textKey), allOf(
+                               hasEntry("type", "html"), hasEntry("title", "Some Nice Page Title"),
+                               hasEntry("description", "This is the first paragraph of the very nice freesite.")
+                       )))
+               }
+       }
+
+       @Test
         fun `image is not loaded again after it failed`() {
                 runWithCallback(IMAGE_ID) { elementLoader, _, callback, _ ->
                         elementLoader.loadElement(IMAGE_ID)
diff --git a/src/test/resources/net/pterodactylus/sone/core/element-loader5.html b/src/test/resources/net/pterodactylus/sone/core/element-loader5.html

new file mode 100644 (file)

index 0000000..94fe1b0
--- /dev/null
+++ b/src/test/resources/net/pterodactylus/sone/core/element-loader5.html
@@ -0,0 +1,12 @@
+<!DOCTYPE html>
+<html>
+<head>
+       <title>Some Nice Page Title</title>
+</head>
+<body>
+<center>
+<h1>First Paragraph</h1>
+<p>This is the <a href="#foo">first paragraph</a> of the very nice freesite.</p>
+</center>
+</body>
+</html>
author	David ‘Bombe’ Roden <bombe@pterodactylus.net>
	Fri, 2 Sep 2022 15:27:11 +0000 (17:27 +0200)
committer	David ‘Bombe’ Roden <bombe@pterodactylus.net>
	Fri, 2 Sep 2022 15:59:29 +0000 (17:59 +0200)
src/main/kotlin/net/pterodactylus/sone/core/DefaultElementLoader.kt		patch \| blob \| history
src/test/kotlin/net/pterodactylus/sone/core/DefaultElementLoaderTest.kt		patch \| blob \| history
src/test/resources/net/pterodactylus/sone/core/element-loader5.html	[new file with mode: 0644]	patch \| blob