如何加载 HTML

超文本标记语言（HTML）是用于在 Web 浏览器中显示的文档的标准标记语言。

这里介绍了如何将 HTML 文档加载到 LangChain 的Document对象中，以便我们可以在下游使用。

解析 HTML 文件通常需要专门的工具。在这里，我们演示了如何通过Unstructured和BeautifulSoup4进行解析，可以通过 pip 安装。请前往集成页面查找与其他服务的集成，例如Azure AI Document Intelligence或FireCrawl。

使用 Unstructured 加载 HTML

python

%pip install "unstructured[html]"

python

from langchain_community.document_loaders import UnstructuredHTMLLoader
file_path = "../../../docs/integrations/document_loaders/example_data/fake-content.html"
loader = UnstructuredHTMLLoader(file_path)
data = loader.load()
print(data)

text

[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用 BeautifulSoup4 加载 HTML

我们还可以使用 BeautifulSoup4 使用BSHTMLLoader加载 HTML 文档。这将将 HTML 中的文本提取到page_content中，并将页面标题提取到metadata的title中。

python

%pip install bs4

python

from langchain_community.document_loaders import BSHTMLLoader
loader = BSHTMLLoader(file_path)
data = loader.load()
print(data)

text

[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

🏷 提示模板

🏷 示例选择器

🏷 聊天模型

🏷 LLMs

🏷 输出解析器

🏷 文档加载器

🏷 嵌入模型

🏷 检索器

🏷 索引

🏷 工具

🏷 代理

🏷 回调

🏷 自定义

🏷 与RAG进行问答

🏷 提取

🏷 聊天机器人

🏷 查询分析

🏷 SQL + CSV上的问答

🏷 图数据库上的问答

如何加载 HTML

使用 Unstructured 加载 HTML

使用 BeautifulSoup4 加载 HTML

如何加载 HTML ​

使用 Unstructured 加载 HTML ​

使用 BeautifulSoup4 加载 HTML ​

如何加载 HTML

使用 Unstructured 加载 HTML

使用 BeautifulSoup4 加载 HTML