trafilatura
“Trafilatura”在意大利语中读作 [tra-fi-la-tu-ra]。其中,每个音节的发音如下:
- “tra”:[tra],类似于英语单词 “tray” 中的 “tr” 音
- “fi”:[fi],类似于英语单词 “fee” 中的 “fee” 音
- “la”:[la],类似于英语单词 “la” 中的 “la” 音
- “tu”:[tu],类似于英语单词 “too” 中的 “too” 音
- “ra”:[ra],类似于英语单词 “rah” 中的 “rah” 音
请注意,这只是一个近似的发音指南,实际的发音可能因个人口音和发音习惯而有所不同。
A Python package & command-line tool to gather text on the Web — trafilatura 1.6.3 documentation
Trafilatura is a Python package and command-line tool designed to gather text on the Web. It includes discovery, extraction and text processing components. Its main applications are web crawling, downloads, scraping, and extraction of main texts, metadata and comments. It aims at staying handy and modular : no database is required, the output can be converted to various commonly used formats.
scrape: 用程序在网络上下载
Trafilatura 是一个 Python 包和命令行工具,旨在收集 Web 上的文本。它包括发现、提取和文本处理组件。其主要应用是网络爬虫、下载、抓取以及主要文本、元数据和评论的提取。它的目标是保持方便和模块化:不需要数据库,输出可以转换为各种常用格式。