采集管理

采集功能可以抓取页面信息，作为文章保存到系统。注意：具有反采集措施的网站，无法采集。

采集列表

点击后台 互动 - 采集管理 进入采集列表页面。

采集新增

点击 新增 按钮，填写采集基础信息。

保存栏目：采集到的文章保存到哪个栏目。

字符集：指待采集页面的字符集，通常为 UTF-8，设置错误可能导致乱码。可以在浏览器中点击右键，再点 "查看页面源代码"，找到类似 <meta http-equiv="content-type" content="text/html;charset=UTF-8"/> 的代码。

采集列表地址：包含文章详细页链接的列表页地址。一行一条，可以使用 (*) 代替页码。如：

http://ent.people.com.cn/GB/436801/
http://ent.people.com.cn/GB/436801/index(*).html

第一条为列表首页地址，第二条为 2 到 4 页的列表页地址。

采集列表页数据

点击 下一步 按钮，填写采集列表页数据。

可以点击 设置 按钮，进入设置页面。

填写匹配规则后，从上至下依次点击 匹配 按钮，可获得最终结果。最终结果通常为一行一条的文章详细页 URL 地址。

如匹配结果不符合预期，可以点击上方 抓取 按钮，重新获取页面内容。

是否正则表达式：默认使用 (*) 获取匹配内容。如开启正则表达式，则按照 Java 正则表达式获取匹配内容，如 ([\w\W]*)。使用正则表达式需要专业的知识，只适合对 Java 正则表达式规则精通的使用者。

是否 JS 字符串：如果匹配的内容是 JS 代码中的内容，需勾选该项。如为正常的 HTML 内容，则无需勾选。

列表页代码

在浏览器中查看列表页的页面源代码，假设有如下结构：

<html>
...
<ul class="list-style">
  <li><a href="/path/example1.html" target="_blank">标题1</a></li>
  <li><a href="/path/example2.html" target="_blank">标题2</a></li>
  <li><a href="https://www.other-site.com/path/example1.html" target="_blank">其它标题2</a></li>
  <li><a href="/path/example3.html" target="_blank">标题3</a></li>
  ....
</ul>
...
</html>

列表区域

列表区域包含所有文章详细页 URL 地址的区域。此例为 <ul class="list-style"> ... </ul> 中的内容，匹配规则为：

<ul class="list-style">
(*)
</ul>

匹配结果为：

  <li><a href="/path/example1.html" target="_blank">标题1</a></li>
  <li><a href="/path/example2.html" target="_blank">标题2</a></li>
  <li><a href="https://www.other-site.com/path/example1.html" target="_blank">其它标题2</a></li>
  <li><a href="/path/example3.html" target="_blank">标题3</a></li>
  ....

条目区域

条目区域是可选项。应包含每条文章的 url 地址、标题以及标题图（如有）。此例为 <li> ... </li> 中的内容，匹配规则为：

<li>*</li>

匹配结果为：

  <a href="/path/example1.html" target="_blank">标题1</a>
  <a href="/path/example2.html" target="_blank">标题2</a>
  <a href="https://www.other-site.com/path/example1.html" target="_blank">其它标题2</a>
  <a href="/path/example3.html" target="_blank">标题3</a>

文章地址 - 匹配表达式

获取文章的 URL 地址。通常为 href 中的内容。此例的匹配规则为：

<a href="(*)"

匹配结果为：

/path/example1.html
/path/example2.html
https://www.other-site.com/path/example1.html
/path/example3.html

文章地址 - 过滤表达式

过滤表达式是对匹配表达式的结果作进一步处理，是可选项，通常无需填写。

此例中假设 https://www.other-site.com/path/example1.html 为其它网站的链接，不希望采集，可使用过滤表达式过滤该地址。

过滤表达式使用 Java 正则表达式规则，删除匹配内容，保留捕获组。如 <a href="/abc">(.*)</a>，则删除链接标签，保留链接文本。

此例填写：

http.*

匹配结果为：

/path/example1.html
/path/example2.html
/path/example3.html

详细页数据

在文章详细页中匹配各个字段，例如标题、正文、发布日期等。规则同上。