持久性 – 为基于Greasemonkey的爬虫存储数据的最佳方法?

我想用Greasemonkey抓取一个网站,并想知道是否有更好的方法来临时存储值而不是GM_setValue.

我想要做的是在社交网络中抓取我的联系人,并从他们的个人资料页面中提取Twitter URL.

我目前的计划是在它自己的标签中打开每个配置文件,这样它看起来更像一个普通的浏览人(即css,scrits和图像将由浏览器加载).然后使用GM_setValue存储Twitter URL.抓取所有配置文件页面后,使用存储的值创建页面.

不过,我对存储选项并不满意.也许有更好的方法?

我已经考虑将用户配置文件插入到当前页面中,以便我可以使用相同的脚本实例处理它们,但我不确定XMLHttpRequest是否看起来与普通用户发起的请求不可分割.

我有一个类似的项目,我需要从网站获得大量(发票行数据),并将其导出到会计数据库.

您可以创建一个.aspx(或PHP等)后端,它处理POST数据并将其存储在数据库中.

您希望从单个页面获得的任何数据都可以存储在一个表单中(如果需要,可以使用样式属性隐藏),使用字段名称或ID来标识数据.然后,您需要做的就是将表单操作设为.aspx页面并使用javascript提交表单.

(或者,您可以向页面添加提交按钮,以便在提交到数据库之前检查表单值).

相关文章
相关标签/搜索