3.2.1数据存储数据分析
现在几乎全部的资讯网站,都已发表文章的形式向读者传递信息。文章可以让读者更全面的认识到事物,不同于简讯,简讯只是让我们看到了表面而没有让读者更深入的了解到许多细节性的东西。而发表文章就大有不同了,让读者更全面、更细致的去了解一个产品或者一种事物。现如今这种方式也已经被大多数人认可并采用。同时也很注重信息全面的重要性。
所以决定,主要对这些网站的一些文章作为抓取的对象,抓取文章的标题、时间、网站来源、文章内容并存入数据库。
3.2.2数据库编码
数据库编码问题一直是一个让人头疼的问题,数据库编码出现的错误也肯定直接关系到数据是否能正确存储。要确定数据存储的高效性和正确性,就一定要保证数据库编码合理。
| character_set_client | | character_set_connection | | character_set_database | | character_set_filesystem | | character_set_results | | character_set_server | | character_set_system |
上述则是数据库所有编码选项,大部分资料说明应该把所有编码格式编码为utf-8。但经过实际操作全部编码改为utf-8后,出现中文字符无法插入数据库的问题。所以最终的编码格式改为:
| character_set_client | gbk | character_set_connection | gbk | character_set_database | utf8 | character_set_filesystem | binary | character_set_results | gbk | character_set_server | utf8 | character_set_system | utf8
3.2.2数据库建表
12
每个网站的信息记录都是一张独立的表,以免存在一个表中数据量过大,数据库表一出错,就导致全部瘫痪。这样我们就有很高的操作性,虽然多表查询会直接影响数据查询的效率。但相比较下,稳定性远远比查询效率高重要的多。所以选择舍去查询效率,留下系统稳定性。
表3.1 中关村在线数据存储表(zol)
Field Name zol_id zol_title zol_url zol_time zol_content
表3.2 新浪数据存储表(sina)
Field Name sina_id sina_title sina_url sina_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type int varchar varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 sina_content varchar
表3.3 手机世界数据存储表(3533_)
Field Name 3353_id 3353_title 3353_url 3353_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 13
Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 3353_content varchar
表3.4 泡泡手机数据存储表(pcpop)
Field Name pcpop_id pcpop_title pcpop_url pcpop_time Field Type int varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 pcpop_content varchar
表3.5 手机之家数据存储表(imobile)
Field Name imobile_id imobile_title imobile_url imobile_time imobile_content
表3.6 手机中国数据存储表(cnmo)
Field Name cnmo_id cnmo_title cnmo_url cnmo_time cnmo_content
Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 14
表3.7 网易手机数据存储表(163_)
Field Name 163_id 163_title 163_url 163_time 163_content
表3.8 it168手机数据存储表(it168)
Field Name it168_id it168_title it168_url it168_time it168_content
Field Type Size int varchar varchar varchar varchar 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容 Field Type int varchar varchar varchar varchar Size 11 100 100 100 10000 Null 否 否 否 否 否 Primary Implementatkey ion 是 文章id 否 否 否 否 文章标题 文章url 文章时间 文章内容
15
第4章 系统功能设计与实现
在系统分析和设计阶段,系统开发工作主要是集中在逻辑、功能和技术设计上,系统实施阶段要继承此前面各个阶段的工作成果,将技术设计转化为物理实现,因此系统实施的成果是系统分析和设计阶段的结晶。
系统模块设计如图4.1所示:
图4.1 模块功能图
第4.1节 用户登录
程序运行效果图如图4.2所示:
16