Ps: 首要的业务说三次!!!
末段有彩蛋,结尾有彩蛋,结尾有彩蛋。

万一本人索要爬(cai)(ji)的数据量比较大,为了避防万1被网址封Ip,能够分时段爬取,其它对于爬到的数目貌似是用来储存数据库,那就须要对数据开始展览去重处理,记录上次爬取的动静,就能够完毕在爬虫中断后,能够长足持续上次的景色,实现增量爬取,那里可以参照小编在此之前写过的一个新闻采访,增量采集音信数据,本文写的对新浪果壳网的数据收集和拍卖一体化代码在自家的Github
玩新浪的人半数以上应有知道新浪搞笑排行榜的,刚好写那篇文以前看到榜姐3月八号0点话题是1位说一个,追女孩的小道理,感觉那个话题简直是对普遍单身男性的有利呀,ヾ(✿゚゚)ノ,故有了何不就收集一下评论来分析1波的想法。

壹.施用网易腾讯网提供的API对数据举行采集

作为二个爬虫菜鸟来说,假设不会选取代理IP池,同时对网址的反爬机制不太清楚,提出先去看下网址是或不是友善提供的有API,明日大家要爬取的网址是知乎新浪,当然新浪网作为为满世界用户24钟头提供完善及时的普通话音信的大网址,一定是提供温馨的API接口的。那样的大网址,必定是经验了广大场爬虫与反爬之间的烟尘,也自然有很周全的反爬策略,所以我们得以经过调用腾讯网微博的开放平台来取得大家想要的音讯。使用在此以前请详细阅读API文书档案,在开放平台认证为开发者,附App
key链接

# 如果这里引入失败,可以直接下载SDK和文件放一块就ok
from weibo import APIClient 
import webbrowser

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

APP_KEY = '你的App Key '  # 获取的app key 
APP_SECRET = '你的AppSecret'  # 获取的appsecret 
CALLBACK_URL = 'https://api.weibo.com/oauth2/default.html' #回调链接 

# 在网站设置"使用微博账号登陆"的链接,当用户点击链接后,引导用户跳转至如下地址  
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL) 
# 得到授权页面的url,利用webbrowser打开这个url  
url = client.get_authorize_url() 
webbrowser.open_new(url) #打开默认浏览器获取code参数 

# 获取URL参数code:
print '输入url中code后面的内容后按回车键:'

code = raw_input() # 人工输入网址后面的code内容  
r = client.request_access_token(code)  # 获得用户授权 
access_token = r.access_token   # 新浪返回的token,类似abc123xyz456
expires_in = r.expires_in
# 设置得到的access_token,client可以直接调用API了
client.set_access_token(access_token, expires_in)

得到某些用户最新发表的果壳网列表

uid
的收获格局,我们点开分化的今日头条,会意识链接中https://m.weibo.cn/u/2706896955?sudaref=login.sina.com.cn&display=0&retcode=6102
u之后的数字就是用户的uid。

content = client.statuses.user_timeline(uid=2706896955, count=100)

回来的结果是json格式的

{
    "statuses": [
        {
            "created_at": "Tue May 31 17:46:55 +0800 2011",
            "id": 11488058246,
            "text": "求关注。",
            "source": "<a href="http://weibo.com" rel="nofollow">新浪微博</a>",
            "favorited": false,
            "truncated": false,
            "in_reply_to_status_id": "",
            "in_reply_to_user_id": "",
            "in_reply_to_screen_name": "",
            "geo": null,
            "mid": "5612814510546515491",
            "reposts_count": 8,
            "comments_count": 9,
            "annotations": [],
            "user": {
                "id": 1404376560,
                "screen_name": "zaku",
                "name": "zaku",
                "province": "11",
                "city": "5",
                "location": "北京 朝阳区",
                "description": "人生五十年,乃如梦如幻;有生斯有死,壮士复何憾。",
                "url": "http://blog.sina.com.cn/zaku",
                "profile_image_url": "http://tp1.sinaimg.cn/1404376560/50/0/1",
                "domain": "zaku",
                "gender": "m",
                "followers_count": 1204,
                "friends_count": 447,
                "statuses_count": 2908,
                "favourites_count": 0,
                "created_at": "Fri Aug 28 00:00:00 +0800 2009",
                "following": false,
                "allow_all_act_msg": false,
                "remark": "",
                "geo_enabled": true,
                "verified": false,
                "allow_all_comment": true,
                "avatar_large": "http://tp1.sinaimg.cn/1404376560/180/0/1",
                "verified_reason": "",
                "follow_me": false,
                "online_status": 0,
                "bi_followers_count": 215
            }
        },
        ...
    ],
    "previous_cursor": 0,                     // 暂未支持
    "next_cursor": 11488013766,      // 暂未支持
    "total_number": 81655
}

回到的字段表达

假定大家想要查看的是腾讯网新闻内容调用text即可

for info in content.comments:
         text = info.text

二.微博天涯论坛爬虫

chrome浏览器右键检查查看network那几个老套路我就隐瞒了,不知情可以翻Python网络爬虫(一)-
入门基础
从头起头看。
其它:代码是针对性乐乎天涯论坛移动端
https://m.weibo.cn/
进展音信搜集,之所以爬移动端而不是PC全体社交网址爬虫,优先挑选爬移动版(不要来问作者何以好爬,小编也不知情

  • 能够看到最新评论的url是'https://m.weibo.cn/api/comments/show?id=' + 微博id + '&page=' + 页码

点来链接https://m.weibo.cn/single/rcListformat=cards&id=4193705642468999&type=comment&hot=0&page=2即为重临的json格式的数量

接下去直接上代码

import re
import time
import requests

uid = '4193705642468999'
url = 'https://m.weibo.cn/single/rcList?format=cards&id=' + uid + '&type=comment&hot=0&page={}'
headers = {
"Accept": "application/json, text/javascript, */*; q=0.01",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Cookie": "你的cookie",
"Host": "m.weibo.cn",
"Referer": "https://m.weibo.cn/status/" + uid,
"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Mobile Safari/537.36",
"X-Requested-With": "XMLHttpRequest",
}

i = 0
comment_num = 1  # 第几条评论
while True:
res = requests.get(url=url.format(i), headers=headers)
r = res.json()
content = r[0]['card_group']
if r.status_code == 200:
    try:
        for j in range(0, len(content)):
            hot_data = content[j]
            comment_id = hot_data['user']['id']  # 用户id
            user_name = hot_data['user']['screen_name']  # 用户名
            created_at = hot_data['created_at']  # 评论时间
            comment = re.sub('<.*?>|回复<.*?>:|[\U00010000-\U0010ffff]|[\uD800-\uDBFF][\uDC00-\uDFFF]', '', hot_data['text'])  # 评论内容
            like_counts = hot_data['like_counts']  # 点赞数
            comment_num += 1
        i += 1
        time.sleep(3)
    except Exception as e:
        logger.debug(e)
else:
    break

接下去便是对数据的保留和处理了。
注意:
天涯论坛终究是大厂,对爬虫肯定有投机的反爬策略,为了防止访问频繁被封禁,能够设置代理ip池,限制抓取时间等等。你问小编怎么通晓的,作者才不会告知您~

一旦您出现了这么些页面恐怕采集不到别的音信,恭喜你,被天涯论坛重视了

三.数额的蕴藏和处理

因为以往越多的商店伊始稳步使用PostgreSQL作为店铺数据库,那里我们就把多少存款和储蓄于Postgresql,为了使大家的万事项目尤为工程化,大家把对数据库的操作单独定义方法。

# 对数据库实现查询的方法
def execute_select(conn, sql, params=None):
    with conn.cursor() as cur:
        if params:
            cur.execute(sql, params)
        else:
            cur.execute(sql)
        return cur.fetchall()

# 对数据库实现增删改的方法
def execute_sql(conn, sql, params=None):
    with conn.cursor() as cur:
        if params:
            cur.execute(sql, params)
        else:
            cur.execute(sql)

大功告成了2/四,运维代码 –> 保存数据库
接下来本来是对大家占领的数量进行分(hu)析(shuo)展(ba)示(dao)了(千年不变的覆辙hhhhhh..)

此处大家能够看来数据现已打响存款和储蓄与数据库

四.数目标处理和剖析

既是谈起对普通话数据的处理和出示,大家常用的就二种方法,词云、心思分析、数据可视化彰显,那里小编就无法不提到python中比较知名的多个国语NLP库:snowNLP,snowNLP能够基于提交的句子生成二个0-一里头的值,当班值日大于0.5时表示句子的情义极性偏向主动,当分值小于0.伍时,激情极性偏向颓丧,越偏向多头,心情就越敏感。使用2个库最简易暴力的法子———读官方文书档案。

snownlp的采取也很简单

自家任性抽取了两张结果,简单标注了一下,我们不难发现涉嫌到主动、长得帅、有钱的、要勇敢、口红、情商这个词生成的值都在0.玖,矮矬穷、渣、你他妈这一个词生成的值都在0.5以下,林佳,给本身留一口啊!是如何鬼,竟然0.柒???

  • 即使如此数据量大(其实是从未有过删除停用词ヾ(✿゚゚)ノ)导致的词云图效果不太好,然而大家还是能够看来聊天、主动、好看那多少个词的词频较高,至于为何自身不剔除停用词,是因为没有语言材质库照旧因为不会用,都不是,因为笔者懒,笔者懒,笔者懒…
    剔除停用词的科目在此以前写的稿子中有:Python数据正确(三)-
    python与数量科学使用(Ⅲ)

def word_cloud(comment):
    logger.info('制作词云图...word_cloud')
    comment_text = ''
    back_coloring = imread("static/heart.jpg")
    cloud = WordCloud(font_path='static/simhei.ttf', 
                      background_color="white",  # 背景颜色
                      max_words=2000,  
                      mask=back_coloring,  
                      max_font_size=100,  
                      width=1000, height=860, margin=2,  
                      random_state=42,
                      )
    for li in comment:
        comment_text += ' '.join(jieba.cut(li, cut_all=False))
    wc = cloud.generate(comment_text)
    image_colors = ImageColorGenerator(back_coloring)
    plt.figure("wordc")
    plt.imshow(wc.recolor(color_func=image_colors))
    wc.to_file('微博评论词云图.png')
  • 对拍卖过得心绪值列表举行计算,并扭转分布图,采集的评说大概有伍w条

def snow_analysis(comment):
    logger.info('自然语言处理NLP...snow_analysis')
    sentimentslist = []
    for li in comment:
        s = SnowNLP(li)
        # logger.debug(li)
        # logger.debug(li, s.sentiments)
        print(li, s.sentiments)
        sentimentslist.append(s.sentiments)
    fig1 = plt.figure("sentiment")
    plt.hist(sentimentslist, bins=np.arange(0, 1, 0.02))
    plt.show()

天涯论坛 1位说3个,追女孩的小道理 评论的心境值分布

能够看来心境值在接近0.陆~一.0左右地点频率较高,表达听众们对此这则果壳网的评论和介绍积极态度占多数,因为这些博客园自个儿就是偏积极性的,得出的结果也印证了那一个难点。

小编们的初衷是为着什么追女生,作者就计算了一下涌出比较多的评价(有博主为了抢热门频仍刷评论?),三行代码就足以消除,这一个Counter的用法此前也写过,传送门:运用python中的第2方库Counter

# 使用python的第三方库
from collections import Counter
userdict = Counter(comment_list)
print(userdict.most_common(8))

一.势供给继续努力啊 不然等女子主动吗!不过主动也要适度
别让对方觉得恐怖…

二.灵魂要好,3观要正确,权利感,孝顺善良这个内在因素也很重点

3.追某部女孩时 只追她1位 千万别撩外人

四.言谈幽默诙谐但毫无轻佻

5.对她当孙女养吧

陆.女生是要用来宠的,不是来跟他讲道理的。

7.多陪她聊聊,多关切他,保养他,珍爱他,领悟她,宠她,尊重她,给他安全感

8.不要暧昧不清,不要套路

文末彩蛋:

有不少匹夫抱怨本人追不到喜欢的丫头,追了多少个礼拜就废弃了。其实,要改变的是你协调,只要努力向上,让自身变得更杰出,同时对幼女保持合适的青睐和热情,百折不挠几个月,总有1天你就会发现,不爱好便是不爱好那是尚未主意的工作。

最后,由于那篇博客是二零一八年第叁篇博客,那么就祝大家狗年脱单了~

网站地图xml地图