全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 901|回复: 7
打印 上一主题 下一主题

python大佬请进,关于抓取的数据格式的问题

[复制链接]
跳转到指定楼层
1#
发表于 2023-9-18 00:17:50 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
最近百度上线的chat  https://chat.baidu.com/

想自己套个壳玩玩,原打算是用PHP的,但是因为这个结果是流数据,PHP的curl貌似搞不定,只好转到python

代码已完成90%

baidu.rar (1.24 KB, 下载次数: 29)

代码运行成功,也有返回数据

但返回的数据都是这种格式

C:\>python baidu.py
请求成功
event:ping

event:message
data:{"status":0,"qid":"12643291455431891488","pkgId":"cd971053-9663-4d88-8a54-2
c428ddbf3b7_0","sessionId":"43d95fc2-b94f-442f-9c5b-b8078f712862","isDefault":1,
"isShow":0,"data":{"message":{"msgId":"cd971053-9663-4d88-8a54-2c428ddbf3b7","is
Rebuild":false,"updateTime":"1694966929746","metaData":{"state":"waiting-resp","
endTurn":false,"userInfo":{"status":3}},"content":{}}}}


event:message
data:{"status":0,"qid":"12643291455431891488","pkgId":"cd971053-9663-4d88-8a54-2
c428ddbf3b7_1","sessionId":"43d95fc2-b94f-442f-9c5b-b8078f712862","isDefault":1,
"isShow":0,"data":{"message":{"msgId":"cd971053-9663-4d88-8a54-2c428ddbf3b7","is
Rebuild":false,"updateTime":"1694966933900","metaData":{"state":"waiting-resp","
endTurn":false,"userInfo":{"status":3}},"content":{"searchQuery":{"querys":["鲁
迅是谁"]}}}}}


event:message
data:{"status":0,"qid":"12643291455431891488","pkgId":"cd971053-9663-4d88-8a54-2
c428ddbf3b7_2","sessionId":"43d95fc2-b94f-442f-9c5b-b8078f712862","isDefault":1,
"isShow":0,"data":{"message":{"msgId":"cd971053-9663-4d88-8a54-2c428ddbf3b7","is
Rebuild":false,"updateTime":"1694966933978","metaData":{"state":"generating-resp
","endTurn":false,"userInfo":{"status":3}},"content":{"generator":{"text":"鲁迅
,原名周樟","type":"txt","showType":"append","antiFlag":0,"isFinished":false}}}}
}


event:message
data:{"status":0,"qid":"12643291455431891488","pkgId":"cd971053-9663-4d88-8a54-2
c428ddbf3b7_3","sessionId":"43d95fc2-b94f-442f-9c5b-b8078f712862","isDefault":1,
"isShow":0,"data":{"message":{"msgId":"cd971053-9663-4d88-8a54-2c428ddbf3b7","is
Rebuild":false,"updateTime":"1694966934570","metaData":{"state":"generating-resp
","endTurn":false,"userInfo":{"status":3}},"content":{"generator":{"text":"寿,
后改名周树人,字豫山,后改字豫才,是浙江绍兴的人。","type":"txt","showType":"app
end","antiFlag":0,"isFinished":false}}}}}

请问怎么才能把需要的text内容提取出来,组成完整的答案?

求大佬指教
2#
发表于 2023-9-18 00:21:20 来自手机 | 只看该作者
正则万能,你这个格式我前两天刚处理过,把内容交给ai让他给你写正则表达式就好了
3#
发表于 2023-9-18 00:24:42 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
4#
 楼主| 发表于 2023-9-18 00:31:15 | 只看该作者
taiyi747 发表于 2023-9-18 00:21
正则万能,你这个格式我前两天刚处理过,把内容交给ai让他给你写正则表达式就好了 ...

谢谢大佬,没想到呢,一直想着json解析
5#
 楼主| 发表于 2023-9-18 01:03:09 | 只看该作者
BackDoor 发表于 2023-9-18 00:24
python 有  json库直接输出的。

parsed_data['data']['message']['content']['generator']['text']

好的,谢谢大佬
6#
发表于 2023-9-18 01:42:58 | 只看该作者
json.loads()
7#
发表于 2023-9-18 08:48:39 | 只看该作者
这不就是JSON?
8#
发表于 2023-9-18 10:34:47 | 只看该作者
这是py的json基础问题呀,你的头像有点花里胡哨呀
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-12-13 15:59 , Processed in 0.085218 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表