Spaces:

jenniferhk008
/

Hatesocial

Sleeping

App Files Files Community

Hatesocial / app.py

jenniferhk008

Update app.py

e148110 verified 6 months ago

raw

history blame contribute delete

8.43 kB

	import streamlit as st
	from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
	import pandas as pd
	import torch
	import matplotlib.pyplot as plt
	import numpy as np
	import re

	# 页面配置
	st.set_page_config(page_title="🛡️ 智盾内容安全审核平台", layout="wide")
	PAGES = {
	"🏠 首页": "home",
	"🏢 金融行业审核": "finance",
	"🏛 政府行业审核": "government",
	"🌐 互联网行业审核": "internet",
	"🧠 产品能力": "capability",
	"✍️ 文本校正": "text_correction",
	"📄 文档效正": "doc_alignment",
	"🎙️ 语音检测": "speech_check",
	"💼 加入我们": "join_us",
	"💬 客户反馈": "feedback"
	}
	if "page" not in st.session_state:
	st.session_state.page = "home"
	selected_page = st.sidebar.radio("📂 页面导航", list(PAGES.keys()))
	st.session_state.page = PAGES[selected_page]

	def parse_scores_from_llm_output(text):
	matches = re.findall(r"([\u4e00-\u9fa5A-Za-z]+)[:：]?\s*([0]\.\d+\|1\.0+)", text)
	score_dict = {}
	for label, score in matches:
	try:
	score_dict[label.strip()] = float(score)
	except:
	continue
	return score_dict

	def plot_radar_chart(score_dict):
	labels = list(score_dict.keys())
	scores = list(score_dict.values())
	angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False).tolist()
	scores += scores[:1]
	angles += angles[:1]
	fig, ax = plt.subplots(figsize=(5, 5), subplot_kw=dict(polar=True))
	ax.plot(angles, scores, "o-", linewidth=2)
	ax.fill(angles, scores, alpha=0.25)
	ax.set_thetagrids(np.degrees(angles[:-1]), labels)
	ax.set_ylim(0, 1)
	ax.set_title("📊 风险维度雷达图")
	st.pyplot(fig)

	def plot_bar_chart(score_dict):
	labels = list(score_dict.keys())
	scores = list(score_dict.values())
	fig, ax = plt.subplots()
	ax.barh(labels, scores)
	ax.set_xlim(0, 1)
	ax.set_xlabel("分数 (0-1)")
	ax.set_title("📊 风险维度条形图")
	st.pyplot(fig)

	# ======================== 页面渲染 =========================
	model_map = {
	"BERT": "uer/roberta-base-finetuned-jd-binary-chinese",
	"GPT": "IDEA-CCNL/Taiyi-CLUE-small",
	"DeepSeek": "deepseek-ai/deepseek-llm-7b-chat"
	}
	prompt_list = [
	"这条评论是否包含攻击性言论？请判断并解释。",
	"该文本是否涉及政治敏感内容？",
	"请判断是否应该屏蔽以下评论内容。",
	"请对以下金融评论的合规性进行评分。",
	"请检测是否包含歧视性内容。",
	"请对这条弹幕进行情绪分类。",
	"请指出文本中是否存在隐晦攻击。",
	"这是否是仇恨言论？请给出理由。",
	"请判断该用户评论是否违反平台规则。",
	"请指出内容是否存在偏见或刻板印象。"
	]

	def render_audit_page(title, task_prompt):
	st.title(title)
	model_choice = st.selectbox("🧠 选择模型", list(model_map.keys()))
	model_name = model_map[model_choice]
	input_type = st.radio("输入方式", ["单条输入", "上传CSV文件"])
	user_text = None
	if input_type == "单条输入":
	user_text = st.text_area("请输入文本：", height=150)
	else:
	uploaded_file = st.file_uploader("上传CSV文件（包含'text'列）", type=["csv"])

	if st.button("🚨 开始审核"):
	with st.spinner("审核中..."):
	if model_choice == "DeepSeek":
	tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
	model = AutoModelForCausalLM.from_pretrained(
	model_name,
	device_map="auto",
	torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
	trust_remote_code=True
	)
	if user_text:
	prompt = f"""
	你是一个中文内容审核助手，请对以下文本内容进行分析。

	任务包括：
	1. 判断是否存在违规内容，并简要解释原因。
	2. 给出以下五个风险维度的评分（0-1之间，越高代表越严重）：
	- 人身攻击
	- 暴力
	- 政治敏感
	- 舆论攻击
	- 歧视成分

	输出格式如下：
	内容：<原始文本>
	解释：<判断和解释>
	维度评分：
	- 人身攻击: x.xx
	- 暴力: x.xx
	- 政治敏感: x.xx
	- 舆论攻击: x.xx
	- 歧视成分: x.xx

	文本如下：
	{user_text}
	"""
	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
	outputs = model.generate(**inputs, max_new_tokens=512)
	result = tokenizer.decode(outputs[0], skip_special_tokens=True)
	explanation = result.split("\n", 1)[-1]
	st.markdown("### 📋 审核结果")
	st.write(explanation)
	scores = parse_scores_from_llm_output(explanation)
	if len(scores) >= 3:
	plot_radar_chart(scores)
	plot_bar_chart(scores)
	else:
	st.info("未提取出结构化评分维度")
	else:
	classifier = pipeline("text-classification", model=model_name, tokenizer=model_name, device=0 if torch.cuda.is_available() else -1)
	if user_text:
	result = classifier(user_text)[0]
	st.markdown("### 📋 审核结果")
	st.write(f"标签: {result['label']} / 置信度: {result['score']:.2f}")
	elif uploaded_file:
	df = pd.read_csv(uploaded_file)
	if 'text' not in df.columns:
	st.error("CSV 文件需包含 'text' 列")
	else:
	df["预测标签"] = df["text"].apply(lambda x: classifier(x)[0]['label'])
	st.dataframe(df)

	# 页面渲染逻辑
	if st.session_state.page == "home":
	st.title("🛡️ 智盾内容安全审核平台")
	st.markdown("欢迎使用智盾平台，本系统为政府、金融、互联网行业提供智能内容安全审核服务。\n\n请选择左侧行业进入审核流程。")

	elif st.session_state.page == "finance":
	render_audit_page("🏢 金融行业内容审核", "请审核金融评论内容是否存在合规风险")

	elif st.session_state.page == "government":
	render_audit_page("🏛 政府行业内容审核", "请判断该内容是否存在政治敏感或违规用语")

	elif st.session_state.page == "internet":
	render_audit_page("🌐 互联网内容审核（文本/语音/弹幕）", "请分析该用户生成内容是否违规")

	else:
	st.title(f"🧩 {selected_page}")
	st.info("🚧 此模块为占位页面，后续即将上线。")


	elif st.session_state.page == "capability":
	st.title("🧠 产品能力")
	st.markdown("本平台具备全面的文本纠错、审核、比对与生成能力，适用于政务、金融、媒体等场景。")

	features = [
	("📝 字词错误", "错别字、音近字、形近字、多字、重叠、颠倒、异形词等"),
	("📌 常识错误", "标点符号、地名关联、表达不当、语义错误、不语名词等"),
	("🚫 敏感词过滤", "涉及暴恐、色情、违禁、侮辱、歧视等不健康词语"),
	("⚠️ 政治性差错", "领导人姓名、职务、讲话、政治口号、固定表述等"),
	("📄 文本比对", "快速找出两个文本之间的差异之处，高清高亮显示"),
	("📐 格式错误", "参照国家标准和党政公文规范，自动识别格式问题"),
	("🤖 智能写作", "自动生成新闻稿、公告、任务文书，响应快速"),
	("🌐 网站巡检", "自动抓取网页历史快照，输出违规风险报告")
	]

	for i in range(0, len(features), 2):
	col1, col2 = st.columns(2)
	with col1:
	with st.expander(features[i][0], expanded=True):
	st.markdown(f"功能描述： {features[i][1]}")
	st.button(f"👉 体验 {features[i][0]}", key=f"btn_{i}")
	if i+1 < len(features):
	with col2:
	with st.expander(features[i+1][0], expanded=True):
	st.markdown(f"功能描述： {features[i+1][1]}")
	st.button(f"👉 体验 {features[i+1][0]}", key=f"btn_{i+1}")