From a9699342f93b57f8118ebf2cdc753d1487dae088 Mon Sep 17 00:00:00 2001 From: Dominik Hebeler <dominik@suma-ev.de> Date: Mon, 25 Jan 2021 12:49:54 +0100 Subject: [PATCH] sanitizing title and description --- app/Models/Result.php | 46 +++++++++++++++++++++++++++++++++++++++++-- 1 file changed, 44 insertions(+), 2 deletions(-) diff --git a/app/Models/Result.php b/app/Models/Result.php index 91b40fd4c..88a56477f 100644 --- a/app/Models/Result.php +++ b/app/Models/Result.php @@ -39,11 +39,11 @@ class Result public function __construct($provider, $titel, $link, $anzeigeLink, $descr, $gefVon, $gefVonLink, $sourceRank, $additionalInformation = []) { $this->provider = $provider; - $this->titel = strip_tags(trim($titel)); + $this->titel = $this->sanitizeText(strip_tags(trim($titel))); $this->link = trim($link); $this->anzeigeLink = trim($anzeigeLink); $this->anzeigeLink = preg_replace("/(http[s]{0,1}:\/\/){0,1}(www\.){0,1}/si", "", $this->anzeigeLink); - $this->descr = strip_tags(trim($descr), '<p>'); + $this->descr = $this->sanitizeText(strip_tags(trim($descr), '<p>')); $this->descr = preg_replace("/\n+/si", " ", $this->descr); $this->longDescr = $this->descr; if (strlen($this->descr) > self::DESCRIPTION_LENGTH) { @@ -467,4 +467,46 @@ class Result return $string; } + + /** + * Sanitizes bold or special looking UTF-8 characters + * and replaces them with normal looking ones. + * Thanks to: + * https://stackoverflow.com/questions/42254276/how-to-convert-strange-strong-bold-unicode-to-non-bold-utf-8-chars-in-php/63068771#63068771 + * $text => The text to sanitize + * + * @return Sanitized version of the text + */ + private function sanitizeText($text){ + $target = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"]; + $specialList = [ + 'serifBold' => ['ðš', 'ð›', 'ðœ', 'ð', 'ðž', 'ðŸ', 'ð ', 'ð¡', 'ð¢', 'ð£', 'ð¤', 'ð¥', 'ð¦', 'ð§', 'ð¨', 'ð©', 'ðª', 'ð«', 'ð¬', 'ð', 'ð®', 'ð¯', 'ð°', 'ð±', 'ð²', 'ð³', 'ð€', 'ð', 'ð‚', 'ðƒ', 'ð„', 'ð…', 'ð†', 'ð‡', 'ðˆ', 'ð‰', 'ðŠ', 'ð‹', 'ðŒ', 'ð', 'ðŽ', 'ð', 'ð', 'ð‘', 'ð’', 'ð“', 'ð”', 'ð•', 'ð–', 'ð—', 'ð˜', 'ð™', 'ðŸŽ', 'ðŸ', 'ðŸ', 'ðŸ‘', 'ðŸ’', 'ðŸ“', 'ðŸ”', 'ðŸ•', 'ðŸ–', 'ðŸ—', 'â—', 'â“', '.', ',', '"', "'"], + 'serifItalic' => ['ð‘Ž', 'ð‘', 'ð‘', 'ð‘‘', 'ð‘’', 'ð‘“', 'ð‘”', 'â„Ž', 'ð‘–', 'ð‘—', 'ð‘˜', 'ð‘™', 'ð‘š', 'ð‘›', 'ð‘œ', 'ð‘', 'ð‘ž', 'ð‘Ÿ', 'ð‘ ', 'ð‘¡', 'ð‘¢', 'ð‘£', 'ð‘¤', 'ð‘¥', 'ð‘¦', 'ð‘§', 'ð´', 'ðµ', 'ð¶', 'ð·', 'ð¸', 'ð¹', 'ðº', 'ð»', 'ð¼', 'ð½', 'ð¾', 'ð¿', 'ð‘€', 'ð‘', 'ð‘‚', 'ð‘ƒ', 'ð‘„', 'ð‘…', 'ð‘†', 'ð‘‡', 'ð‘ˆ', 'ð‘‰', 'ð‘Š', 'ð‘‹', 'ð‘Œ', 'ð‘', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'serifBoldItalic' => ['ð’‚', 'ð’ƒ', 'ð’„', 'ð’…', 'ð’†', 'ð’‡', 'ð’ˆ', 'ð’‰', 'ð’Š', 'ð’‹', 'ð’Œ', 'ð’', 'ð’Ž', 'ð’', 'ð’', 'ð’‘', 'ð’’', 'ð’“', 'ð’”', 'ð’•', 'ð’–', 'ð’—', 'ð’˜', 'ð’™', 'ð’š', 'ð’›', 'ð‘¨', 'ð‘©', 'ð‘ª', 'ð‘«', 'ð‘¬', 'ð‘', 'ð‘®', 'ð‘¯', 'ð‘°', 'ð‘±', 'ð‘²', 'ð‘³', 'ð‘´', 'ð‘µ', 'ð‘¶', 'ð‘·', 'ð‘¸', 'ð‘¹', 'ð‘º', 'ð‘»', 'ð‘¼', 'ð‘½', 'ð‘¾', 'ð‘¿', 'ð’€', 'ð’', 'ðŸŽ', 'ðŸ', 'ðŸ', 'ðŸ‘', 'ðŸ’', 'ðŸ“', 'ðŸ”', 'ðŸ•', 'ðŸ–', 'ðŸ—', 'â—', 'â“', '.', ',', '"', "'"], + 'sans' => ['ð–º', 'ð–»', 'ð–¼', 'ð–½', 'ð–¾', 'ð–¿', 'ð—€', 'ð—', 'ð—‚', 'ð—ƒ', 'ð—„', 'ð—…', 'ð—†', 'ð—‡', 'ð—ˆ', 'ð—‰', 'ð—Š', 'ð—‹', 'ð—Œ', 'ð—', 'ð—Ž', 'ð—', 'ð—', 'ð—‘', 'ð—’', 'ð—“', 'ð– ', 'ð–¡', 'ð–¢', 'ð–£', 'ð–¤', 'ð–¥', 'ð–¦', 'ð–§', 'ð–¨', 'ð–©', 'ð–ª', 'ð–«', 'ð–¬', 'ð–', 'ð–®', 'ð–¯', 'ð–°', 'ð–±', 'ð–²', 'ð–³', 'ð–´', 'ð–µ', 'ð–¶', 'ð–·', 'ð–¸', 'ð–¹', 'ðŸ¢', 'ðŸ£', 'ðŸ¤', 'ðŸ¥', 'ðŸ¦', 'ðŸ§', 'ðŸ¨', 'ðŸ©', 'ðŸª', 'ðŸ«', '!', '?', '.', ',', '"', "'"], + 'sansBold' => ['ð—®', 'ð—¯', 'ð—°', 'ð—±', 'ð—²', 'ð—³', 'ð—´', 'ð—µ', 'ð—¶', 'ð—·', 'ð—¸', 'ð—¹', 'ð—º', 'ð—»', 'ð—¼', 'ð—½', 'ð—¾', 'ð—¿', 'ð˜€', 'ð˜', 'ð˜‚', 'ð˜ƒ', 'ð˜„', 'ð˜…', 'ð˜†', 'ð˜‡', 'ð—”', 'ð—•', 'ð—–', 'ð——', 'ð—˜', 'ð—™', 'ð—š', 'ð—›', 'ð—œ', 'ð—', 'ð—ž', 'ð—Ÿ', 'ð— ', 'ð—¡', 'ð—¢', 'ð—£', 'ð—¤', 'ð—¥', 'ð—¦', 'ð—§', 'ð—¨', 'ð—©', 'ð—ª', 'ð—«', 'ð—¬', 'ð—', 'ðŸ¬', 'ðŸ', 'ðŸ®', 'ðŸ¯', 'ðŸ°', 'ðŸ±', 'ðŸ²', 'ðŸ³', 'ðŸ´', 'ðŸµ', 'â—', 'â“', '.', ',', '"', "'"], + 'sansItalic' => ['ð˜¢', 'ð˜£', 'ð˜¤', 'ð˜¥', 'ð˜¦', 'ð˜§', 'ð˜¨', 'ð˜©', 'ð˜ª', 'ð˜«', 'ð˜¬', 'ð˜', 'ð˜®', 'ð˜¯', 'ð˜°', 'ð˜±', 'ð˜²', 'ð˜³', 'ð˜´', 'ð˜µ', 'ð˜¶', 'ð˜·', 'ð˜¸', 'ð˜¹', 'ð˜º', 'ð˜»', 'ð˜ˆ', 'ð˜‰', 'ð˜Š', 'ð˜‹', 'ð˜Œ', 'ð˜', 'ð˜Ž', 'ð˜', 'ð˜', 'ð˜‘', 'ð˜’', 'ð˜“', 'ð˜”', 'ð˜•', 'ð˜–', 'ð˜—', 'ð˜˜', 'ð˜™', 'ð˜š', 'ð˜›', 'ð˜œ', 'ð˜', 'ð˜ž', 'ð˜Ÿ', 'ð˜ ', 'ð˜¡', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'sansBoldItalic' => ['ð™–', 'ð™—', 'ð™˜', 'ð™™', 'ð™š', 'ð™›', 'ð™œ', 'ð™', 'ð™ž', 'ð™Ÿ', 'ð™ ', 'ð™¡', 'ð™¢', 'ð™£', 'ð™¤', 'ð™¥', 'ð™¦', 'ð™§', 'ð™¨', 'ð™©', 'ð™ª', 'ð™«', 'ð™¬', 'ð™', 'ð™®', 'ð™¯', 'ð˜¼', 'ð˜½', 'ð˜¾', 'ð˜¿', 'ð™€', 'ð™', 'ð™‚', 'ð™ƒ', 'ð™„', 'ð™…', 'ð™†', 'ð™‡', 'ð™ˆ', 'ð™‰', 'ð™Š', 'ð™‹', 'ð™Œ', 'ð™', 'ð™Ž', 'ð™', 'ð™', 'ð™‘', 'ð™’', 'ð™“', 'ð™”', 'ð™•', 'ðŸŽ', 'ðŸ', 'ðŸ', 'ðŸ‘', 'ðŸ’', 'ðŸ“', 'ðŸ”', 'ðŸ•', 'ðŸ–', 'ðŸ—', 'â—', 'â“', '.', ',', '"', "'"], + 'script' => ['ð’¶', 'ð’·', 'ð’¸', 'ð’¹', 'ℯ', 'ð’»', 'â„Š', 'ð’½', 'ð’¾', 'ð’¿', 'ð“€', 'ð“', 'ð“‚', 'ð“ƒ', 'â„´', 'ð“…', 'ð“†', 'ð“‡', 'ð“ˆ', 'ð“‰', 'ð“Š', 'ð“‹', 'ð“Œ', 'ð“', 'ð“Ž', 'ð“', 'ð’œ', 'ℬ', 'ð’ž', 'ð’Ÿ', 'â„°', 'ℱ', 'ð’¢', 'â„‹', 'â„', 'ð’¥', 'ð’¦', 'â„’', 'ℳ', 'ð’©', 'ð’ª', 'ð’«', 'ð’¬', 'â„›', 'ð’®', 'ð’¯', 'ð’°', 'ð’±', 'ð’²', 'ð’³', 'ð’´', 'ð’µ', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'scriptBold' => ['ð“ª', 'ð“«', 'ð“¬', 'ð“', 'ð“®', 'ð“¯', 'ð“°', 'ð“±', 'ð“²', 'ð“³', 'ð“´', 'ð“µ', 'ð“¶', 'ð“·', 'ð“¸', 'ð“¹', 'ð“º', 'ð“»', 'ð“¼', 'ð“½', 'ð“¾', 'ð“¿', 'ð”€', 'ð”', 'ð”‚', 'ð”ƒ', 'ð“', 'ð“‘', 'ð“’', 'ð““', 'ð“”', 'ð“•', 'ð“–', 'ð“—', 'ð“˜', 'ð“™', 'ð“š', 'ð“›', 'ð“œ', 'ð“', 'ð“ž', 'ð“Ÿ', 'ð“ ', 'ð“¡', 'ð“¢', 'ð“£', 'ð“¤', 'ð“¥', 'ð“¦', 'ð“§', 'ð“¨', 'ð“©', 'ðŸŽ', 'ðŸ', 'ðŸ', 'ðŸ‘', 'ðŸ’', 'ðŸ“', 'ðŸ”', 'ðŸ•', 'ðŸ–', 'ðŸ—', 'â—', 'â“', '.', ',', '"', "'"], + 'fraktur' => ['ð”ž', 'ð”Ÿ', 'ð” ', 'ð”¡', 'ð”¢', 'ð”£', 'ð”¤', 'ð”¥', 'ð”¦', 'ð”§', 'ð”¨', 'ð”©', 'ð”ª', 'ð”«', 'ð”¬', 'ð”', 'ð”®', 'ð”¯', 'ð”°', 'ð”±', 'ð”²', 'ð”³', 'ð”´', 'ð”µ', 'ð”¶', 'ð”·', 'ð”„', 'ð”…', 'â„', 'ð”‡', 'ð”ˆ', 'ð”‰', 'ð”Š', 'â„Œ', 'â„‘', 'ð”', 'ð”Ž', 'ð”', 'ð”', 'ð”‘', 'ð”’', 'ð”“', 'ð””', 'â„œ', 'ð”–', 'ð”—', 'ð”˜', 'ð”™', 'ð”š', 'ð”›', 'ð”œ', 'ℨ', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'frakturBold' => ['ð–†', 'ð–‡', 'ð–ˆ', 'ð–‰', 'ð–Š', 'ð–‹', 'ð–Œ', 'ð–', 'ð–Ž', 'ð–', 'ð–', 'ð–‘', 'ð–’', 'ð–“', 'ð–”', 'ð–•', 'ð––', 'ð–—', 'ð–˜', 'ð–™', 'ð–š', 'ð–›', 'ð–œ', 'ð–', 'ð–ž', 'ð–Ÿ', 'ð•¬', 'ð•', 'ð•®', 'ð•¯', 'ð•°', 'ð•±', 'ð•²', 'ð•³', 'ð•´', 'ð•µ', 'ð•¶', 'ð•·', 'ð•¸', 'ð•¹', 'ð•º', 'ð•»', 'ð•¼', 'ð•½', 'ð•¾', 'ð•¿', 'ð–€', 'ð–', 'ð–‚', 'ð–ƒ', 'ð–„', 'ð–…', 'ðŸŽ', 'ðŸ', 'ðŸ', 'ðŸ‘', 'ðŸ’', 'ðŸ“', 'ðŸ”', 'ðŸ•', 'ðŸ–', 'ðŸ—', 'â—', 'â“', '.', ',', '"', "'"], + 'monospace' => ['ðšŠ', 'ðš‹', 'ðšŒ', 'ðš', 'ðšŽ', 'ðš', 'ðš', 'ðš‘', 'ðš’', 'ðš“', 'ðš”', 'ðš•', 'ðš–', 'ðš—', 'ðš˜', 'ðš™', 'ðšš', 'ðš›', 'ðšœ', 'ðš', 'ðšž', 'ðšŸ', 'ðš ', 'ðš¡', 'ðš¢', 'ðš£', 'ð™°', 'ð™±', 'ð™²', 'ð™³', 'ð™´', 'ð™µ', 'ð™¶', 'ð™·', 'ð™¸', 'ð™¹', 'ð™º', 'ð™»', 'ð™¼', 'ð™½', 'ð™¾', 'ð™¿', 'ðš€', 'ðš', 'ðš‚', 'ðšƒ', 'ðš„', 'ðš…', 'ðš†', 'ðš‡', 'ðšˆ', 'ðš‰', 'ðŸ¶', 'ðŸ·', 'ðŸ¸', 'ðŸ¹', 'ðŸº', 'ðŸ»', 'ðŸ¼', 'ðŸ½', 'ðŸ¾', 'ðŸ¿', 'ï¼', '?', '.', ',', '"', '''], + 'fullwidth' => ['ï½', 'b', 'c', 'd', 'ï½…', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'ï½', 'n', 'ï½', 'ï½', 'q', 'ï½’', 's', 'ï½”', 'u', 'ï½–', 'ï½—', 'x', 'ï½™', 'z', 'A', 'ï¼¢', 'ï¼£', 'D', 'ï¼¥', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'ï¼', 'ï¼®', 'O', 'ï¼°', 'ï¼±', 'ï¼²', 'ï¼³', 'ï¼´', 'ï¼µ', 'V', 'ï¼·', 'X', 'ï¼¹', 'Z', 'ï¼', '1', 'ï¼’', '3', 'ï¼”', '5', 'ï¼–', 'ï¼—', '8', 'ï¼™', 'ï¼', '?', '.', ',', '"', '''], + 'doublestruck' => ['ð•’', 'ð•“', 'ð•”', 'ð••', 'ð•–', 'ð•—', 'ð•˜', 'ð•™', 'ð•š', 'ð•›', 'ð•œ', 'ð•', 'ð•ž', 'ð•Ÿ', 'ð• ', 'ð•¡', 'ð•¢', 'ð•£', 'ð•¤', 'ð•¥', 'ð•¦', 'ð•§', 'ð•¨', 'ð•©', 'ð•ª', 'ð•«', 'ð”¸', 'ð”¹', 'â„‚', 'ð”»', 'ð”¼', 'ð”½', 'ð”¾', 'â„', 'ð•€', 'ð•', 'ð•‚', 'ð•ƒ', 'ð•„', 'â„•', 'ð•†', 'â„™', 'â„š', 'â„', 'ð•Š', 'ð•‹', 'ð•Œ', 'ð•', 'ð•Ž', 'ð•', 'ð•', 'ℤ', 'ðŸ˜', 'ðŸ™', 'ðŸš', 'ðŸ›', 'ðŸœ', 'ðŸ', 'ðŸž', 'ðŸŸ', 'ðŸ ', 'ðŸ¡', 'â•', 'â”', '.', ',', '"', "'"], + 'capitalized' => ['á´€', 'Ê™', 'á´„', 'á´…', 'á´‡', 'ꜰ', 'É¢', 'Êœ', 'ɪ', 'á´Š', 'á´‹', 'ÊŸ', 'á´', 'É´', 'á´', 'á´˜', 'q', 'Ê€', 'ꜱ', 'á´›', 'á´œ', 'á´ ', 'á´¡', 'x', 'Ê', 'á´¢', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'ï¹—', 'ï¹–', 'ï¹’', 'ï¹', '"', "'"], + //'circled' => ['â“', 'â“‘', 'â“’', 'â““', 'â“”', 'â“•', 'â“–', 'â“—', 'ⓘ', 'â“™', 'â“š', 'â“›', 'â“œ', 'â“', 'â“ž', 'â“Ÿ', 'â“ ', 'â“¡', 'â“¢', 'â“£', 'ⓤ', 'â“¥', 'ⓦ', 'ⓧ', 'ⓨ', 'â“©', 'â’¶', 'â’·', 'â’¸', 'â’¹', 'â’º', 'â’»', 'â’¼', 'â’½', 'â’¾', 'â’¿', 'â“€', 'â“', 'â“‚', 'Ⓝ', 'â“„', 'â“…', 'Ⓠ', 'Ⓡ', 'Ⓢ', 'Ⓣ', 'â“Š', 'â“‹', 'â“Œ', 'â“', 'â“Ž', 'â“', '⓪', 'â‘ ', 'â‘¡', 'â‘¢', 'â‘£', '⑤', 'â‘¥', '⑦', '⑧', '⑨', '!', '?', '.', ',', '"', "'"], + //'parenthesized' => ['â’œ', 'â’', 'â’ž', 'â’Ÿ', 'â’ ', 'â’¡', 'â’¢', 'â’£', 'â’¤', 'â’¥', 'â’¦', 'â’§', 'â’¨', 'â’©', 'â’ª', 'â’«', 'â’¬', 'â’', 'â’®', 'â’¯', 'â’°', 'â’±', 'â’²', 'â’³', 'â’´', 'â’µ', 'ðŸ„', '🄑', '🄒', '🄓', '🄔', '🄕', '🄖', '🄗', '🄘', '🄙', '🄚', '🄛', '🄜', 'ðŸ„', '🄞', '🄟', '🄠', '🄡', '🄢', '🄣', '🄤', '🄥', '🄦', '🄧', '🄨', '🄩', 'â“¿', 'â‘´', '⑵', '⑶', 'â‘·', '⑸', '⑹', '⑺', 'â‘»', '⑼', '!', '?', '.', ',', '"', "'"], + 'underlinedSingle' => ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'underlinedDouble' => ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'strikethroughSingle' => ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + 'crosshatch' => ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '!', '?', '.', ',', '"', "'"], + ]; + + foreach ($specialList as $list) { + $text = str_replace($list, $target, $text); + } + + return $text; + } } -- GitLab